1、Oct 20, 2009,第五章 基本分布,Oct 20, 2009,第一节 随机变量及其分布,一、随机变量(random variable) 随机现象,也称不确定现象,指在相同条件下重复试验可 得到不同结果的现象。 必然现象,也称确定性现象 随机试验所得到的每一种可能的结果称为 随机事件。数学上可用一个变量,如X来描 述,称为随机变量。 随机变量的每一取值一般都有确定的概率, 如P(治愈)=P(X=1)=0.60等。因此每一随机变量 都有一定的概率分布,其分布的类型有两种,即离散型分布和连续型分布。,Oct 20, 2009,1、离散型随机变量 (discrete random variable),随机变量X只能取有限个数值X1,X2,Xn或无限个可数数值X1,X2 ,Xn,则X定义为离散型随机变量。 当X=Xk ,概率为P(Xk)则有 随机变量的概率分布,Oct 20, 2009,离散型随机变量的分布函数 :,Oct 20, 2009,2、连续型随机变量 (continuous random variable),像某地某年正常成年男子身高这样的随机变量,由于其可能取值不能一一列举出
2、来,而是在实数轴上的某一确定区间内连续分布,称之为连续分布型随机变量,简称连续型随机变量。 随机变量X的分布函数F(x)为: 概率密度函数 f(x):表示随机变量X在取值X附近单位长度内的概率的大小。 为分布函数F(x)的导数。 所以,对于连续型随机变量来说,要掌握其概率分布规律,其关键是求出其概率密度函数。,Oct 20, 2009,第二节 正态分布,Oct 20, 2009,正态分布曲线的演变,Oct 20, 2009,这条曲线称为频率曲线,略呈钟型,两侧低,中间高,左右对称,近似于概率分布中的正态分布。频率的总和为1,故正态分布曲线下横轴上的面积也应为1。 正态分布的概率密度函数,也称为正态分布曲线方程为:,Oct 20, 2009,正态分布的特性,正态分布只有一个峰值,位于x= 处 正态分布以x= 对称轴左右对称 正态分布的两个参数 和 决定分布位置和形状 正态分布曲线下面积分布有规律,Oct 20, 2009,Oct 20, 2009,对于正态分布常用 xN(,),Oct 20, 2009,Oct 20, 2009,标准正态分布,标准正态分布与标准化变换: (, ) 标准化变
3、换: 令 =0, =1 标准正态分布:(0,1),Oct 20, 2009,Oct 20, 2009,Oct 20, 2009,标准正态分布的应用,例53 已知某地2003年120名7岁男童身高 =122.0cm,s=4.7cm,试估计该地7岁男童身高介于118cm和124cm范围内的比例及110名7岁男童介于此范围内的人数。,Oct 20, 2009,Oct 20, 2009,D=0.6646-0.1989=0.4657=46.57%,(u1)=(-0.8511)=0.1989 (u2)=(0.4255)=1-(-0.4255)=1-0.3354=0.6646,Oct 20, 2009,三、参考值范围,定义:绝大多数正常人的解剖,生理,生化各种指标的波动范围,称作为医学参考值范围(medical reference ranges) 。 正常人:并非指机体任何器官、组织的形态和机能都正常的人,而是指排除了影响所研究指标的疾病和有关因素的人,Oct 20, 2009,步骤和原则,抽取足够大例数的正常人作为样本 (n=100) 控制测量误差 确定是否需要分组确定参考值范围 决定取双侧还是取
4、单侧 选定合适的百分界限 两种方法:正态分布法和百分位数法,Oct 20, 2009,正态分布法,当资料符合正态分布时 双侧1正常值范围公式为: 单侧上限1正常值范围公式为:,Oct 20, 2009,u界值的概念,u/2 为标准正态分布下双侧尾部面积为时的u值(绝对值) u2为标准正态分布下单侧尾部面积为时的u值(绝对值) 特别地: u0.05/21.96; u0.01/22.58; u0.05 1.64; u0.01 2.33;,Oct 20, 2009,Oct 20, 2009,Oct 20, 2009,百分位数法,用于任何分布的资料(n150)。当资料为偏态分布时,不能用正态分布法,而用百分位数法得到1 正常值范围 双侧1正常值范围:P100/2 P 100(1-/2) 单侧1正常值范围上限: P 100,Oct 20, 2009,Oct 20, 2009,Oct 20, 2009,第三节 t分布,一、抽样误差和样本均数分布 抽样误差 由于抽样引起的总体参数与样本统计量之间的 差异叫抽样误差。总体均数与样本均数之间的 差异叫均数抽样误差。,Oct 20, 2009,样本均数分布
5、和抽样误差大小的估计,Oct 20, 2009,抽样试验,某市1999年18岁男生身高服从均数=167.7cm,=5.3cm的正态分布; 从XN(167.7,5.32)的正态总体中随机抽样,样本含量nj=10,g=100;共抽100次;,Oct 20, 2009,图3.1 1999年某市18岁男生身高 N(167.7,5.32)的抽样示意,=167.7cm =5.3cm X1,X2,X3Xj ,167.41, 2.74 165.56, 6.57 168.20, 5.36 : 165.69, 5.09,100个,Oct 20, 2009,样本均数组成一个新的分布特点,各样本均数未必等于总体均数; 各样本均数间存在差异; 样本均数的分布很有规律; ,100个样本均数的均数为167.69cm,而原总体均数为167.7cm 样本均数的变异范围较原变量的变异范围大大缩小;标准差为1.69(5.3);,Oct 20, 2009,中心极限定理,若 服从正态分布,则 服从正态分布; ; 若 不服从正态分布,n较大则 服从正态分布; ;n较小, 为非正态分布;,Oct 20, 2009,标准误:估计抽样
6、误差大小的指标,标准误(standard error,SE):样本统计量的标准差; 样本均数的标准误(standard error of mean,SEM): ; 样本均数的标准误的估计值:,Oct 20, 2009,例 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白含量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。,Oct 20, 2009,均数标准误的含义,反映均数抽样误差大小的一个指标; 均数的标准误 与原分布的标准差成 正比,与抽样样本量n开根号成反比; 欲减少抽样误差,可增加样本量; 利用均数标准误可以进行总体均数的可信区间的估计和假设检验。,Oct 20, 2009,二、t分布 (tdistribution),t分布的由来 t分布的图形和特征 t界值表,Oct 20, 2009,标准正态变换,X,0, 1,u,t变换,0,t,抽样实验,t分布的由来,X,Oct 20, 2009,t分布图形的演变,Oct 20, 2009,t分布图形的演变,Oct 20, 2009,t分布图形的特征,单峰分布,以0为中心,左右对称 只有一个参数 (自由
7、度n-1), 越小,则t值越分散,峰部越 矮而尾部 翘得越高 当逼近时, t分布逼 近u分布,Oct 20, 2009,t分布图形下面积具有规律性,总面积为1; 任意两区间的面积都可以用积分的方法求出; 当单双侧确定时,自由度确定时,尾部面积 ()与横轴t值之间有一一对应的关系; t/2,表示双侧尾部面积为,自由度为时的t界值; t, 表示单侧尾部面积为,自由度为时的t界值;,Oct 20, 2009,Oct 20, 2009,t界值表的特点,表示在单双侧确定时,自由度确定时,t界值越大,外围面积(P)越小;反之亦然; 单双侧确定时,外围面积(或P)确定时,自由度越大, t界值越小,当 时,t=u; t0.05/2,=1.96; t0.01/2,=2.58,Oct 20, 2009,第四节 二项分布 (binomial distribution),Oct 20, 2009,Bernoulli试验,以A表示所感兴趣的事件,A事件发生称为“成功”,不出现称为“失败”。相应的这类试验称作为“成一败型”试验或Bernoulli试验。,Oct 20, 2009,Bernoulli试验,满足条件
8、(1)每次试验结果只能是两个互斥结果之一(A或非A)。 (2)每次试验的条件不变,每次试验结果A事件发生的概率为常数。 (3)各次试验独立,即每次试验出现事件A的概率与前面各次试验出现的结果无关。,Oct 20, 2009,二项分布的概念,n次重复独立试验(Bernoulli试验),当每次试验的“阳性概率”保持不变时,出现“阳性”的次数k=0,1,2,n的一种概率分布。 ,k=0,1,2, n n为试验例数,k为阳性次数, 为阳性率,,Oct 20, 2009,当n和不同时,二项分布的概率是不同的,所 以说n和是二项分布的两个重要参数。 如果随机变量x服从以n和为参数的二项分布, 则记作xB(n,)。,Oct 20, 2009,二项分布的概率计算,恰好有k例阳性数的概率为 最多发生k例,即xk的累计概率 为 最少发生k例,即xk的累计概率 二项分布概率的递推公式为,Oct 20, 2009,二项分布的概率计算例题,例57 据报道,对某药有10%的人有胃肠道反应。为考察某药厂产品质量随机抽取5人服用此药,试求: (1)3人有反应的概率 (2)最多2人有反应的概率 (3)有人有反应的概率,
9、Oct 20, 2009,二项分布的性质,Oct 20, 2009,2、二项分布的正态近似 (normal approximation),Oct 20, 2009,概率论中的中心极限定理证明:当n足够大时,且不接近于0也不接近于1时,且 n 和n(1 )5,二项分布xB(n,)近似于正态分布 N(n, )。,Oct 20, 2009,样本率的分布和正态近似,Oct 20, 2009,样本率的分布和正态近似,例59 从阳性率样本率=0.6的总体中随机抽取样本量为16的样本,求样本率p的均数和标准差。 样本均数的标准差称为均数的标准误。同样样本率的标准差也称为率的标准误,它描述了样本率抽样误差的大小。,Oct 20, 2009,样本率的分布和正态近似,样本率分布的正态近似 当样本量n较大,总体率不接近于0也不接近1时,且n 和n(1 )5, 样本阳性率也近似服从正态分布pN(, )。 事实上,总体率,一般是不知道的,往往用p来估计,用样本率的标准误的估计值 来估计 。,Oct 20, 2009,Oct 20, 2009,第四节 泊松分布(poisson distribution ),是一种典型的离散型随机变量的分布,主要用于描述事件出现概率很小而样本含量或试验次数很大的随机变量的概率分布。 当n-,P0.05时,这时二项分布向泊松分布逼近; 泊松分布用来分析医学上人群中遗传缺陷、癌症等发病率很低的非传染性疾病的发病或患病人数的分布; 也可用于研究单位时间、空间、容积内某罕见时间发生次数的分布;,Oct 20, 2009,Poisson分布是二项分布的特例,由于这时n特别大,p特别小,在数学上用二项分布计算n次重复独立试验(Bernoulli试验),出现“阳性”的次数X=0,1
《卫生统计学 基本分布》由会员tia****nde分享,可在线阅读,更多相关《卫生统计学 基本分布》请在金锄头文库上搜索。