
《医学统计学》教学课件:第六章几种离散型变量的分布及.ppt
81页第六章第六章 几种离散型变量的几种离散型变量的分布及其应用分布及其应用Distribution and Application of Discrete DatanBinomial distribution nPoissin distribution n 随机变量有连续型和离散型之分,相应的概率分布就可分为连续型分布和离散型分布n 有关连续型分布如正态分布、t分布和F分布等在前面的章节中已作了介绍n 本章主要介绍在医学中较为常用的离散型分布,即二项分布、Poisson分布第一节第一节 二项分布二项分布n二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布 n 在医学中类似如这种n重Bernoulli试验的情形较为常见n 如用某种药物治疗某种疾病,其疗效分为有效或无效;n 在动物的致死性试验中,动物的死亡或生存;n 接触某种病毒性疾病的传播媒介后,感染或非感染等。
n 若从阳性率(死亡率、感染率等)为π的总体中随机抽取大小为n的样本,则出现阳性数为X的概率分布即呈二项分布,记为X~B(n,π).二项分布有两个参数:二项分布有两个参数: 总体率总体率 样本含量样本含量 记作:记作:X~~B(n,,π) 在n个独立的个体中出现X个阳性的概率可由下式求出:例6-1 某种药物治疗某种非传染性疾病的有效率为0.70今用该药治疗该疾病患者10人,试分别计算这10人中有6人、7人、8人有效的概率本例n=10,π=0.70,X=6,7,8按公式(6-1)计算相应的概率为 0.20012一、二项分布的适用条件和性质一、二项分布的适用条件和性质n( (一一) ) 二项分布的适用条件二项分布的适用条件n1. 1. 每次试验只会发生两种对立的可能结果每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和之一,即分别发生两种结果的概率之和 恒等于恒等于1 1;;n2. 2. 每次试验产生某种结果(如每次试验产生某种结果(如““阳性阳性””))的的 概率概率ππ固定不变;固定不变;n3. 3. 重复试验是相互独立的,即任何一次试重复试验是相互独立的,即任何一次试 验结果的出现不会影响其它试验结果出验结果的出现不会影响其它试验结果出 现的概率。
现的概率 在上面的例在上面的例6-16-1中,对这中,对这1010名非传名非传染性疾病患者的治疗,可看作染性疾病患者的治疗,可看作1010次独次独立的重复试验,其疗效分为有效与无立的重复试验,其疗效分为有效与无效,且每一名患者治疗有效的概率效,且每一名患者治疗有效的概率((ππ=0.70=0.70))是恒定的这样,是恒定的这样,1010人中人中发生有效的人数发生有效的人数X X~~B B(10(10,,0.70)0.70)n( (二二) ) 二项分布的性质二项分布的性质n1. 1. 二二项项分分布布的的均均数数与与标标准准差差 在在n n次次独独立立重复试验中,出现重复试验中,出现““阳性阳性””次数次数X X的的n总体均数为总体均数为n总体方差为总体方差为n总体标准差为总体标准差为n n若以率表示,则样本率p的n总体均数为n总体方差为 n总体标准差为 n样样本本率率的的标标准准差差也也称称为为率率的的标标准准误误,,可可用用来来描描述述样样本本率率的的抽抽样样误误差差,,率率的的标标准准误误越越小,则率的抽样误差就越小。
小,则率的抽样误差就越小n在在一一般般情情形形下下,,总总体体率率π往往往往并并不不知知道道此此时时若若用用样样本本资资料料计计算算样样本本率率p=X/n作作为为π的的估计值,则估计值,则 的估计为的估计为:n2.二项分布的图形 对于二项分布而言,当π=0.5时,分布是对称的,见图6-1; n当 0.5时,分布是偏态的,但随着n的增大,分布趋于对称当n 时,只要π不太靠近0或1,二项分布则接近正态分布,见图6-2二、二项分布的应用二、二项分布的应用n( (一一) )总体率的区间估计总体率的区间估计n1. 1. 查表法查表法 n2. 2. 正态近似法正态近似法 n1. 查表法 对于n 50的小样本资料,直接查附表6百分率的95%或99%可信区间表,即可得到其总体率的可信区间n例6-2 在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此资料估计该吻合术妇女受孕率的95%可信区间 本 例 n=13, X=6 查 附 表 6, 取 0.05时 , 在n=13(横行)与X=6(纵列)的交叉处数值为19~75,即该吻合术妇女受孕率的95%可信区间为(19%,75%)。
附表6只列出 的部分当 时,可先按“阴性”数n-X查得总体阴性率的 可信区间QL~QU,再用下面的公式转换成所需的阳性率的 可信区间 PL=1-QU,, PU=1-QL n2. 正态近似法 根据数理统计学的中心极限定理可得,当n较大、π不接近0也不接近1时,二项分布B(n,π)近似正态分布n ,而相应的样本率p的分布也近似 正态分布为此,当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,可利用样本率p的分布近似正态分布来估计总体率的可信区间 的的 可信区间为:可信区间为:如:如: 的的95%可信区间可信区间为为 的的99%可信区间为可信区间为例例6-3 6-3 在观测一种药物对某种非传染性疾病在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性的治疗效果时,用该药治疗了此种非传染性疾病患者疾病患者100100人,发现人,发现5555人有效,试据此估人有效,试据此估计该药物治疗有效率的计该药物治疗有效率的95%95%可信区间。
可信区间n(二)样本率与总体率的比较n1.直接法 在诸如疗效评价中,利用二项分布直接计算有关概率,对样本率与总体率的差异进行有无统计学意义的比较比较时,经常遇到单侧检验,即“优”或“劣”的问题那么,在总体阳性率为π的n次独立重复试验中,下面两种情形的概率计算是不可少的(1)出现“阳性”的次数至多为k次的概率为:(2)出现“阳性”的次数至少为k次的概率为n例6-4 据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0.55今对10名输卵管结扎了的育龄妇女实施峡部-峡部吻合术,结果有9人受孕问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术?n显然,这是单侧检验的问题,其假设检验为nH0:π=0.55nH1:π>0.55n =0.05n对这10名实施峡部-峡部吻合术的妇女,按0.55的受孕率,若出现至少9人受孕的概率大于0.05,则不拒绝H0;否则,拒绝H0,接受H1n本例n=10,π=0.55,k=9按公式(6-12)有:n 按=0.05水准,拒绝H0,接受H1,即认为实施峡部-峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合术。
n2.正态近似法 当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,利用样本率的分布近似正态分布的原理,可作样本率p与已知总体率π0的比较检验统计量u值的计算公式为: n例例6-6 对对某某疾疾病病采采用用常常规规治治疗疗,,其其治治愈愈率率为为45%现现改改用用新新的的治治疗疗方方法法,,并并随随机机抽抽取取180名名该该疾疾病病患患者者进进行行了了新新疗疗法法的的治治疗疗,,治治愈愈117人人问问新新治治疗疗方方法法是是否否比比常常规规疗疗法的效果好?法的效果好?n本本例例是是单单侧侧检检验验,,记记新新治治疗疗方方法法的的治治愈愈率率为为π,而,而π0=0.45其假设检验为其假设检验为nH0::π=0.45nH1::π>0.45n =0.05n本例n=180,p=117/180=0.65n查u界值表(t界值表中 为 ∞的一行)得单侧 按 а=0.05水准,拒绝H0,接受H1,即新的治疗方法比常规疗法的效果好n(三)两样本率的比较n两样本率的比较,目的在于对相应的两总体率进行统计推断n设两样本率分别为p1和p2,当n1与n2均较大,且p1、1-p1及p2、1-p2均不太小,如n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5时,可利用样本率的分布近似正态分布,以及独立的两个正态变量之差也服从正态分布的性质,采用正态近似法对两总体率作统计推断。
n检验统计量u的计算公式为: n例例6-7 为为研研究究某某职职业业人人群群颈颈椎椎病病发发病病的的性性别别差差异异,,今今随随机机抽抽查查了了该该职职业业人人群群男男性性120人人和和女女性性110人人,,发发现现男男性性中中有有36人人患患有有颈颈椎椎病病,,女女性性中中有有22人人患患有有颈颈椎椎病病试试作作统统计计推断n记记该该职职业业人人群群颈颈椎椎病病的的患患病病率率男男性性为为π1,,女女性为性为π2,,其检验假设为其检验假设为nH0::π1=π2nH1::π1≠π2n =0.05本例n1=120, X1=36, p1=X1/n1=36/120=0.30;n2=110,X2=22,p2=X2/n2=22/110=0.20 查u界值表得0.05
此时以家族为样本,在n个成员中,出现X个成员患病的概率分布呈二项分布;否则,便不服从二项分布n例6-8 某研究者为研究某种非遗传性疾病的家族集聚性,对一社区82户3口人的家庭进行了该种疾病患病情况调查,所得数据资料见表6-1中的第(1)、(2)栏试分析其家族集聚性n 表6-1 患病数据资料与二项分布拟合优度的2c检验 X (1) 实际户数A (2) 概率P(X) (3) 理论户数T=82P(X) (4) AT - (5) 2)(AT - (6) TAT2)(-(7) 0 26 0.13265 10.8774 -15.1226 228.6936 21.0247 1 10 0.38235 31.3525 21.3 525 455.9273 14.5420 2 28 0.36735 30.1229 2.1229 4.5069 0.149 6 3 18 0.11765 9.6472 -8.3528 69.7690 7.2320 合计 82 — 82.0000 — — 42.9483 n如如果果该该社社区区的的此此种种疾疾病病存存在在家家族族集集聚聚性性,,则则以以每每户户3口口人人的的家家庭庭为为样样本本,,在在3个个家家庭庭成成员员中中,,出出现现X((=0,,1,,2,,3))个个成成员员患患病病的的概概率率分分布布即即不不服服从从二二项项分分布布。
为为此此,,可可作作如如下假设检验下假设检验nH0::该该疾病的发生无家族集聚性疾病的发生无家族集聚性nH1::该该疾病的发生有家族集聚性疾病的发生有家族集聚性n =0.10n本例调查的总人数为:N=82×3=246(人)n其中患病人数为:nD=0×26+1×10+2×28+3×18=120(人)n以这246人的患病率估计总体的患病率,即π=D/N=120/246=0.49 n在n=3、π=0.49时,利用二项分布,求得X=0,1,2,3的概率P(X),并以此得到相应的理论户数对理论户数与实际户数进行拟合优度(goodness of fit)的检验此时,自由度为=组数-2=4-2=2计算结果列于表6-1中的第(3)至(7)栏n(五) 群检验n在工作中有时会遇到需对收集的一大批标本进行实验室检验,以了解其阳性率的问题但要在实验室对所有标本一一作阳性认定往往需要大量的人力和物力,也不切实际,使用所谓的群检验技术即可解决这一问题n群检验的具体做法是,将N个标本分成n群,每群m个标本,即N=mn每个群都送试验室检验是否为阳性群对于某群,一旦检验出阳性标本就停止此群中剩余标本的检验,该群即为阳性群。
显然,只有对阴性群,才需检验群中所有的m个标本,这样可大大地减少检验标本的个数 n若记每个标本为阳性的概率为π,则1-π=Q是每个标本为阴性的概率,Qm便是某群m个标本均为阴性的概率,即一个群为阴性群的概率,而1- Qm就是一个群为阳性群的概率假定受检的n个群中有X个群是阳性群,用X/n作为一个群为阳性群概率的估计值,于是便有n这样,阳性概率π的估计值为:第二节 Poisson分布nPoissonPoisson分布(分布(Poisson Poisson distributiondistribution))作为二项分布的一种作为二项分布的一种极限情况,已发展成为描述小概率事极限情况,已发展成为描述小概率事件发生规律性的一种重要分布件发生规律性的一种重要分布nPoissonPoisson分布是描述单位面积、体积、分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事时间、人群等内稀有事件(或罕见事件)发生数的分布件)发生数的分布 医学上:诸如人群中遗传缺陷、癌症等发病率很低的非传染性疾病的发病或患病人数的分布, 单位时间内(或单位空间、容积内)某罕见事件发生次数的分布,如分析在单位面积或容积内细菌数的分布,在单位空间中某种昆虫或野生动物数的分布等。
所所谓谓随随机机变变量量X X服服从从PoissonPoisson分分布布,,是是指指在在足足够够多多的的n n次次独独立立BernoulliBernoulli试试验验中中,,取取值值X X的概率为的概率为 一、一、PoissonPoisson分布的适用条件和性质分布的适用条件和性质n( (二二) Poisson) Poisson分布的性质分布的性质n1. 1. 总总体体均均数数 与与总总体体方方差差 相相等等是是PoissonPoisson分布的重要特征分布的重要特征n2. 2. 当当n n很很大大,,而而ππ很很小小,,且且nπnπ= = 为为常常数数时,二项分布近似时,二项分布近似PoissonPoisson分布n3. 3. 当当 增增大大时时,,PoissonPoisson分分布布渐渐近近正正态态分分布布一一般般而而言言,,≥≥2020时时,,PoissonPoisson分分布布资资料可作为正态分布处理料可作为正态分布处理n4. Poisson分布具备可加性即对于服从Poisson分布的m个互相独立的随机变量X1,X2,……,Xm,它们之和也服从Poisson分布,且其均数为这m个随机变量的均数之和。
n(三三) Poisson分布的图形分布的图形n不不同同的的参参数数 对对应应不不同同的的Poisson分分布布,,即即 的的大小决定了大小决定了Poisson分布的图形特征,见图分布的图形特征,见图6-3n 当当 越小,分布就越偏态;越小,分布就越偏态;n当当 越越大大时时,,Poisson分分布布则则越越渐渐近近正正态态分分布布当当 ≥ 1时时,,随随X取取值值的的变变大大,,P(X)值值反反而而变变小小;;当当 <1 时,随时,随X取值的变大,取值的变大,P(X)值先增大而后变小值先增大而后变小n如如若若 是是整整数数,,则则P(X)在在X= 和和X= -1位位置置取取得得最大值n n二、Poisson分布的应用n(一)总体均数的区间估计n利用服从Poisson分布的样本资料可估计其总体均数 的可信区间n估计方法如下:n1. 查表法 对于获得的样本计数X,当X≤50时,直接查附表7的Poisson分布可信区间表,即可得到其总体均数的95%或99%可信区间 例例6-10 6-10 某工厂在环境监测中,对一某工厂在环境监测中,对一实施了技术改造的生产车间作空气中粉尘浓实施了技术改造的生产车间作空气中粉尘浓度的检测,度的检测,1 1立升空气中测得粉尘粒子数为立升空气中测得粉尘粒子数为2121。
假定车间空气中的粉尘分布均匀,试估假定车间空气中的粉尘分布均匀,试估计该车间平均每立升空气中所含粉尘颗粒数计该车间平均每立升空气中所含粉尘颗粒数的的95%95%和和99%99%可信区间可信区间 本例,本例,X X=21=21,,查查附表查查附表7 7,该车间平,该车间平均每立升空气所含粉尘颗粒数的均每立升空气所含粉尘颗粒数的95%95%可信区可信区间为间为13.013.0~~32.032.0;; 99%99%可信区间为可信区间为11.011.0~~35.935.9n2. 正正态态近近似似法法 当当X>50时时,,可可采采用用正正态态近近似似法法估估计计总总体体均均数数的的 可可信信区区间间,,计计算公式为算公式为:n如:如: 的的95%可信区间为可信区间为n例6-11 某研究者对某社区12000名居民进行了健康检查,发现其中有68名胃癌患者估计该社区胃癌患病数的95%和99%可信区间n(二) 样本均数与总体均数的比较n对于Poisson分布资料而言,进行样本均数与总体均数的比较有两种方法n1. 直接法 当总体均数 <20时,可采用直接计算概率的方式对样本均数与已知总体均数间的差别进行有无统计学意义的比较,这实质上是对以样本计数X为代表的总体率π与已知的总体率π0是否有差别进行推断。
n例6-12 一般人群先天性心脏病的发病率为8‰,某研究者为探讨母亲吸烟是否会增大其小孩的先天性心脏病的发病危险,对一群20~25岁有吸烟嗜好的孕妇进行了生育观察,在她们生育的120名小孩中,经筛查有4人患了先天性心脏病试作统计推断 n对于这样一种低发病率的样本计数资料可看作服从Poisson分布在120名被调查的小孩中,按π0=0.008的发病水平,若有4名及以上的小孩患先天性心脏病的概率大于0.05,则尚不能认为母亲吸烟会增大其小孩的先天性心脏病的发病危险;否则,即说明母亲吸烟会增大其小孩的先天性心脏病的发病危险为此,本例可作如下的假设检验2. 正态近似法 根据 Poisson 分布的性质,当l³20 时,可用正 态分布来近似样本计数X 与已知总体均数l的比较,采用下式计算标准正态检验统计量 n例6-13 有研究表明,一般人群精神发育不全的发生率为3‰,今调查了有亲缘血统婚配关系的后代25000人,发现123人精神发育不全,问有亲缘血统婚配关系的后代其精神发育不全的发生率是否要高于一般人群?n可以认为人群中精神发育不全的发生数服从Poisson分布本例n=25000,X=123,π0=0.003, =nπ0=25000×0.003=75。
n(三) 两个样本均数的比较n对服从Poisson分布的样本,其样本计数可看作是样本均数两个样本均数的比较,目的在于推断两样本所代表的两总体均数是否有差别n设两个样本计数分别为X1和X2,可利用正态近似法进行比较n1. 两个样本的观察单位数相等,即n1=n2 n2. 两个样本的观察单位数不相等,即n1 ≠ n2 n例6-14 某卫生检疫机构对两种纯净水各抽验了1ml水样,分别培养出大肠杆菌4个和7个,试比较这两种纯净水中平均每毫升所含大肠杆菌数有无差别?n本例水样中的大肠杆菌数服从Poisson分布,两种水样的观察单位数相等,即均为1ml两样本计数分别记为X1=4和X2=7,X1+X2=7+4=11选择公式(6-21)来计算检验统计量n例6-15 某研究者为了分析一种罕见的非传染性疾病发病的地域差异,对甲地区连续观察了四年,发现有32人发病;对乙地区连续观察了三年,发现有12人发病假定甲、乙两地区在观察期内的人口构成相同,人口基数相近且基本不变,试作统计推断n本例中疾病的发病人数服从Poisson分布,但对甲地区连续观察了四年(n1=4),而对乙地区只连续观察了三年(n2=3),即两个样本的观察时间单位数不相等。
甲、乙两地区在观察期内的发病人数分别记为X1=32和X2=12,X1+X2=32+12=44选择公式(6-22)来计算检验统计量 练习题练习题P134一、最佳选择题 全做三、计算分析题1、2、3、4。
