
[医学]02 常用概率分布&抽样分布.pdf
78页第三章第三章第三章第三章 概率分布概率分布概率分布概率分布卫生统计学教研室卫生统计学教研室卫生统计学教研室卫生统计学教研室武振宇武振宇武振宇武振宇zyw@zyw@一、一、一、一、 二项分布二项分布二项分布二项分布?二项分布的概念二项分布的概念?二项分布的条件二项分布的条件?二项分布的图形二项分布的图形?二项分布的性质二项分布的性质• 医学观察中人们所感兴趣的事件是否发生:医学观察中人们所感兴趣的事件是否发生:– 预防接种:是否发生某病;预防接种:是否发生某病;– 毒性试验:动物是否死亡毒性试验:动物是否死亡• 对每一次实验,出现的结果只有两种情况,称为对每一次实验,出现的结果只有两种情况,称为Bernoulli试验如所关心的事件试验如所关心的事件A发生,称为“成功”,否则称为“失败”发生,称为“成功”,否则称为“失败”例例 3.1 用用 3 只小白鼠做动物毒性实验,已知每只老鼠死亡的概率只小白鼠做动物毒性实验,已知每只老鼠死亡的概率( )P Aπ=如果不死亡如果不死亡,其概率其概率( )1P Aπ= − 如果以如果以 X 表示死亡(成功)的小白鼠数,则表示死亡(成功)的小白鼠数,则 X 可能的取值可能的取值 0,,1,,2,,3,对应的概率如下:,对应的概率如下: 死亡数死亡数 结果结果 发生概率发生概率 X 取值概率取值概率 0 生生 生生 生生 (1)(1)(1)πππ−−− 003 3(0)(1)p xCππ==−1 死死 生生 生生 (1)(1)πππ−− 112 3(1)(1)p xCππ==− 生生 死死 生生 (1) (1)π ππ−− 生生 生生 死死 (1)(1)ππ π−− 2 死死 死死 生生 (1)πππ− 221 3(2)(1)p xCππ==−死死 生生 死死 (1)ππ π− 生生 死死 死死 (1)πππ− 3 死死 死死 死死 πππ 330 3(3)(1)p xCππ==−二项分布的定义:二项分布的定义: • 构成构成 Bernoulli 试验序列的试验序列的 n 次实验中,成功事件次实验中,成功事件A 出现次数的概率为出现次数的概率为( )(1)(1)xxn xxn x nnP xCxππππ−−⎛ ⎞=−=−⎜ ⎟⎝ ⎠• 由于上式是二项式由于上式是二项式 [(1)]nππ+−展开式中相应地含展开式中相应地含π 的项,因此称该分布为二项分布。
的项,因此称该分布为二项分布 • 从阳性率为从阳性率为π的总体中随机抽取大小为的总体中随机抽取大小为 n 的样本,则出现阳性数为的样本,则出现阳性数为 x 的样本的分布为二项分布, 记的样本的分布为二项分布, 记作作x~B((n, π) 二项分布的条件二项分布的条件二项分布的条件二项分布的条件• 每次实验(观察)的结果只有两种可能(两分类变量)每次实验(观察)的结果只有两种可能(两分类变量)• 各次实验(观察)的结果相互独立各次实验(观察)的结果相互独立• 每个观察对象发生阳性结果的概率相同每个观察对象发生阳性结果的概率相同• 实验的次数实验的次数n是固定的,与实验的结果无关是固定的,与实验的结果无关二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征二项分布的特征• 二项分布的图形特征:二项分布的图形特征: – 离散分布离散分布 – 图形取决于两个参数,高峰在图形取决于两个参数,高峰在nμπ=处处 – 当当 π 接近接近 0.5 时,图形对称,越偏离时,图形对称,越偏离 0.5,对称性越差,对称性越差 – 随着随着 n 的增大,分布趋于对称的增大,分布趋于对称 – 当当n →∞时,只要时,只要 π 不太靠近不太靠近 0 或或 1,二项分布将趋近于正态分布,二项分布将趋近于正态分布 二项分布的特征二项分布的特征二项分布的特征二项分布的特征• 二项分布的均数和标准差二项分布的均数和标准差 均数均数 μ=nπ 方差方差2(1)nσππ=−标准差标准差(1)nσππ=−例例 3.1 中,若中,若 π=0.8 则则 3 只鼠中死亡鼠数只鼠中死亡鼠数 X 的总体均数的总体均数3 0.82.4nμπ== ×=只 – 总体方差总体方差 22(1)3 0.8 0.30.72nσππ=−= ××=只PoissonPoisson分布的概念分布的概念分布的概念分布的概念•描述某罕见事件描述某罕见事件发生次数的概率发生次数的概率•罕见事件: ,罕见事件: ,n很大,而很小,很大,而很小,nλπ=0π→每个格子的大小恰好容纳一个细菌每个格子的大小恰好容纳一个细菌1L水细分格子数细分格子数n → ∞有限格子中有细菌有限格子中有细菌λ0λπ=→∞λ•服从服从Poisson分布的罕见事件:分布的罕见事件:– 均匀液体中的细菌分布均匀液体中的细菌分布– 放射性物质单位时间内的放射次数放射性物质单位时间内的放射次数– 粉尘在观察容积内的分布粉尘在观察容积内的分布– 非传染性罕见疾病在人群中的分布非传染性罕见疾病在人群中的分布•如果随机变量如果随机变量x的分布规律服从称的分布规律服从称x服从参数为的服从参数为的Poisson分布,记为 式中分布,记为 式中x为观察单位内罕见事件发生次为观察单位内罕见事件发生次 x=0,1,2…… 为为Poisson分布的总体均数,有时也记为。
递推公式分布的总体均数,有时也记为递推公式λ( )!x P xexλλ−=PoissonPoisson分布的概念分布的概念分布的概念分布的概念λ~( )XPλ(1)( )1P xP xxλ+=+μ• 与二项分布相似与二项分布相似• 平稳性:平稳性:x的取值与观察单位的位置无关,与观察单位的大小有关的取值与观察单位的位置无关,与观察单位的大小有关• 独立性:在某个观察单位上独立性:在某个观察单位上x的取值与前面各观察单位上的取值与前面各观察单位上x的取值无关的取值无关• 普通性:观察单位可以小到只有普通性:观察单位可以小到只有1个事件发生,发生概率不变个事件发生,发生概率不变PoissonPoisson分布的条件分布的条件分布的条件分布的条件PoissonPoisson分布的形态分布的形态分布的形态分布的形态PoissonPoisson分布的形态分布的形态分布的形态分布的形态PoissonPoisson分布的特点分布的特点分布的特点分布的特点• 形态:形态: – 离散分布离散分布 – 只取决于只取决于 λ,,λ 很小时分布很偏,当很小时分布很偏,当 λ 增加时,逐渐趋于对称增加时,逐渐趋于对称。
– 在在 x=λ 和和 x=λ-1 处达到峰值,且有处达到峰值,且有 ()(1)P xP xλλ===−• Poisson 分布的总体均数与总体方差 相等,为分布的总体均数与总体方差 相等,为λ PoissonPoisson分布的特点分布的特点分布的特点分布的特点• Poisson 分布的观察结果具有可加性: 如果分布的观察结果具有可加性: 如果12,,...,nXXX相互独立,且分别服从以相互独立,且分别服从以12,,...nλ λλ为参数的为参数的 Poisson 分布,则分布,则12...nXXX+++也服从总体参数为也服从总体参数为12...nλλλ+++的的Poisson 分布分布 例:放射性物质平均每分钟放射记数为例:放射性物质平均每分钟放射记数为 5,测量,测量 3 次,次,123,,XXX均服从均服从(5)P,则,则123() ~(15)XXXP++,即,即 3 分钟的 放射记数服从分钟的 放射记数服从(15)P二项分布的二项分布的二项分布的二项分布的PoissonPoisson近似近似近似近似• 设设~( , )ixB nπ,当,当n → ∞,,ncπ→常数时,此时常数时,此时ix的 极限分布是以的 极限分布是以 c 为参数的为参数的 Poisson 分布。
分布 π 越小,近似越好越小,近似越好 例:某地食管癌的发病率例:某地食管癌的发病率 π=8/10000,在当地随即抽查,在当地随即抽查 500 人,患者至少为人,患者至少为 6 人的概率人的概率 (6)1(6)P XP X≥= −+正态分布曲线下的特殊位置的面积正态分布曲线下的特殊位置的面积正态分布曲线下的特殊位置的面积正态分布曲线下的特殊位置的面积-5-4-3-2-1012345μσμ−σμ+σμ96. 1−σμ96. 1+σμ58. 2−σμ58. 2+%0 .99%0 .95%3 .68图3-3正态分布曲线下的面积图3-3正态分布曲线下的面积标准正态分布标准正态分布( (Standard Normal Distribution) ) 对任何参数的正态分布,都可以通过一个简单的变量变换化成和的标准正态分布通常,可以利用标准正态分布表求出与原始变量对任何参数的正态分布,都可以通过一个简单的变量变换化成和的标准正态分布通常,可以利用标准正态分布表求出与原始变量X有关的概率值有关的概率值0=μ1=σσμ−=Xu图图3-7 标准正态分布及曲线下面积标准正态分布及曲线下面积参见书中计算实例参见书中计算实例……正态分布应用正态分布应用正态分布应用正态分布应用• 确定医学参考值范围确定医学参考值范围 – 医学参考值范围医学参考值范围---决大多数正常人的某项指标值范围决大多数正常人的某项指标值范围 • ”正常正常”人群:排除了影响所研究指标的疾病和有关因素的同质人群人群:排除了影响所研究指标的疾病和有关因素的同质人群 • 大多数个体;90%,95%,99%等大多数个体;90%,95%,99%等 – 统计方法统计方法 • 百分位数法:任何分布的指标百分位数法:任何分布的指标 • 正态分布法:服从正态分布的指标正态分布法:服从正态分布的指标 • 注意:根据研究背景确定单双侧范围注意:根据研究背景确定单双侧范围一、基本概念一、基本概念通常指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。
主要目的:用于临床疾病诊断最常用的是95%参考值范围通常指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围主要目的:用于临床疾病诊断最常用的是95%参考值范围医学参考值范围医学参考值范围( (Reference Value Range) )确定95%参考值范围示意图确定95%参考值范围示意图确定医学参考值范围确定医学参考值范围确定医学参考值范围确定医学参考值范围例例3.9 估计某地健康成年女子的血红蛋白的估计某地健康成年女子的血红蛋白的95%医学参考值范围医学参考值范围? 具体步骤如下:(具体步骤如下:(1)根据研究背景确定研究对象的入选标准和排除标准这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外,其他相关指标均正常的对象根据研究背景确定研究对象的入选标准和排除标准这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外,其他相关指标均正常的对象2)决定取单侧范围还是双侧范围值(2)决定取单侧范围还是双侧范围值有些指标如血红蛋白过高或过低均属异常(a) ,故其参考值范围需要分别确定下限和上限,称作双侧有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。
有些指标如血红蛋白过高或过低均属异常(a) ,故其参考值范围需要分别确定下限和上限,称作双侧有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围a)白细胞数参考值范围(b)24小时尿糖参考值范围(c)肺活量参考值范围a)白细胞数参考值范围(b)24小时尿糖参考值范围(c)肺活量参考值范围((3)血红蛋白检测的容许误差和研究背景容许误差的范围,确定受检者的样。
