
正态分布及其应用2.ppt
26页单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,正态分布及其应用,,重点掌握:,,正态分布的概念与特征,,标准正态分布的概念和标准化变换,,正态分布的应用,,估计频数分布,,确定医学参考值范围,,正态分布的概念和特征,,一、正态分布,(Normal Distribution),的概念,,频数分布图,当观察人数足够多,组段不断分细,图中直条将逐渐变窄,其顶端将逐渐接近于一条光滑的曲线这条曲线称为频数曲线或频率曲线,略呈钟型,两头低,中间高、左右对称,近似数学上的正态分布由于频率的总和等于100%或1,故横轴上曲线下的面积等于100%或1正态分布又称高斯分布,是一种很重要的连续型随机变量分布,应用甚广f(X),概率密度曲线示意图,频数分布示意图,,正态分布的图形,,有了正态分布的密度函数f(X),即正态分布的方程,就可给出图形,,,,,-∞ 已知,μ和σ,就能绘出正态曲线的图形f(x),,F(X),,,,,φ(u),,Φ(u,),0,u,α,A 正态分布,B 标准正态分布,,正态分布的特征,,正态分布是单峰分布,以均数为中心,左右对称正态曲线在横轴上方均数处最高正态分布有两个参数,即均数,μ和标准差σμ是位置参数:当σ恒定后,μ越大,则曲线沿横轴向右移动;反之,μ越小,则曲线沿横轴向左移动σ是变异度参数:当μ恒定时,σ越大,表示数据越分散,曲线越“胖”;σ越小,表示数据越集中,曲线越“瘦”N(μ,σ,2,)表示均数为,μ,方差为σ,2,的正态分布正态曲线下面积的分布有一定规律μ,,标准正态分布,,为了应用方便,常作如下变换,,,,将图A的原点移到µ的位置,横轴尺度以,σ为单位,使µ=0,σ=1,则将正态分布变为标准正态分布(,standard normal distribution,),,u或z称为标准正态变量或标准正态离差(,standard normal deviate)标准正态分布的密度函数,,,,,-∞ 标准正态分布用N(0,1)表示Area = 1.00,,实际应用中,经u变换可把求解任意一个正态曲线下面积的问题,转化成标准正态分布曲线下相应的面积问题为应用方便,制成统计用表(附表1):标准正态分布曲线下的面积,,Φ(-u)值由于标准正态分布曲线以0为中心,左右两侧完全对称,故表中只列出了u值的负数部分欲求u~N(0,1)的随机变量在区间(-∞,u)上曲线下左侧的面积(u,0)直接查附表1即可,且,,Φ(u)=1-Φ(-u)(u>0),,u在区间(u,1,,u,2,)内概率的计算公式为:,,,P,(u,1,
u,1,=(x,1,-,μ)/σ=[(μ-1.96 σ)- μ]/ σ=-1.96,,u,2,=(x,2,-,μ)/σ=[(μ+1.96 σ)- μ]/ σ=1.96,,P,(-1.96
2)分别计算x1=30和x2=40所对应的u值,得到u1=-1.02和u2=0.60,查附表1得: Φ(-1.02)=0.1539和Φ(-0.60)=0.2743,因此Φ(0.60)- Φ(-1.02)=(1- Φ(-0.60))- Φ(-1.02)=(1-0.2743)-0.1539=0.5718,即理论上体重在30kg~40kg者占该地12岁健康男童总数的57.18%3)查附表1,标准正态分布曲线下左侧面积为0.10所对应的u值为-1.28,所以,该地80%的12岁健康男童体重值集中在区间,x1.28S内,即28.4~44.2kg正态分布的应用,,不少医学现象服从正态分布或近似正态分布,,如:同年龄儿童的身高,同性别健康成人的红细胞数等很多医学资料呈偏态分布,如疾病的潜伏期等,经对数转换后服从对数正态分布,,一、制定医学参考值范围,,选定足够数量的同质“正常”人作为研究对象,,如制定血清谷丙转氨酶参考值范围,“正常”人的条件是:1)无肝、肾、心、脑、肌肉等疾病;2)近期未服用对肝脏有损伤的药物(如氯丙嗪、异烟肼等);3)监测前未作剧烈运动依据指标的性质判断是否需要分组控制误差:严格控制随机误差,,选择单双侧检验,,选择适当的百分界值,95%常用,,选择估计参考值范围的方法,,医学参考值范围的估计方法,,,概率%,正态分布法,,,百分位数法,,,,,双侧,单 侧,,,双侧,单 侧,,,,下限,上限,,下限,上限,90,x1.64s,x-1.28s,x+1.28s,,P5~P95,P10,P90,95,x1.96s,,x-1.645s,,x+1.645s,,P2.5~P97.5,P5,P95,99,x2.58s,x-2.33s,,x+2.33s,,P0.5~P99.5,P1,P99,,正态分布法,,对服从正态分布的指标,可根据正态曲线下面积的分布规律进行参考值范围的估计。 首先进行正态性检验,,若服从正态分布,计算均数,x与标准差S,,估计参考值范围,,xu,α/2,S(双侧),,x+u,α,S或x-u,α,S (单侧),,,例3. 某年某地测得100名正常成人的血铅含量(ug/dl)如下,试确定该地正常成人血铅含量的95%参考值范围4,4,5,5,6,6,7,7,7,7,7,8,8,8,8,8,8,8,9,9,10,10,10,10,10,10,10,10,11,11,11,12,13,13,13,13,13,13,13,13,13,13,14,14,14,15,15,16,16,16,16,16,16,16,16,17,17,17,17,17,18,18,18,18,19,20,20,20,20,21,21,22,22,22,23,24,24,25,25,26,26,26,27,27,28,28,29,30,30,31,31,32,32,32,33,35,41,44,50,51,,对数组段,频数,累计频数,0.6~,4,4,0.7~,2,6,0.8~,5,11,0.9~,9,20,1.0~,12,32,1.1~,15,47,1.2~,18,65,1.3~,14,79,1.4~,12,91,1.5~,5,96,1.6~,3,99,1.7~1.8,1,100,合计,100,—,根据经验已知正常成人的血铅含量近似对数正态分布,因此,首先对原始数据作对数变换,进行正态性检验(p>0.50),并编制对数值频数表,再利用正态分布法求95%参考值范围。 按左侧表,设x为对数组段的组中值,n=100,,fx=118.2684, fx,2,=145.7359,则对数的均数和标准差为:,,x= (fx)/n=1.1827,,,S=0.2433,,因为血铅含量仅过高为异常,参考值范围应为单侧95%上限值:,,lg,-1,(x+1.645S)=38.28 (ug/dl),,即该地正常成人血铅含量95%参考值范围小于38.28ug/dl摄取比值,人数,0.75~,1,0.80~,2,0.85~,13,0.90~,15,0.95~,26,1.00~,26,1.05~,18,1.10~,15,1.15~,3,1.20~1.25,1,例4. 某年某地测得120名20~50岁正常成人血浆结合,125,碘-三碘甲腺原氨酸树脂摄取比值的资料如下,试估计95%参考值范围正态性检验,P>0.10,,x=1.0054,S=0.0873,,因,125,I-T,3,过高或过低均异常,取双侧95%参考值范围,,xu,0.05,/2,S=1.0054 1.96,0.0873=(0.8343,1.1765),,即该地20~50岁正常成人血浆,125,碘-三碘甲腺原氨酸树脂摄取比值的95%参考值范围为0.8343~1.1765。 百分位数法,,不满足正态分布时,可用百分位数法估计参考值范围,,例5. 某年某地996名女学生月经初潮年龄分布,确定95%参考值范围呈正偏态分布计算双侧95%界值P2.5和P97.5,,P2.5=11+1/44,(996 2.5%-7)=11.41(岁),,P97.5=17+1/16,(996 97.5%-969)=17.13(岁),,该地女学生月经初潮年龄95%参考值范围为11.41~17.13年龄(岁),人数,累计人数,累计频率(%),10~,7,7,0.7,11~,44,51,5.1,12~,153,204,20.5,13~,244,448,45.0,14~,269,717,72.0,15~,191,908,91.2,16~,61,969,97.3,17~,16,985,98.9,18~,8,993,99.7,19~,1,994,99.8,20~,2,996,100.0,合计,996,—,—,,正态分布的应用,,质量控制:,,为了控制实验中的检测误差,常以,x2S作为上、下警戒值,以x3S作为上、下控制值正态分布是很多统计方法的理论基础,,,2,分布、t分布、F分布等,都是在正态分布的基础上推导出来的。 某些分布,如t分布、二项分布、Poisson分布等的极限均为正态分布,在一定条件下,均可按正态近似的原理来处理常用的u检验,就是以正态分布为理论基础小 结,,正态分布是一种很重要的连续性分布,不少医学现象服从正态分布或近似正态分布,或经变量变换转换为正态分布,可按正态分布规律来处理,它也是许多统计方法的理论基础正态分布的特征是:1)曲线在横轴上方,均数处最高;2)以均数为中心,左右对称;3)确定正态分布的两个参数是均数,μ和标准差σ正态分布用N(μ,σ,2,)表示,为了应用方便,常对变量X作u=(X-,μ)/σ变换,使μ=0,σ=1,则正态分布转换为标准正态分布,用N(0,1)表示正态曲线下面积的分布有一定规律理论上μ,1,σ,μ,1.96,σ和μ,2.58,σ区间的面积(观察单位数)各占总面积(总观察单位)的68.27%,95%和99%,可用于估计医学参考值范围和质量控制等方面医学参考值范围的估计方法:,,正态分布法,:,,适用于正态或近似正态分布资料双侧,95%,的界限值为:,,,,对数正态分布法,:,,适用于对数正态或近似正态分布资料,双侧,95%,的界限值为:,,,,,,百分位数法,,适用于偏态分布或资料的分布不明,,,则求百分位数。 双侧,95%,的界限值为:,P,2.5,,和,P,97.5,,,实习一,,血清总胆固醇值,组中值,,X,频数,,f,fX,fX,2,累计频数,累计频率,2.5~,2.75,1,2.75,7.563,1,0.0099,3.0~,3.25,8,26.00,84.500,9,0.0891,3.5~,3.75,9,33.75,126.563,18,0.1782,4.0~,4.25,23,97.75,415.438,41,0.4059,4.5~,4.75,25,118.75,564.063,66,0.6535,5.0~,5.25,17,89.25,468.563,83,0.8218,5.5~,5.75,9,51.75,297.563,92,0.9109,6.0~,6.25,6,37.50,234.375,98,0.9703,6.5~,6.75,2,13.50,91.125,100,0.9901,7.0~7.5,7.25,1,7.25,52.563,101,1.0000,,,,478.25,2242.315,,,,习题1:某地101例30~49岁健康男子血清总胆固醇值(mmol/L)请根据上表:,,(1)计算均数、标准差、变异系数,,(2)计算中位数M,并与均数比较,,(3)计算P2.5及P97.5,并与,x1.96S的范围比较,,(4)现测得一40岁男子的血清总胆固醇值为6.993(mmol/L),若按95%正常值范围估计,其血清总胆固醇值是否正常?,,习题2,,发汞值,人数,,f,组中值,,X,fX,fX,2,累计频数,累计频率,1.5~,20,2.5,50.0,125.00,20,8.40,3.5~,66,4.5,297.0,1336.50,86,36.10,5.5~,60,6.5,390.0,2535.00,146,61.34,7.5~,48,8.5,408.0,3468.00,194,81.50,9.5~,18,10.5,189.0,1984.50,212,89.08,11.5~,16,12.5,200.0,2500.00,228,95.80,13.5~,6,14.5,87.0,1261.50,234,98.32,15.5~,1,16.5,16.5,272.25,235,98.74,17.5~,0,18.5,0.0,0.00,235,98.74,19.5~21.5,3,20.5,61.5,1260.75,238,100.00,合计,238,,1699.0,14743.50,,,,某市1974年为了解该地居民发汞的基础水平,为汞污染的环境监测积累资料,调查了留住该市一年以上,无明显肝肾疾病,无汞作业接触史的居民238人,发汞含量见上表。 请回答:,,(1)说明此频数分布的特征;,,(2)计算均数和中位数,何者较大?为什么?何者用于说明本资料的集中位置较合适?,,(3)选用何种指标描述其离散程度较好?,,(4)估计该地居民发汞值的95%参考值范围习题3,,医学中参考值范围的含义是什么?确定的原则和方法是什么?,,,。
