
正态分布及标准误.ppt
48页第四节第四节 正态分布及标准误正态分布及标准误本次课要点:本次课要点:l1、熟悉正态分布、标准正态分布的概念;掌握其主要特征及其应用;l2、掌握医学参考值的概念及其范围的制定方法l3、了解均数标准误的意义及计算l4、掌握总体均数可信区间的概念及计算方法第四节 正态分布 (normal distribution)一、正态分布的概念一、正态分布的概念 1. 图形图形正态分布正态分布u=(X- )/ 标准正态分布标准正态分布 高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线正态分布是一种重要的连续型分布相交的光滑曲线正态分布是一种重要的连续型分布①①正态曲线(正态曲线(normal curve))在横轴上方均数处最高;在横轴上方均数处最高;②②正态分布以均数为中心,左右对称;正态分布以均数为中心,左右对称;③③正态分布有两个参数,即均数正态分布有两个参数,即均数 与标准差与标准差 ,常用,常用N( , , )表表示示,,用用N((0,,1))表表示示标标准准正正态态分分布布。
其其位位置置与与均均数数有有关关,,形形状状与与标标准准差差有有关关标标准准差差大大,,离离散散程程度度大大,,正正态态分布曲线则分布曲线则“胖胖”,反之,则,反之,则“瘦瘦”;;④④正态分布的面积分布有一定的规律性正态分布的面积分布有一定的规律性二二 正态分布分布曲线的特征三三 正态曲线下面积的分布规律正态曲线下面积的分布规律统计学家求出了标准正态分布从统计学家求出了标准正态分布从- 到(到(-u))的面积实际工作中经常要用的面积分布规律有以下三点:实际工作中经常要用的面积分布规律有以下三点:三三 正态曲线下面积的分布规律正态曲线下面积的分布规律正态曲线下的面积规律正态曲线下的面积规律-1.96+1.962.5%2.5%95%正态曲线下的面积规律正态曲线下的面积规律-1.64+1.645%5%90%正态曲线下的面积规律正态曲线下的面积规律-2.58+2.580.5%0.5%99%三、正态分布的应用1. 1. 估计参考值范围;估计参考值范围;2. 2. 估计总体参数的可信区间;估计总体参数的可信区间;3. 3. 差异显著性检验;差异显著性检验;4. 4. 质量控制。
质量控制1、估计频数分布、估计频数分布l出生体重低于2500g为低体重儿,某市婴儿出生体重均数3200g,标准差为s=350g设该资料服从正态分布,试求该地低体重儿占该地所有出生婴儿的比例 计算:计算:–首先计算标准离差:–查标准正态分布表: (-2)=0.0228–结果:估计低体重儿的比例为2.28%.参考值范围参考值范围(reference interval)l参考值范围又称正常值范围(normal range)l什么是参考值范围:–是绝大多数正常人的某观察指标所在的范围–绝大多数:90%,95%,99%等等l确定参考值范围的意义:–用于判断正常与异常l“正常人”的定义:–排除了影响所研究的指标的疾病和有关因素的同质的人群参考值范围确定的原则参考值范围确定的原则l选定足够例数的同质的正常人作为研究对象 l控制检测误差l判断是否分组(性别,年龄组) l单、双侧问题 l选择百分界值(90%,95%) l确定可疑范围参考值范围的估计方法:正态分布法参考值范围的估计方法:正态分布法2.5%2.5%95%-1.96+1.96参考值范围的估计方法:百分位数法参考值范围的估计方法:百分位数法P2.5P97.595%参考值范围的估计方法参考值范围的估计方法方法双侧 单侧下限单侧上限正态分布法百分位数法 P2.5~~P97.5 >P5 由得95%参考值范围:下限: -1.96s=73.5-1.96×3.9=65.9(g/L)上限: +1.96s=73.5+1.96×3.9=81.1(g/L) 此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值单侧与双侧参考值范围单侧与双侧参考值范围l根据医学专业知识确定!–双侧:白细胞计数,血清总胆固醇,–单侧:上限: 转氨酶,尿铅,发汞 …… 下限: 肺活量,IQ, 第五节 均数的抽样误差及应用一、概念一、概念1. 1.误差:实测值与真值之差误差:实测值与真值之差1 1)系统误差:在收集资料过程中产生的误差,值恒定不变,)系统误差:在收集资料过程中产生的误差,值恒定不变,遵循一定的规律变化遵循一定的规律变化2 2)随机误差:一类不恒定、随机、变化的误差如抽样)随机误差:一类不恒定、随机、变化的误差如抽样误差 2. 2. 抽样:从总体中获得有代表性样本的过程抽样:从总体中获得有代表性样本的过程3.均数的抽样误差:均数的抽样误差: 由抽样而造成的样本均数与总体均数的由抽样而造成的样本均数与总体均数的差异或各样本均数的差异。 差异或各样本均数的差异抽样误差的定义抽样误差的定义l假如事先知道某地七岁男童的平均身高为119.41cm为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了三次μ=119.41cmσ= 4.38cm抽样误差的定义抽样误差的定义l三次抽样得到了不同的结果,原因何在?个体变异随机抽样不同男童的身高不同每次抽到的人几乎不同抽样误差【定义】由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差各种参数都有抽样误差,这里我们以均数为研究对象抽样误差的定义抽样误差的定义σ: 总总体体标标准差准差 n::样样本含量本含量S S : 样本本标准差准差 计算公式计算公式反映均数抽样误差大小的指标样本均数的反映均数抽样误差大小的指标样本均数的标准差标准误越小,说明样本均数与总体标准误越小,说明样本均数与总体均数越接近,样本均数的代表性越好均数越接近,样本均数的代表性越好意义意义二、标准误二、标准误例:对某地成年男性红细胞数的抽样调查中,随例:对某地成年男性红细胞数的抽样调查中,随机抽取了机抽取了100名成年男性,调查得到其均数是名成年男性,调查得到其均数是5.38× /L ,标准差为,标准差为0.44× /L,求其标准误。 求其标准误 依题意,依题意,n=100n=100;;s=0.44s=0.44××10101212/L/L计算得到标准误为计算得到标准误为: :例题:例题:((10101212/L/L))标准误的意义标准误的意义l反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小l标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠反之亦然l标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小说明我们可以通过增加样本含量来减少抽样误差的大小样本均数的抽样分布规律样本均数的抽样分布规律l中心极限定理u从均数为μ,标准差为σ的正态总体中随机抽样,样本均数服从均数为μ,标准差为 的正态分布u从均数为μ,标准差为σ的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为μ,标准差为 的正态分布 t分布的演化分布的演化l根据中心极限定理的内容,当样本含量足够大时,对从均数为μ,标准差为σ的任意总体中随机抽样所得的样本均数进行标准化变换,有t分布的演化分布的演化l由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差,这里,ν为自由度,取值为n-1l由W.S. Gosset提出t分布的图形分布的图形自由度分别为1、5、 ∞时的 t 分布t分布的性质分布的性质lt分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。 lt分布以0为中心,左右对称l分布的高峰位置比 u 分布低,尾部高lt分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布l每一自由度下的t分布曲线都有其自身分布规律t界值表 t t界值表界值表单侧: P(t <=-tα,ν)= α或 P(t >=tα,ν)= α双侧: P(t <=-tα,ν)+ P(t >=tα,ν)= α 即:P(-tα,ν 区间估计的实质区间估计的实质l假设某个总体的均数为µ,需要找到两个量A和B,使得在一个比较高的可信度下(如95%),区间(A,B)能包含µ即P(A<µ
可信区间的两个要素可信区间的两个要素l可信度(Confidence):准确性,可靠性,即1-α–一般取90%,95%,可人为控制l精确性(Precision):区间的大小,越小越好l必须二者兼顾95%可信区间的含义可信区间的含义-2 -1 0 1 2 按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数下列说法正确吗?下列说法正确吗?算得某95%的可信区间,则: 总体参数有95%的可能落在该区间 有95%的总体参数在该区间内 该区间包含95%的总体参数 该区间有95%的可能包含总体参数 该区间包含总体参数,可信度为95%概念辨析概念辨析l标准差标准误l个体变异 抽样误差l参考值范围 可信区间l变量分布 抽样分布作业:作业:l简述标准差和标准误的区别和联系l简述参考值范围与均数的可信区间的区别和联系谢谢 再见。












