
抽样误差和可信区间.ppt
48页抽样误差和可信区间抽样误差和可信区间Sampling Error & Confidence IntervalsMedical statistics医学统计学主要内容主要内容(Content)vv抽样误差及其规律性抽样误差及其规律性vv标准误标准误vv抽样分布与抽样分布与t分布分布vv统计推断与参数估计统计推断与参数估计vv总结总结一.均数的抽样误差(sampling error)与标准误(standard error, SE)抽样研究的目的是要用样本信息推断总抽样研究的目的是要用样本信息推断总体特征,称体特征,称统计推断1. 抽样误差的定义抽样误差的定义vv假如事先知道某地七岁男童的平均身高为假如事先知道某地七岁男童的平均身高为假如事先知道某地七岁男童的平均身高为假如事先知道某地七岁男童的平均身高为119.41cm119.41cm为了估计七岁男童的平均身高(总体为了估计七岁男童的平均身高(总体为了估计七岁男童的平均身高(总体为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每均数),研究者从所有符合要求的七岁男童中每均数),研究者从所有符合要求的七岁男童中每均数),研究者从所有符合要求的七岁男童中每次抽取次抽取次抽取次抽取100100人,共计抽取了三次。
人,共计抽取了三次人,共计抽取了三次人,共计抽取了三次μ=119.41cmσ= 4.38cm三次抽样得到了不同的结果,原因何在?三次抽样得到了不同的结果,原因何在?三次抽样得到了不同的结果,原因何在?三次抽样得到了不同的结果,原因何在?个体变异随机抽样不同男童的身高不同每次抽到的人几乎不同抽样误差【定义】由于个体变异的存在,在抽样【定义】由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之研究中产生样本统计量和总体参数之间的差异,称为间的差异,称为抽样误差抽样误差((sampling error))各种参数都有抽样误差,这里我们以均数为各种参数都有抽样误差,这里我们以均数为研究对象研究对象抽样误差的定义抽样误差的定义抽样误差的表现抽样误差的表现抽样误差的表现样本均数和总体均数间的差别样本均数和样本均数间的差别抽样误差的重要性抽样误差的重要性总体同质个体、个体变异总体参数未知样本代表性、抽样误差随机抽样 样本统计量 已知统计推断风 险2. 抽样误差的规律性抽样误差的规律性(分布) 既然抽样误差是有规律的,既然抽样误差是有规律的,那么到底它的分布规律到底那么到底它的分布规律到底是怎样的?是怎样的? SAMPLE 1:x11 x12 x13 x14...x1nSAMPLE 2:x21 x22 x23 x24...x2nSAMPLE k:xk1 xk2 xk3 xk4...xknA Simulation Study原始总体μk个样本均数的频数分布图vv从正态总体中随机抽样,其样本均数从正态总体中随机抽样,其样本均数服从正态分布服从正态分布vv从任意总体中随机抽样,当样本含量从任意总体中随机抽样,当样本含量足够大时,其样本均数的分布逐渐逼足够大时,其样本均数的分布逐渐逼近正态分布近正态分布均数的抽样误差均数的抽样误差 -μ的分布的分布3. 标准误的定义标准误的定义vv抽样误差的标准差称为标准误(standard error)。
vv样本统计量的标准差反映了从某个总体中随机抽样所得样本之均数分布的离散程度标准误的计算标准误的计算vv计算公式为计算公式为vv其中,其中,σ为总体体标准差,准差,n为为抽抽样样的的样样本例数本例数vv在研究工作在研究工作时,由于,由于总体体标准差常常准差常常未知,可以利用未知,可以利用样本本标准差近似估准差近似估计标准误的意义标准误的意义vv反映了样本统计量(样本均数,样本率)分布的反映了样本统计量(样本均数,样本率)分布的反映了样本统计量(样本均数,样本率)分布的反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小离散程度,体现了抽样误差的大小离散程度,体现了抽样误差的大小离散程度,体现了抽样误差的大小vv标准误越大,说明样本统计量(样本均数,样本标准误越大,说明样本统计量(样本均数,样本标准误越大,说明样本统计量(样本均数,样本标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估率)的离散程度越大,即用样本统计量来直接估率)的离散程度越大,即用样本统计量来直接估率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠反之亦然。
计总体参数越不可靠反之亦然计总体参数越不可靠反之亦然计总体参数越不可靠反之亦然vv标准误的大小与标准差有关,在例数标准误的大小与标准差有关,在例数标准误的大小与标准差有关,在例数标准误的大小与标准差有关,在例数n n一定时,从一定时,从一定时,从一定时,从标准差大的总体中抽样,标准误较大;而当总体标准差大的总体中抽样,标准误较大;而当总体标准差大的总体中抽样,标准误较大;而当总体标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小说明我们一定时,样本例数越多,标准误越小说明我们一定时,样本例数越多,标准误越小说明我们一定时,样本例数越多,标准误越小说明我们可以通过增加样本含量来减少抽样误差的大小可以通过增加样本含量来减少抽样误差的大小可以通过增加样本含量来减少抽样误差的大小可以通过增加样本含量来减少抽样误差的大小二.t分布 t分布的演化分布的演化vv由于总体标准差往往是未知的,此时由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差,往往用样本标准差代替总体标准差,这里,这里,这里,这里,ν ν为为为为自由度,取自由度,取自由度,取自由度,取值为值为值为值为n n-1-1vv由由W.S. W.S. GossetGosset提出提出 f(t) =∞(标准正态曲线) =5 =10.10.2-4-3-2-1012340.3自由度分别为1、5、 ∞时的 t 分布t分布的图形分布的图形t分布的性质分布的性质vvt t分布为一簇单峰分布曲线,高峰在分布为一簇单峰分布曲线,高峰在分布为一簇单峰分布曲线,高峰在分布为一簇单峰分布曲线,高峰在0 0的位置上,说明从的位置上,说明从的位置上,说明从的位置上,说明从正态总体中随机抽样所得样本计算出的正态总体中随机抽样所得样本计算出的正态总体中随机抽样所得样本计算出的正态总体中随机抽样所得样本计算出的t t值接近值接近值接近值接近0 0的可的可的可的可能性较大。
能性较大能性较大能性较大vvt t分布以分布以分布以分布以0 0为中心,左右对称为中心,左右对称为中心,左右对称为中心,左右对称vv分布的高峰位置比分布的高峰位置比分布的高峰位置比分布的高峰位置比 u u 分布低,尾部高分布低,尾部高分布低,尾部高分布低,尾部高vvt t分布与自由度分布与自由度分布与自由度分布与自由度 有关,自由度越小,有关,自由度越小,有关,自由度越小,有关,自由度越小,t t分布的峰越低,分布的峰越低,分布的峰越低,分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,而两侧尾部翘得越高;自由度逐渐增大时,而两侧尾部翘得越高;自由度逐渐增大时,而两侧尾部翘得越高;自由度逐渐增大时,t t分布逐渐分布逐渐分布逐渐分布逐渐逼近标准正态分布;当自由度为无穷大时,逼近标准正态分布;当自由度为无穷大时,逼近标准正态分布;当自由度为无穷大时,逼近标准正态分布;当自由度为无穷大时,t t分布就是分布就是分布就是分布就是标准正态分布标准正态分布标准正态分布标准正态分布vv每一自由度下的每一自由度下的每一自由度下的每一自由度下的t t分布曲线都有其自身分布规律分布曲线都有其自身分布规律。
分布曲线都有其自身分布规律分布曲线都有其自身分布规律t t界值界值界值界值表表表表 t t分布曲线下的面积分布曲线下的面积-tt0t t界值表界值表单侧:单侧: P(t <-tα,ν)= α或或 P(t >tα,ν)= α双侧:双侧: P(t <-tα/2,ν)+ P(t >tα/2,ν)= α 即即:P(-tα/2,ν 年男子脉搏总体均数区间估计的实质区间估计的实质vv假设某个总体的均数为假设某个总体的均数为µ,需要找到两,需要找到两个量个量A和和B,使得在一个比,使得在一个比较较高的可信高的可信度下度下(如如95%),区,区间间(A,B)能包含能包含µ即即P(A<µ
的可信区间例例4.2】】 某某市市2001年年120名名7岁岁男男童童的的身身高高=123.62(cm),,标标准准差差s=4.75(cm),,计计算算该该市市7岁男童总体均数岁男童总体均数90%的可信区间的可信区间均数之差可信区间的计算均数之差可信区间的计算 正常组 肝炎组 2=?=?均 数: 231.86ug/dL标准差:12.17ug/dL 1=?=?均 数:273.18ug/dL标准差:9.77ug/dL 1- 2 =?=?合并方差与均数之差的标准误合并方差与均数之差的标准误vv合并方差合并方差(方差的加权平均方差的加权平均)vv均数之差的标准误均数之差的标准误与均数之差有关的抽样分布与均数之差有关的抽样分布 “均数之差均数之差”与与“均数之差的标准误均数之差的标准误”之比,之比,服从自由度服从自由度 = n1+n2 -2的的 t 分布样本含量较大时,服从标准正态分布样本含量较大时,服从标准正态分布计算计算可信区间的两个要素可信区间的两个要素vv可信度(可信度(Confidence) ):准确性,可靠:准确性,可靠性,即性,即1-1-αα。 §一般取一般取90%,9590%,95%%, ,可人可人为为控制控制vv精确性精确性(Precision)::区间的大小,越区间的大小,越小越好vv必须二者兼顾必须二者兼顾可信区间的宽度及影响因素可信区间的宽度及影响因素vv均数的均数的(1-α)可信区间为可信区间为 则其宽度为则其宽度为可信区间的宽度可信区间的宽度vv可信度越大,可信区间越宽,说明用可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)该区间来估计总体参数(总体均数)越可靠vv标准差越小,可信区间就越窄,意味标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数可信区间就可以估计总体均数vv随着样本含量的增加,可信区间逐渐随着样本含量的增加,可信区间逐渐变窄正确理解可信区间正确理解可信区间vv可信度为可信度为95%的的CI的涵义:的涵义:§每每100个样本,按同样方法计算个样本,按同样方法计算95%的的CI,平均有,平均有95%的的CI包含了总体包含了总体参数vv这里的这里的95%,指的是方法本身!而不,指的是方法本身!而不是某个区间!是某个区间!vv总体参数虽未知,但却是固定的值,总体参数虽未知,但却是固定的值,而而不是随机变量值不是随机变量值 。 95%可信区间的含义可信区间的含义-2 -1 0 1 2 按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数下列说法正确吗?下列说法正确吗?算得某算得某95%的可信区间,则:的可信区间,则: 总体参数有总体参数有95%的可能落在该区间的可能落在该区间 有有95%的总体参数在该区间内的总体参数在该区间内 该区间包含该区间包含95%的总体参数的总体参数 该区间有该区间有95%的可能包含总体参数的可能包含总体参数 该区间包含总体参数,可信度为该区间包含总体参数,可信度为95%概念辨析概念辨析vv标准差标准差标准误标准误vv个体变异个体变异 抽样误差抽样误差vv参考值范围参考值范围 可信区间可信区间vv变量分布变量分布 抽样分布抽样分布vv简述标准差和标准误的区别和联系简述标准差和标准误的区别和联系vv简述参考值范围与均数的可信区间的简述参考值范围与均数的可信区间的区别和联系区别和联系。
