
3.抽样误差区间估计.ppt
64页医 学 统统 计计 学 —Medical Statistics彭志行Department of Epidemiology □从任意总体中随机抽样,当样本含量足够大时,其 样本均数的分布逐渐逼近正态分布;□样本均数之均数的位置始终在总体均数的附近;□随着样本含量的增加,样本均数的离散程度越来越 小,表现为样本均数的分布范围越来越窄,其高峰 越来越尖中心极限定理(central limit theorem)的表 现标准误的定义□样本统计量(如均数)也服从一定的分布; □与描述观测值离散趋势的指标类似,我们使用 样本统计量的标准差来衡量抽样误差的大小 又称标准误(standard error, SE) □所以样本均数的标准差,称为均数的标准误标准误的计算□计算公式为其中,σ为总体标准差,n为抽样的样本例数□在研究工作时,由于总体标准差常常未知,可 以利用样本标准差近似估计标准误的计算【例9】根据7岁男童的身高资料, 在已知总体标准差时,标准误为 4.38/10=0.438cm而若以第一次抽样的样本标准差来代替 总 体标准差,则标准误为 4.45/10=0.445cm标准误的意义□反映了样本统计量(样本均数,样本率)分布的离散 程度,体现了抽样误差的大小。
□标准误越大,说明样本统计量(样本均数,样本率) 的离散程度越大,即用样本统计量来直接估计总体参 数越不可靠反之亦然□标准误的大小与标准差有关,在例数n一定时,从标准 差大的总体中抽样,标准误较大;而当总体一定时, 样本例数越多,标准误越小说明我们可以通过增加 样本含量来减少抽样误差的大小标准误的作用•标准误的用途□衡量样本统计量代表总体参数的可靠性;□估计总体参数的可信区间;□进行假设检验标准误、标准差的区别和联系区别1、意义上•标准差描述个体值之间的变异,即观察值之 间的离散程度;•而标准误是描述统计量的抽样误差,即样本 统计量和总体参数的接近程度;2、用途上•标准差常用于表现观察值的波动范围;•标准误常表示抽样误差的大小,估计总体 参数的可信区间3、标准差、标准误与样本含量•标准差是随着样本含量的增多,逐渐趋于稳 定•标准误是随着样本含量的增多,逐渐减少联系•首先,标准差和标准误都是变异指标,说明 个体之间的变异用标准差,说明统计量之间 的变异用标准误•其次,当样本含量不变时,标准差大,标准 误亦越大,均数的标准误与标准差成正比样本均数的抽样分布规律中心极限定理u从均数为μ,标准差为σ的正态总体中随机抽 样,样本均数服从均数为μ,标准差为 的正态分布。
u从均数为μ,标准差为σ的任意总体中随机抽 样,当样本含量足够大时,样本均数近似服从 均数为μ,标准差为 的正态分布 t分布的演化•根据中心极限定理的内容,当样本含量足够 大时,对从均数为μ,标准差为σ的任意总 体中随机抽样所得的样本均数进行标准化变 换,有□由于总体标准差往往是未知的,此时往往用 样本标准差代替总体标准差,这里,ν为自由度(degree of freedom,df),取值为n -1,□由W.S.Gosset提出t分布的演化f(t) =∞(标准正态曲线) =5 =10.10.2-4-3-2-1012340.3自由度分别为1、5、∞时 t 分布的图形t分布的性质□t分布为一簇单峰分布曲线,以0为中心,左右对称□分布的高峰位置比u分布低,尾部高即相同的尾部面 积对应的界值,比u分布大例如:P=0.05,u=1.64,而 自由度为10的t分布界值,t = 1.812□t分布与自由度有关,自由度越小,t分布的峰越低 ,而两侧尾部翘得越高;自由度逐渐增大时,t分布 逐渐逼近标准正态分布;当自由度为无穷大时,t分 布就是标准正态分布□每一自由度下的t分布曲线都有其自身分布规律。
t界值表•每一自由度下的t分布曲线都有其自身分布 规律,这个规律可见于t界值表 •表上的阴影部分,表示t,以外的尾部面积 占总面积的百分数,即概率P•表中数据表示与确定时相应的t界值(critical value),常记为t,•例如,当=10,单尾概率=0.05时,查表 得单尾t0.05,10=1.812,表明,按t分布的规律,从正态分布总体中抽取 样本含量为n=11的样本,则由该样本计算的t 值大于等于1.812的概率为0.05,或者小于等 于-1.812的概率亦为0.05,可表示为:P(t≤-1.812)=0.05或P(t≥1.812)=0.05例如,当=10,双尾概率=0.05时,查表 得双尾t0.05,10=2.228, 表明,按t分布的规律,从正态分布总体中抽 取样本含量为n=11的样本,则由该样本计 算的t值大于等于2.228的概率为0.025,小 于等于-2.228的概率亦为0.025可表示为 : P(t≤-2.228)+P(t≥2.228)=0.05 或:P(-2.228=tα,ν)= α 双侧:P(t =tα,ν)= α即:P(-tα,ν< t < tα,ν)= 1-α【例10】查t界值表得t 值表达式t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧)-tt0小结□抽样误差的定义和表现□抽样误差的规律:中心极限定理□标准误的定义及其意义□t分布的演化、图形、特征及意义4.2 区间估计和可信区间Interval Estimation and Confidence Interval主要内容□统计推断□点估计□区间估计•区间估计的实质•可信区间的定义•总体均数可信区间的计算□正确理解可信区间的含义统计推断•所谓统计推断(statistical inference),是指 如何抽样,以及如何用样本性质推断总体特 征。
参数估计(parameter estimation)假设检验(hypothesis testing)统计推断的思路总体个体、个体变异总体参数 未知样本代表性、抽样误差随机 抽样样本统计量 已知统计 推断风 险参数估计□点估计(Point Estimation)To use a number to estimate the parameter.□区间估计(Interval Estimation) To obtain a range so as to include the parameter.(1)点估计用样本统计量作为总体参数的估计例如:用样本均数作为总体均数的一个估计点估计的缺陷μ=?cm σ=?cmx1,x2,x3,x4……N=143.3747 S= 5.2347x1,x2,x3…x10=144.0681 S= 4.7245 x1,x2,x3…x10=142.7203 S= 9.2473 x1,x2,x3…x10样样本含量n =10点估计的缺陷(2)区间估计例11:为了解某地 1 岁婴儿的血红蛋白浓度 ,从该地区随机抽取 25 名 1 岁婴儿,测得 其血红蛋白均 数 = 123.7(g/L)标准差 =11.9(g/L)试估计该地区1岁婴儿的平均血红蛋白浓度。
可信区间的定义v按一定的概率(1-α)用一个区间来估计总体参数 所在的范围,该范围通常称为参数的可信区间 或置信区间(confidence interval,CI), 预先给定 的概率(1-α)称为可信度或者置信度(confidence level),常取95%或99% v可信区间(CL, CU )是一开区间,CL、CU 称为可信限理论基础: t 值的分布均数的抽样分布-2.064 0 2.064v=24区间估计:(3)可信区间(confidence interval):□区间(118.79, 128.61)包含了总体均数,其 信度为95% □可信度(confidence level): 95% . □结论:该地区 1 岁婴儿的平均血红蛋白浓度 为118.79~128.61(g/L)(可信度为95%)或:该地区 1 岁婴儿的平均血红蛋白浓度 的95%可信区间为118.79~128.61(g/L)可信区间的两个要素•准确性 要求 小,可信度大•精确性 要求 大,区间窄可信区间的长度受制于个体变异和样本 含量:个体变异越大,区间越宽;样本含量 越小,区间越宽 可信区间估计的理论基础:均数的抽样分布-t /2, v 0 t /2, v 1- /2 /2(4)总体均数可信区间的计算□总体标准差已知时均数的95%可信区间□总体标准差未知时均数的95%可信区间总体标准差已知时均数的95%可信区间的估计2.5%2.5%95%总体标准差已知时均数的95%可信区间的估计•对于以总体均数为中心的曲线下 95% 面积所对应 的区间内的任意一个 ,相应的区间一定包含总体均数µ。
总体标准差已知时均数的95%可信区间的估计在总体中抽样,样本均数的u变换值有 95%可能性落在(-1.96,1.96)之间在总体中抽样,样本均数所计算的区间 有95%可能性包括总体均数总体标准差未知时均数的95%可信区间样本含量较大时,样本标准差逼近总体标准差总体标准差未知时均数的95%可信区间-t /2, v 0 t /2, v 1- /2 /2例12 三种情形之下的计算◇从该地区随机抽取25名 1 岁婴儿,测得其血红蛋 白均数123.7(g/L),根据文献已知该地血红蛋白 总体标准差12.1(g/L); ◇从该地区随机抽取250名 1 岁婴儿,测得其血红 蛋白均数123.7(g/L),样本标准差11.9(g/L); ◇从该地区随机抽取25名 1 岁婴儿,测得其血红蛋 白均数123.7(g/L),样本标准差11.9(g/L);试估计该地区1岁婴儿的平均血红蛋白浓度5)正确理解可信区间□可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的 CI,平均有95%的CI包含了总体参数□这里的95%, 指的是方法本身!而不是某个区间 !□总体参数虽未知,但却是固定的值,而不是随机 变量值 。
95%可信区间的含义-2 -1 0 1 2按这种方法 构建的可信区 间,理论上平 均每100次, 有95次可以估 计到总体参数 随机现象模拟软件下列说法正确吗?算得某95%的可信区间,则:总体参数有95%的可能落在该区间有95%的总体参数在该区间内该区间包含95%的总体参数该区间包含总体参数,可信度为95% Summary◇ Statistical Inference includes parameter estimation and hypothesis test.◇ To obtain a interval in which it may include the population parameter with some confidence level, this is called a interval estimation.◇ Confidence interval has two factors:Confidence and Precision◇ To obtain the confidence limits we should pay attention to the assumptions.概念辨析Ø标准差标准误Ø个体变异 抽样误差Ø参考值范围 可信区间Ø变量分布 抽样分布Contact: 86862755Email: mspzh2003@.。
