好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

总体均数估计.ppt

85页
  • 卖家[上传人]:cn****1
  • 文档编号:608200867
  • 上传时间:2025-05-25
  • 文档格式:PPT
  • 文档大小:1.18MB
  • / 85 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,第六章 总体均数的估计,,,西南财经大学近日发布《中国家庭金融调查报告》,报告显示截至2011年8月,中国家庭资产平均为121.69万元,城市家庭平均为247.60万元,农村家庭平均为37.70万元有网民说,看到这个数字第一个反应是自己“被平均了”据《现代快报》),,,,10%的家庭收入占整个社会总收入的57%,5%家庭收入占整个社会总收入的44%,说明中国家庭收入不均等    ——李宏彬    中国城市家庭平均资产有200多万,但平均资产的中位数只有40.5万两者差距越大,表明财产分布越不均    ——甘犁,,,城镇单位职工平均工资(1952-2007),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,@火炮大师  :,昨天晚上,老弟说去协和医院给我婶挂号看病结果被工作人员告知,要排队挂号的话,得排3天我就XXX的!!!这年头看病也太恐怖了吧废话少说你没有看错这不是收容所这都是排队挂号的主要内容,均数的抽样误差与标准误,,,t,分布,,总体均数的估计,,,一、均数的抽样误差,总体,样本,随机抽样,推断,,,,由于个体变异产生的,随机抽样引起的样本统计量与总体参数之间的差异或各样本统计量之间的差异称为,抽样误差,。

      1. 抽样误差(sampling error),,,,常把这种由抽样研究造成的样本均数与总体均数间的差异称为,均数的抽样误差由抽样研究造成的样本率与总体率间的差异称为,率的抽样误差,抽样误差是不可避免的,但能估计其大小常用,样本均数的标准差,作为衡量均数抽样误差大小的尺度即均数标准误2. 标准误(Standard error),,,σ,标准误示意图,x,,μσ,population,,x,,,抽样试验,,,从正态分布总体,N,(5.00,0.50,2,)中,每次随机抽取样本含量,n,=5,,并计算其均数与标准差;重复抽取,1000次,,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图按上述方法再做样本含量,n,=10,、样本含量,n,=30,的抽样实验;比较计算结果抽样试验(,n,=5),,,,,抽样试验(,n,=10),,,,,抽样试验(,n,=30),,,,,1000份样本抽样计算结果,,总体的均数,总体标准差,s,均数的均数,均数标准差,,n,=5,5.00,0.50,4.99,0.2212,0.2236,n,=10,5.00,0.50,5.00,0.1580,0.1581,n,=30,5.00,0.50,5.00,0.0920,0.0913,,,3个抽样实验结果图示:,,,抽样实验小结,1.,均数的均数围绕,总体均数上下波动。

      2.,均数的标准差即,标准误,,与总体标准差,,相差一个常数的倍数,即,,3.,从正态总体,N,(,m,,,s,2,)中抽取样本,获得均数的,,分布仍近似呈,正态分布,N,(,m,,,s,2,/,n,),,1.从正态分布,N,(,,,,,2,)中,以固定,n,抽取样本,样本均数的分布仍服从正态分布,样本均数的总体均数仍为,,,样本均数的标准差为,,2.即使是从偏态分布总体抽样,只要,n,足够大,样本均数的分布也近似正态分布;,,3.随着样本量的增大, 样本均数的变异范围也逐渐变窄中心极限定理,central limit theorem,,,从同一个总体做3次抽样的结果图示:,,,标准误(standard error),样本均数的标准差称标准误,是说明均数抽样误差大小的指标, 大,抽样误差大;反之,,,小,抽样误差小 标准误的计算:,,,标准误的估计值,:,,,,影响标准误大小的因素,,的大小与,,成正比,,,与样本含量,n,的平方根成反比,,,例6.1随机抽取某地正常成年男性200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计抽样误差:,,,例子6.2 两文献表述有何区别,,,,标准误与标准差的区别,:,(1)概念不同,,,标准差,是描述样本个体值间的变异,标准差小,说明变量值围绕均数的波动小,均数的代表性好。

      标准误,是描述样本均数的抽样误差,标准误越小,表示样本均数围绕总体均数的波动越小2)用途不同,标准差,表示变量值对均数的波动大小,当资料呈正态分布时,与均数结合估计正常值范围、计算变异系数、标准误等标准误,表示样本统计量对总体参数的波动情况,用于估计参数的可信区间、进行假设检验1)两者均为变异指标;,,2)样本含量不变时,均数的标准误与标准,,差成正比;,,3)两者均可与均数结合使用(但描述的内,,容各不相同)3)联系,,,在应用过程中要注意标准差和标准误的区别:,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,t,分布,,t,分布的由来,,t,分布的特征,,t,分布曲线下的面积,,,总体,,样本均数,,,,,中心极限定理,标准正态分布,,,标准正态分布,,,未知,t分布,,,,t分布的由来,变量变换,,,如果抽取例数,n=,5的样本,k,个,每个样本又都可以按公式(9.20)计算出一个,t,值,可将,k,个,t,值编制成频数表,作出直方图,当,k,无限增大时,则可得到一条光滑的曲线9.20,),,,同理,如果抽取例数,n,=10时,仍能得到一,,条,t,分布曲线,,,因此,当,n,变化时,就可以得到不,,同的,t,分布曲线,如下图,,,x,,μ,population,,t,1,,,t,2,,,t,3,,t,k,N=5,N=5,N=5,N=5,,,x,,μ,population,,t,1,,,t,2,,,t,3,,t,k,N=10,N=10,N=10,N=10,,,图3.2 自由度分别为4、9、∞的,t,分布,,,,t,分布曲线的特点,,,①单峰分布,曲线在,t,=0 处最高,并以,t,=0为中心左右对称,,②与正态分布相比,曲线最高处较矮,两,尾部翘得高,(见红线),,③其形态变化与,自由度,,的大小有关。

      自由度,,越小,则t值越分散,曲线越低平;随自由度增大,曲线逐渐接近正态分布它与样本例数,n,或自由度,ν,有关,某个自由度对应于一条,t,分布曲线当,n,或,ν,不同时,曲线形状不同当,,,,,时,,t,分布趋近于标准正态分布自由度:,ν,=,n,-1,,随机变量能够自由取值的个数,,,t,分布曲线下面积规律,t,分布曲线下总面积仍为1或100%,,由于,t,分布是一簇曲线,故,t,分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表3 附表,3,t,分布表的特点,附表3的横标目为自由度,,,纵标目为概率,P,,表中数值为其相应的,t,界值,记作,t,,,,,;,,t,取值于某个区间的概率,P,相当与横轴上该区间与曲线所夹面积附表3给出了t分布曲线下单侧或双侧尾部面积所对应的界值;,,,,双侧,t,0.05/2,9,=2.262=单侧,t,,单侧,t,0.05,9,=1.833,,双侧,t,0.05/2,∞,=1.96=单侧,t,0.025,∞,,单侧,t,0.05,∞,=1.64,,t,分布曲线下面积,,,附表3只列出正值,若计算的,t,值为负值时,可用其绝对值查表 。

      其通式为,,双侧:,P(t≤-t,,/2,,,,)+P(t≥t,,/2,,,,)=,,,单侧:,P(t≤-t,,,,,)=,,或,P(t≥t,,,,,)=,,,图中非阴影部分面积的概率为,,,P(-t,,/2,,,,

      而非总体参数落在该范围的可能性为,α置信区间的含义,,,置信区间的确切含义,,,95%置信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个置信区间,得100个置信区间,平均有95个可信区间包括,μ,(估计正确),只有5个可信区间不包括,μ,(估计错误)图 100个来自,N,(0,1)的样本所估计的可信区间示意,,,,一次抽样算得的置信区间,当,,= 0.05,时,,95%CI,估计正确的概率为,0.95,,估计错误的概率小于或等于,0.05,,即有,95%,的可能性包含了总体均数置信区间的两个要素,,准确度:,反映在置信度(1-,,)的大小上,即,置,信区间包含总体均数的可能性大小,从准确度的角度看,愈接近1愈好,如置信度99%比95%好精密度:,反映在置信区间的长度上,用区间长度C,U,-C,L,衡量即长度愈小精密度愈好在抽样误差确定的情况下,二者是相互矛盾的,若提高了可信度,可信区间势必增大,精密度下降一般情况下,常用95%置信区间在,置,信度确定的情况下,增加样本含量可减小区间宽度资料不同,总体均数的估计方法也不同,根据资料的条件,计算方法有三种:,总体均数的置信区间估计方法,,,(1),,未知,,,且,n,小:,按,t,分布原理计算可信区间。

      t,,,,,t,,,,,2.5%,2.5%,0,由于,:,则:,,,所以,总体均数的100(1-α)%可信区间的通式为:,,,,例6.3:在某地成年男子中随机抽取25人,测得其脉搏均数为72次/min,标准差为8次/min试估计该地成年男性脉搏总体均数的95%置信,区间68.7, 75.3)次/分,,,,根据样本计算,可推断该地成年男性脉搏总体均数的95%置信区间为(68.7,75.3)次/分2),,未知,但,n,足够大时,(,n,>100),,t,分布逼近,z,分布按,z,分布原理计算可信区间z,,,-z,,,由于,:,则:,,,所以,总体均数的100(1-α)%之置信区间的通式为:,,,,例,,测得某地110名18岁男大学生身高 =,172.73cm,s=4.09cm,,估计该地18岁男大学生身高均数的95%可信区间本例,n,=110, =172.73cm,,s,=4.09cm,双侧z,0.05/2,=1.96,,按式(3.7)计算:,即:该地18岁男大学生身高均数的95%可信区间为171.97cm~173.49cm,,,(3)σ已知:,故可按正态分布原理估计总体均数的可信区间,计算公式为:,,,,未知,且,n,小,,,,,,已知,:,,,未知,但,n,足够大,:,,,,三种情况,,,两总体均数差值的置信区间(自学),假设正态总体 和 ,当 , 均未知,但 时,则两总体均数之差( )的双侧( )置信区间为:,,,,,其中, ,,,,当,n,1,,,n,2,均较大时,差值的置信区间为:,,,例6.5 测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量,结果见表6.5,试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置信区间。

      表6.5 两对比组脑脊液中镁含量(mmol),,,组别 例数 均数 标准差,,结核组 28 1.04 0.17,,对照组 34 1.28 0.14,,,,解:假定两组方差齐,根据公式6.7,6.8,6.9可得:,,,,,,,,,故两总体均数之差的95%可信区间为(0.16,0.32)mmol/L,,,可信区间的注意问题,1.可信区间的涵义意思是从总体中作随机抽样,每个样本可以算得一个可信区间如95%可信区间意味着做100次抽样,算得100个可信区间,平均有95个估计正确,估计错误的只有5次5%是小概率事件,实际发生的可能性很小,当然这种估计方法会有5%犯错误的风险2.可信区间的两个要素:,一是准确度:,反映在可信度的大小,即区间包含总体均数的概率的大小,愈接近1愈好二是精密度:,反映在区间的长度,长度愈小愈好在样本含量确定的情况下,二者是矛盾的,若只管提高可信度,会把区间变得很长,故不宜认为99%可信区间比95%可信区间好,一般来说95%可信区间更为常用。

      区别点 均数的可信区间 参考值范围,,意义 包含总体均的可 “正常人”的解剖、生理,,能范围 生化指标的波动范围,,,,计算公式,,,,,用途,估计总体均数,,判断观察对象的某,,项指标是否正常,3. 均数可信区间与参考值范围的区别,,,3.可信区间与参考值范围的区别,95%的,可信区间中的95%是,可信度,,即所求可信区间包含总体参数的可信程度为95%;,,95%的参考值范围中的95%是一个,比例,,即所求参考值范围包含了95%的正常人小结,,1.抽样误差,,2.标准差与标准误的区别与联系,,3.t分布、正态分布与标准正态分布的区别与联系,,4.可信区间与参考值范围的区别与联系,,,,,,,。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.