好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

抽样技术-分层随机抽样概述(PowerPoint 99页).pptx

101页
  • 卖家[上传人]:ahu****ng3
  • 文档编号:335310205
  • 上传时间:2022-09-13
  • 文档格式:PPTX
  • 文档大小:2.41MB
  • 文本预览
  • 下载提示
  • 常见问题
    • 2022/9/111第三章第三章 分层随机抽样分层随机抽样 3.1 概述3.2 简单估计量及其性质3.3 比率估计量及其性质3.4 回归估计量及其性质3.5 各层样本量的分配3.6 总样本量的确定3.7 分层抽样的其他2022/9/112第一节第一节 概述概述2022/9/113 定定 义义 3.3 分 层 随 机 抽 样(stratified randomsampling):如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随 机 抽 样,所 得 的 样 本 称 为 分 层 随 机 样 本(stratifiedrandomsample)2022/9/1142022/9/115二、作用n由于每层都进行抽样,这就可使样本在总体中分布更加均匀,从而具有更好的代表性n由于抽样在每一层中独立进行,所以一者允许各层选择不同的适合本层的抽样方法,二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计n由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度三、符号2022/9/116所有总体参数的估计量都采用下标“st”以示区别:2022/9/1172022/9/118第二节第二节 简单估计量及其性质简单估计量及其性质一、对总体均值的估计一、对总体均值的估计n分层样本分层样本,总体均值总体均值 的估计的估计n分层随机样本分层随机样本,总体均值总体均值 的简单估计的简单估计 2022/9/119估计量的性质 n性性质质1&21&2:对于一般的分层抽样,如果 是 的无偏估计(),则 是 的无偏估计。

      的方差为:n只要对各层估计无偏,则总体估计也无偏n各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的2022/9/1110证明性质1由于对每一层有因此,估计量的方差由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有2022/9/1111n性性质质3:对于分层随机抽样,是的无偏估计,的方差为:2022/9/1112证明性质3:对于分层随机抽样,各层独立进行简单随机抽样,对每一层有因此,由性质1,有由第二章性质2,得 因此n2022/9/1113n性性质质4:对于分层随机抽样,的一个无偏估计为:2022/9/1114证明性质4:对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得的无偏估计为:因此,的一个无偏估计为:2022/9/1115二、对总体总量的估计二、对总体总量的估计n 总体总量 的估计为:n如果得到的是分层随机样本,则总体总量的简单估计为:2022/9/11162.估计量的性质n性性质质1 1:对于一般的分层抽样,如果是 的无偏估计,则 是 的无偏估计的方差为:2022/9/1117n性性质质2:对于分层随机抽样,的方差为:2022/9/1118n性性质质3 3:对于分层随机抽样,的一个无偏估计为:2022/9/1119例例3.13.1n调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其95%的置信区间。

      层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252022/9/1120同理,求得:2022/9/11212022/9/1122 三、对总体比例的估计三、对总体比例的估计n总体比例P的估计为:n估计量的性质 性性质质1:对于一般的分层抽样,如果 是 的无偏估计(),则 是 的无偏估计的方差为:2022/9/1123性性质质2:对于分层随机抽样,是 的无偏估计,因而 的方差为:2022/9/1124 性性质质3:对于分层随机抽样,的一个无偏估计为:第三节第三节 比率估计量及其性质比率估计量及其性质n先“比”后“加权”,此时所得的估计量称为分别比估计(separateratioestimator)n先“加权”后“比”,这样所得的估计量称为联合比估计(combinedratioestimator)2022/9/1125分别比估计n定义3.4总体均值和总体总量的分别比估计为:2022/9/1126n定理3.5对于分层随机抽样的分别比估计,若各层的样本量都比较大,则有2022/9/1127证明n根据比估计量的性质,当比较大时,有2022/9/1128联合比估计n2022/9/1129n2022/9/1130分别比估计与联合比估计的比较2022/9/11311)当,即或分别比估计的精度与联合比估计的精度是一样的。

      2)当,即,分别比估计的精度不低于联合比估计的精度3)当且,这意味着分别比估计的精度要高于联合比估计的精度2022/9/11324)当且,或且,联合比估计的精度要高于分别比估计的精度5)当,即比估计量的方差小于简单估计量的方差时,需视具体情况而定2022/9/1133第四节第四节 回归估计量及其性质回归估计量及其性质n与比估计相似,将回归估计的思想与技术用于分层随机样本时,同样有两种可行的办法:n先“回归”后“加权”,此时所得的估计量称为分别回归估分别回归估计计;n先“加权”后“回归”,这时所得的估计量称为联合回归估联合回归估计计3.4.1分别回归估计分别回归估计n定义3.6分别回归估计分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均1.各层的回归系数各层的回归系数h事先给定事先给定 2.不能事先设定各层的回归系数不能事先设定各层的回归系数h3.4.2联合回归估计联合回归估计1.当当为事先设定的常数时为事先设定的常数时2.当回归系数当回归系数不能事先设定时不能事先设定时3.4.3 分别回归估计与联合回归估计的比较分别回归估计与联合回归估计的比较经化简得经化简得:例3.3n已知某公司一般职员(包括办事员和保管人员)及高级管理(经理)人员刚进入公司时的工资总额,欲通过抽样调查估计当前该公司职员的工资总额Y。

      抽样按照一般职员层与高管层进行分层随机抽取一般职员层抽取n1=15名职员,高管层抽取n2=10名职员同时还知道一般职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=5523965元;高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2541660元经过分层随机抽样调查所得的数据如表35所示请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度五种估计方法五种估计方法结果比较结果比较n注意注意:此时的比估计和回归估计(回归系数采用样本回归系数进行估计)均为有偏估有偏估计,并且考虑到各层的样本量都不大,回归估计的偏倚有可能更大,所以此时采用比估计,特别是联合比估计会更保险而差估计虽然标准差相对较大,但它却是无偏的无偏的,均方误差并不一定大,所以仍然有采用的价值3.4.4 比率估计与回归估计小结比率估计与回归估计小结n在分层随机抽样中,当辅助变量可加以利用时辅助变量可加以利用时,为了提高估提高估计量的精度计量的精度,可以采用分别比估计、联合比估计、分别回归分别比估计、联合比估计、分别回归估计以及联合回归估计估计以及联合回归估计等估计方法。

      n在比估计比估计中,当各层样本量都较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏n在回归估计回归估计中,少数情况下,回归系数可以是事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏n当Y与X高度相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的都是有效的选择估计方选择估计方法,法,大致需遵循的原则大致需遵循的原则n在选择估计方法时在选择估计方法时,大致需遵循下面的原则大致需遵循下面的原则:(1)由于分别估计(无论是分别比估计还是分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计(2)当回归系数需要由样本进行估计时,回归估计量是有偏的在这种情况下,采取比估计尤其是联合比估计也许更保险(3)如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效(即h均比较大),而且各层的Rh之间(或h之间)差异较大,则此时分别估计优于联合估计,估计量的方差更小(4)如果各层的样本量不大,而且各层的Rh之间(或h之间)差异较小,则采用联合估计较为适宜(5)如果各层的Rh之间(或h之间)差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些n如果各层的回归系数都接近于1,则可以采用差估计。

      虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大2022/9/1161第五节第五节 各层样本量的各层样本量的分配分配n确定样本量:总的样本量,各层样本量n估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关n实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小2022/9/11622022/9/1163一、比例分配一、比例分配n按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.n对于分层随机抽样,这时总体均值的估计是自加权2022/9/1164总总体体中中的的任任一一个个单单元元,不不管管它它在在哪哪一一个个层层,都都以以同同样样的的概概率率入入样样,因因此此按按比比例例分分配配的的分分层层随随机机样样本本,估估计计量量的的形形式式特特别别简简单单这这种种样样本也称为自加权的样本本也称为自加权的样本n总体比例的估计是2022/9/1165二、最优分配二、最优分配(一)最优分配(一)最优分配n在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。

      2022/9/11662022/9/11672022/9/1168定理定理3.7的证明的证明n对所有层成立时,达到极小常数2022/9/1169n简单线性费用函数,总费用由此得出下面的行为准则,如果某一层n单元数较多n内部差异较大n费用比较省则对这一层的样本量要多分配一些2022/9/1170三三 Neyman(内曼(内曼)最优分配)最优分配n如果每层抽样的费用相同,最优分配可简化为n这种分配称为Neyman分配这时,达到最小2022/9/1171例例3.43.4某市有甲、乙两个地区,现要进行家庭收入的调查令n=500,已知甲地区共有20000户居民,乙地区共有50000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2500,S2=2000;同时对甲地和乙地每户的平均抽样费用之比为23,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量2022/9/11722022/9/11732022/9/1174四、某些四、某些层要求大于层要求大于100%100%抽样抽样时的修正时的修正n 按最优分配时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。

      n实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层五、五、偏离最优分配时对精度的影响偏离最优分配时对精度的影响2022/9/1175例3.62022/9/1176202。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.