好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

多阶段抽样(PPT69页).ppt

70页
  • 卖家[上传人]:壹****1
  • 文档编号:590018583
  • 上传时间:2024-09-12
  • 文档格式:PPT
  • 文档大小:391KB
  • / 70 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第九章 多阶段抽样n第一节 引言n第二节 初级单元大小相等的二阶抽样n第三节 初级单元大小不相等的二阶抽样n第四节 其他问题 第一节 概述n一、概述n二、多阶段抽样的定义及其与其他抽样的关系n二、多阶段抽样的特点和作用n三、抽选方法与推断原理 一、引言n采用整群抽样的主要理由是整群样本比较集中,实施便利,每个基本单元的调查费用较低n它的最大缺点是由于群内小单元存在一定程度的相似性(群内相关系数大于0),其抽样误差高于同样样本量的简单随机抽样n事实上,在多数情形,特别是当群的规模比较大时,确实没有必要对群内所有次级单元都进行调查因此很自然地想到可以对每个被抽到的群中的次级单元再次进行抽样 二、多阶段抽样的定义及其与其他抽样的关系n(一)二阶段抽样n设总体由N个初级单元组成,每个初级单元又由若干二级(次级)单元组成,若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,则这种抽样称为二阶抽样,或二级抽样(two-stage sampling)n在二阶抽样中,全部抽样是分两步实施的:n第一步是从总体中抽初级单元,称为第一阶抽样;n第二步是从每个被抽中的初级单元中抽二级单元,称为第二阶抽样。

      n如果每个二级单元又由更小的三级单元组成,那么第二阶抽样后,若对每个被抽中的二级单元中的三级单元再进行抽样,则是三阶抽样n如果对每个被抽中的二级单元不再抽样,调查其中每个三级单元,则称为二阶整群抽样n以此类推,可定义更高阶的多阶抽样(multi-stage sampling)或多阶整群抽样(multi-stage cluster sampling) n(二)多阶段抽样与其他抽样的关系n整群抽样可以看作是多阶段抽样的一种特殊情形,即最后一阶抽样是100%的抽样n分层抽样也可看作是多阶抽样的特例:此时每个初级单元即是层,第一阶抽样是100%抽样,而层内抽样是第二阶抽样当然,层内抽样本身也可能是多阶的n在多阶段抽样中,各阶抽样的方法可以采用简单随机抽样,也可以采用放回或不放回的不等概抽样,或者用系统抽样 三、多阶段抽样的特点及作用n1、实施方便,节省费用n保持了整群抽样的优点保持了整群抽样的优点, ,即由于样本比较集中即由于样本比较集中, ,便于调查便于调查、、节省节省费用费用;.;.n2 2、、对抽中的次级单元进行再抽样,提高了效率n多阶段抽样能充分发挥抽样的效率,克服了整群抽样的缺点多阶段抽样能充分发挥抽样的效率,克服了整群抽样的缺点, ,即避免了对小单元过多调查造成的浪费。

      即避免了对小单元过多调查造成的浪费n3、抽样框编制得以简化n多阶段抽样是分阶段实施的,因此抽样框也可以分多阶段抽样是分阶段实施的,因此抽样框也可以分级进行准备:在第一阶抽样中,仅需准备总体中关级进行准备:在第一阶抽样中,仅需准备总体中关于初级单元的抽样框;在第二阶抽样中,仅需对那于初级单元的抽样框;在第二阶抽样中,仅需对那些被抽中的初级单元准备二级单元的抽样框更高些被抽中的初级单元准备二级单元的抽样框更高阶的也是如此,每次只需要对被抽中的单元准备下阶的也是如此,每次只需要对被抽中的单元准备下一级抽样单元抽样框一级抽样单元抽样框 n在社会经济调查中,多阶抽样常用于抽样单元为各级行政单位的情况例如,在一项全国性调查中,往往将省、地市、县、街道(乡、镇)、居(村)民委员会、居(村)民小组及住户作为各级南样单元在此,采用多阶段抽样显然十分方便n再如,在一个城市中,可以将区作为其中一级单元,也可直接将街道作为一级单元;可以将居委会作为街道下一级的单元,也可以将居民小组作为街道下一级的单元 n4 4、多阶段抽样可用于散料的抽样、多阶段抽样可用于散料的抽样. .n所谓散料是指连续松散的不易区分为个体或所谓散料是指连续松散的不易区分为个体或抽样单元的材料抽样单元的材料. .如如: :矿石、煤矿石、煤、、粮食粮食、、水泥水泥、、化肥等等。

      化肥等等n例如例如: :对贮藏在仓库中的小麦中农药残留量对贮藏在仓库中的小麦中农药残留量的监测的监测. .n首先,从仓库中抽若干麻袋首先,从仓库中抽若干麻袋n然后,再从每个抽中的麻袋中的不同部位抽取一然后,再从每个抽中的麻袋中的不同部位抽取一定数量的小麦样品(称为份样)进行测试定数量的小麦样品(称为份样)进行测试 三、抽选方法与推断原理三、抽选方法与推断原理n多阶段抽样每一阶段的抽样可以相同,也可以不同,它通常与整群抽样、分层抽样、系统抽样结合使用.n实际工作中,多阶段抽样通常与整群抽样结合使用,即前几阶是多阶段抽样,最后一阶为整群抽样 n多阶段抽样时多阶段抽样时, ,抽样是分步进行的抽样是分步进行的, ,因此因此, ,讨论估计量讨论估计量 的均值及方差时需要分阶的均值及方差时需要分阶段进行段进行, ,则用到下面的性质则用到下面的性质: :性质性质1 1 对于两阶段抽样对于两阶段抽样, ,有有•式中式中, ,E E2 2、、V V2 2为在固定初级单元时对第二为在固定初级单元时对第二阶抽样求均值和方差阶抽样求均值和方差; ;E E1 1 、、 V V1 1为对第一为对第一阶抽样求均值和方差阶抽样求均值和方差. . 上述1式是显然的。

      2式证明如下: n性质性质1 1可推广到多阶段抽样的情形可推广到多阶段抽样的情形, ,如三如三阶段抽样阶段抽样: : 第二节第二节 初级单元大小相等的二阶抽样初级单元大小相等的二阶抽样n一、符号n二、总体均值的估计量及其性质n三、关于总体比例的估计 n引:本节先讨论初级单元大小(即所包含的次级单元数目)相等情形的二阶抽样n此时两阶抽样中的每一阶都可采用简单随机抽样:第一阶抽样从总体N个初级单元中抽取n个初级单元,第二阶抽样则是从每个被抽中的初级单元(设每个包含M个次级单元)中抽取m个次级单元n假定:在抽中的若干初级单元中作第二阶抽样是相互独立地进行的 一、符号说明n初级单元的个数初级单元的个数: :N Nn二级单元的个数二级单元的个数: :M Mn第一阶段和第二阶段的样本量第一阶段和第二阶段的样本量: :n,m;n,m;n第第i i个初级单元中第个初级单元中第j j个二级单元的观测值个二级单元的观测值: :Y Yijij( (i=1,2,…N=1,2,…N;;j=1,2,…M)=1,2,…M)n样本中第样本中第i i个初级单元中的第个初级单元中的第j j个二级单元的观测值个二级单元的观测值: :y yijij( (i=1,2,…n=1,2,…n;;j=1,2,…m)=1,2,…m)n第一阶段和第二阶段的抽样比第一阶段和第二阶段的抽样比: : n总体和样本中第总体和样本中第i i个初级单元按二级单元的平个初级单元按二级单元的平均值均值: :n总体和样本按二级单元的平均值总体和样本按二级单元的平均值: : n总体和样本初级单元间的方差:n初级单元内的方差: n若记n则有n同理 二、总体均值 的估计量及其性质 n性质2 如果二阶抽样中的每一阶抽样都是简单随机的,且对每个初级单元,第二阶抽样是相互独立的,则对总体均值 的无偏估计为:n其方差为:n方差 的无偏估计为: n估计量的方差由两个分量组成:n其中源由第一阶抽样的第一项主要取决于第一阶抽样的样本量n与初级单元间的方差S12n源由第二阶抽样的第二项主要取决于第二阶抽样的总样本量mn与初级单元内的方差S22n在通常情况下,第一项占总方差的绝大部分,因此在固定次级单元样本量mn的条件下,n愈大( m愈小),则方差就愈小。

      n【例例8.1】 欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个含有5家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水帐,为了减轻样本企业的负担,调查人员对这5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水帐.调查的结果如下,要求根据这些数据推算100家企业该指标的总量,并给出估计的95%置信区间. n 5家企业的调查结果样本企业第一日第二日第三日15759642384150351606344853495625554 n解:已知 N=100, M=30, n=5,m=3 f1= n/N=5/100=0.05, f2= m/M=3/30=0.10首先计算样本初级单元的均值和方差: 样本企业160132433935839450755719 置信区间: 三、对总体的比例的估计三、对总体的比例的估计n总体中具有所研究特征的二级单元占全体二级单元数的比例为:式中:Ai为第i个初级单元中具有所研究特征的二级单元数 对总体比例P的估计是:式中:ai为第i个样本初级单元中具有所研究特征的二级单元数 n性质3: 对于二阶抽样,如果两个阶段都是简单随机抽样,则有n估计量p的方差为:V(p)的无偏估计为: 类似于前面总体方差的表达形式,有: n【例例8.2】欲调查某个新小区居民户家庭装潢聘请专业装潢公司的比例。

      在15个单元中随机抽取了5个单元,在这5个单元中分别随机抽取了4户居民并进行了调查,对这20户调查结果如下:样本单元第一户第二户第三户第四户 一栋A座 是是否否 二栋C座否是否否 三栋C座否否否是 四栋C座否否否否五栋B座是否否否要求:根据这些数据推算居民家庭装潢聘请专业装潢公司的比例 n解:聘请专业装潢公司的居民户为“1”,否则记为“0” N=15 M=12 n=5 m=4 标准差为s(p)=0.081若以95%的概率估计居民户装潢聘请专业公司的 比例在: 第三节第三节 初级单元大小不等的初级单元大小不等的 二阶抽样二阶抽样n一、一般说明及符号n二、估计量及其性质n三、估计量是自加权的条件及对初级单元的PPS抽样 一、一般说明及记号n与整群抽样类似,当初级单元大小不相等时的二阶抽样有两种处理方法:n一种是将初级单元按大小分层,使层内的初级单元大小大致相同,从而可用上一节的方法处理n另一种方法是考虑用不等概率抽样抽取初级单元 n符号说明:n总体中初级单元的个数以及第一阶抽取的样本量:N,nn第i个初级单元中二级单元的个数Min第i个初级单元中第二阶抽样的样本量min第i个初级单元中第j个二级单元的观测值:Yijn样本中第i个初级单元中的第j个二级单元的观测值:yijn第一阶和第二阶的抽样比: n总体及样本二级单元数:n总体及样本指标总和:n总体及样本第i个初级单元指标总和:n总体及样本第i个初级单元按二级单元的平均值 n总体及样本二级单元的平均值:n初级单元间的 方差:n第i个初级单元二级单元间的方差: 二、估计量及其性质n (一)对初级单元进行简单随机抽样(一)对初级单元进行简单随机抽样 n如果二阶抽样中每个阶段都采用简单随机抽样,并且每个初级单元中二级单元的抽样是相互独立的 ,则对总体总和的估计可以采用简单估计,也可以采用比率估计。

      n1. 简单估计量这个估计量是无偏的并且当f2i=mi/Mi对所有的二级单元都相等时,  是自加权的 n其方差为:n其无偏估计为:n其中: n简单估计 尽管无偏,但效果一般并不好其原因是当Mi不相等时,Yi的差异很大,从而 中的第一项的数值比较大,估计量的方差也就大 n2.比率估计量n为了减小方差,可以考虑将初级单元的大小Mi作为辅助变量,采用比率估计量对总体总和进行估计n对总体总和的比率估计量:这个比率估计量是有偏的,但随着样本量的增加,其偏倚将趋于0 n其近似均方误差为:n因为 的差异一般不会很大,因此,当Mi相差很大时,   要比无偏估计量  的方差小得多其样本估计为:式中: (二)对初级单元进行放回不等概抽样(二)对初级单元进行放回不等概抽样n对初级单元进行放回不等概抽样时,对每个初级单元,设定一个概率Zi(    ),进行n次独立放回抽样,每次抽到第i个初级单元的概率为Zi,i=1,2,…Nn第二阶抽样则是在每个被抽到的初级单元中以某种形式抽取mi个次级单元n若某个初级单元被重复抽中,则原来在第二阶抽样抽到的这些次级单元都被放回,然后重新抽取mi个次级单元 n对于二阶抽样中总体总和Y的估计,一般是先对每个被抽中的初级单元i,利用第二阶抽样抽到的样本,估计初级单元的总和Yi,然后再利用单阶抽样的结果进一步估计Y。

      n具体地说,是先给出Yi的一个无偏估计  ,再利用Hansen-Hurwitz估计量对总体总和Y进行估计:由于由于 是是Yi的无偏估计,可以证明,的无偏估计,可以证明, 是Y的无偏估计是Y的无偏估计 n 的方差为: n 的无偏估计为:注:上面的讨论中并没有规定第二阶的抽样方式,且上式的方差估计量的形式与第二阶抽样的方式无关 n如果希望 是自加权的,由则要求:f0为总体中任意一个二级单元被抽中的概率如果 f0 事先确定,则:即第二阶抽样的抽样比与zi成反比 n当估计量 是自加权时,它的方差估计也有以下简单的形式:其中: n在实际应用中,最重要也是最常用的情形是第一阶抽样对初级单元进行PPS抽样,即令:n若第二阶抽样是简单随机的,则此时总体总和Y的估计量简化为:n若进一步令mi=m,i=1,2…n,则估计量是自加权的,此时:其中:是对  的无偏估计 此时      的一个无偏估计为: 采用二阶抽样方法抽10个楼层进行调查,第一阶抽样为放回的、按与每座建筑拥有的楼层数成比例的不等概抽样抽取5座建筑,第二阶按简单随机抽样对每座建筑抽取两个楼层。

      对10个楼层居民人数的 调查如下:高层建筑高层建筑ABCDEFGHIJ楼层楼层12 12 1615 10 1610181620【例例8.3】 某小区有10座高层建筑,每座高层建筑有的楼层数如下: 一阶样本序号一阶样本序号12345居民数居民数12,,1815,,1819,,1316,,1016,,11要求:对小区总居民数进行估计,并给出估计的精度解:n=5 m=2 M0=145 估计量的 方差: 估计量的 标准差:s=98.88 小区居民数为2146人,在置信度为95%时,估计的相对误差为: (三)对初级单元进行不放回不等概抽样(三)对初级单元进行不放回不等概抽样 适用:初级单元进行不放回不等概抽 样, 二级单元按简单随机抽样 总体总量Y的估计为霍维茨—汤普森估计: 其方差估计为: 如果n 固定,V的估计也可以用: 第四节第四节 其他问题其他问题n总样本量总样本量nm可有两种方法可有两种方法(二阶抽样二阶抽样):n(1).根据调查费用确定根据调查费用确定n(2).根据设计效应确定:即用简单随机抽样的样本量乘以设根据设计效应确定:即用简单随机抽样的样本量乘以设计效应计效应deff.(1.3

      是需要考虑的问题n由于影响精度的主要原因是初级单元之间的差异,因此多抽由于影响精度的主要原因是初级单元之间的差异,因此多抽一些初级单元,少抽一些二级单元,但往往初级单元的调查一些初级单元,少抽一些二级单元,但往往初级单元的调查费用比二级单元费用高费用比二级单元费用高n一般好的设计可以在调查总的费用一定的情况下,使估计的一般好的设计可以在调查总的费用一定的情况下,使估计的精度最高;或在一定的精度条件下,使调查费用最省,这就精度最高;或在一定的精度条件下,使调查费用最省,这就是是最优样本量的配置或最优抽样比最优样本量的配置或最优抽样比f1f1和和f2f2的确定问题的确定问题 n考虑费用函数为最简单的一种情形:nC=c0+c1n+c2nmnC0:为固定费用,如场租费等; c1:每调查一个初级单元的费用 c2:每调查一个二级单元的费用n另一方面,当各初级单元大小都相等时, 可写为: 因此,在固定C下极小化 ,或固定V条件下极小化C,即可推导出m的最优值mopt n实际应用中,m应为整数,但mopt往往不是整数,令 为 mopt 的整数部分,则m的取值规则为: (1)当 ,则取(2)当 ,则取(3)当   或    ,则取 m=M。

      n求出m后,根据总费用函数,就可以确定n,从而确定最优抽样比f1和f2.m的最优值为:其中: n【例例8.4 】p184若c1/c2=10,   试确定最优m、n解:首先计算mopt由例8.1知:由本章附录2知: 由因此因为所以m=2其次计算nopt整理得nopt ≈3.449,因而可取n=4. 二、三阶及多阶段抽样二、三阶及多阶段抽样(一)各级单元大小相等时的多阶段抽样(一)各级单元大小相等时的多阶段抽样 1.三阶抽样三阶抽样总体总体 初级单元初级单元 二级单元二级单元 三级单元三级单元 当每个阶段都按简单随机抽样(等概抽样),当每个阶段都按简单随机抽样(等概抽样),则三级单元总体均值的估计为:则三级单元总体均值的估计为: n其方差为:n其无偏估计为:n由上公式可知,多阶段抽样的最终单元的均值就是将所有最终样本单元的指标值求和,然后除以最终单元的样本量n多阶段抽样的方差,主要是第一项,第二项、第三项很小,对于更高阶的抽样,估计量的方差一般只计算到第二阶、第三阶就可以了 (二)各级单元大小不等时的多阶段抽样各级单元大小不等时的多阶段抽样 1、各阶抽样采用不等概抽样、各阶抽样采用不等概抽样PPS PPS抽样:即每一阶段的抽样采用放回的与单元大小成比例不等概抽样。

      以三阶抽样为例: 总体有N个初级单元,每个初级单元有M个二级单元,每个二级单元有Kij个三级单元各级样本量分别为n,m,k每一阶单元被抽中的概率为 ,它们满足:总体总和: n其无偏估计:n方差: n式中:n 的无偏估计为:n式中: n2.样本为自加权的条件样本为自加权的条件 前两个阶段采用PPS抽样,最后一个阶段按等概率抽样,如果从第二阶开始,每一阶段的样本量都相同(mi=m,ki=k),则样本是自加权的这时, n注意第三阶抽样是放回的,各阶单元的大小是以最小(终)单元数计算的n总体总和的估计: n 方差的估计:式中,对三级单元的抽样采用不放回简单随机抽样,以上的公式仍成立 n对于各级单元大小不等的情形,最简单的方法是构造自加权的样本,也就是前几阶采用PPS抽样,最后一阶采用等概抽样,并且从第二阶开始,每一阶的样本量都相同,这时估计量的形式非常简单 谢谢观看/欢迎下载BY￿FAITH￿I￿MEAN￿A￿VISION￿OF￿GOOD￿ONE￿CHERISHES￿AND￿THE￿ENTHUSIASM￿THAT￿PUSHES￿ONE￿TO￿SEEK￿ITS￿FULFILLMENT￿REGARDLESS￿OF￿OBSTACLES.￿BY￿FAITH￿I￿BY￿FAITH 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.