
抽样-抽样调查.doc
11页填空题:1. 若样本统计量W的期望和方差分别为E (w)和var (w),那么以样本统 计量w估计总体的数字特征W,有偏量B(w)=E(w)-W;均方偏差 MSE (w) =E(w-W)②;且偏量、统计量w的方差与均方偏差三者之间的关 系为:MSE (w) = var (w) + [B (w)2. 在概率抽样调查中,有简单随机抽样、不等概抽样、分层抽样、多 阶抽样、系统抽样、多相抽样等基本的抽样方法3. 抽样框:又称“抽样框架”、“抽样结构”,是指对可以选择作为样 本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构 设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要 的单位数若没有抽样框,则不能计算样本单位的概率,从而也就无 法进行概率选样抽样框除包含有抽样单位的编号及抽样单位与总 体、个体单位的联系外,还应包含一些有用的辅助信息这些辅助吸 血可用于抽样方案的设计和数据处理,有益于提高调查的质量4. 抽样方案的设计要求:利用抽样框的辅助信息,综合各种基本的概 率抽样方法来制定一个可行的、精度满足要求而且费用最省的抽样方 法5. 一•个完整的抽样策略由抽样方法应配合有一个相适应的估计结合 在一起组成。
6. 总体采用简单随机抽样时,对总体目标量的均值或总数,可以有 多种估计方法在没有辅助信息是,可以采用简单估值法,以样本的 均值估计总体的均值;当有适宜的辅助信息利用时,可以采用比估计 和回归估计7. 二相抽样是对总体进行一次以上的抽样第一次抽样的样本单元并 不是调查所需的目标量,而是调查一•些可通过较小的工作量快速获得 辅助信息;第二次抽样则是在获得辅助信息的基础上,再作一个样本 量较小的调查,调查所需的目标量8. 分层随机抽样适用于总体单位数量较多、内部差异较大的调查 对象在分层时,要使层内的个体单元有较好的同一性,层间的 差异较大9. 多阶段抽样与整群抽样都是将总体分成若千小的群体,这些小的 群体为第一性抽样单元再对抽中的第一性抽样单元抽样,其中 的个体为第二性抽样单元10. 有放回不等概抽样是每个单元入样概率正比于规模测度的抽样 方法;实施无放回不等概抽样的方法主要有:布鲁尔法和德宾法 定义:即抽取概率计算题:1. 假设总体容量为N=6,其标志值分别为1, 2, 3, 5, 6, 7.若分为两个群 (1, 2, 3)和(5, 6, 7),计算群内相关系数求出的群内相关系数能说明什么问题。
又若分为(1,5,7)和(2, 3,6),计算群内相关系数求出的群内相关系数又能说明什么问题2. 给定一个包含25个单元的目标为总体,先排成5行5列的形式,每行每列均包含5个单元,单元排列先按列排列,考虑n=k=5的系统抽样,以行为群组成系统样本,而以列为层若按从小到大的顺序排 列,比较该系统抽样,简单抽样,及分层抽样的效率123451122629364421828293646319283039484242833395052529344052解:依题意可知:分为以下两种情况讨论i)以行为群,组成系统抽样此时N = 25 , K = N 5 — 1 K根据公式:S/v ;=1[ K 2S「切g化项乙!i>・=32.88 Sj = 土支 S; =117.7K i=i K i=i=色匠F 也匚端T 03.862Z.-F) =6.932S2NT 外 NT 内N-l . K(N()— 1) 2 52——5; =1.6228N N-1 内表c12345Yi.S:.1122629364429. 40142.82182829364631.40107. 83192830394832.80122. 74242833395034. 80103. 75252934405236. 00111. 5由上述可知:—$2 =16.6176 N3. 某县农村共有14个乡509个村,在实现小康的过程中欲计算该县农村的恩格尔系数(居民的食品支出占总指出的比例)。
首先要调查 全县的食品总支出,现采用了二阶段抽样,第一阶段先在14个乡中, 按村的的数目多少进行了 PPS抽样,共抽取5个乡,第二阶段在抽取 的乡中随机地抽取6个村做调查,然后对抽中的村做全面调查,取得 数据如下:样本乡序号k村数样本村数 %样本村平均食品支出(万元)119648241617537261084546905366100要估计全县的食品支出总金额及估计的标准差问题分析:此题为笫一阶段是以14个乡中所含村的个数为规模测度的PPS抽样,— k抽取的样本总村数n二30,第二阶段为取等额的简单随机抽样故入=一2一n j=i第二阶段是取等额的简单随机抽样的二阶抽样故Gpps =后七瑚-乂(*) 由题意可知:总村数N=509,样本乡数k二5,第i个样本乡的入样概率=』, 1 N nlk其中:y〃・表示第i个样本乡中第j个样本村的食品支出总额将R =性代入后得z Nif M — N 白一=巨寸弘=万为1①】A 5()9代入数据可得估计值为:=——(48 + 175 + 108 + 90 + 100) = 53037.8(万元)均方偏差的无偏估计量:/ A \v G pps\ 7、2将【①】式与R =%代入左式得(A \v G pps\ /其中y =—^y再代入数k z=i i= 1088776199.4 (万元)故标准差为:s(G"s) = 3(G”s)二 10434 (万元)注意:其中公式【①】与公式【②】的运用是在第一阶段是正比于子总体规模的PPS抽样,第二阶段是取等额的简单随机抽样的二阶 抽样的前提条件下才能进行的。
4. 若假设已知该县有380千人,并有各个乡的人口资料,则第一阶段按与乡的人口多少成比例地抽样,也抽取5个乡第二阶段用简单随 机抽样抽取6个村得数据如下表,再估计全县的食品支出总金及估计的标准差样本乡序号人口数X,村数样本村平均食品支出(万元)9624 3025041■ 175 ■3383516746048188 ■5 30 39 130问题分析:此题与前一题的差别不大,抽样方法都是第一阶段是PPS抽样,第二阶段是取等额的简单随机抽样的二阶抽样唯一不同的是两者的规模测度不同,此题是按与乡的人口数为规模测度的PPS抽样故此题. 1Wj=NJNVSi中T,县的总人数,X,为抽中样本乡的总人数没有与子总体的N,•成正比,不能用 直接公式【①】与公式【②】解:产高3 京2矽” 55991 (万元)/ A Xv Gpps\ 71 kyk(k 一\)会、2-9261315.8 (万元)A标准差为:“gU=心)=3043 (万元)注意:两题抽样方法的选择虽然相同,但PPS抽样中的规模测度选择 不同导致估计的效率不同,从而影响到估计的准确度1 (城镇)235600.1371518039723002 (农村)1482400.86398562546250合计1719805. 某市进行家庭收入调查,分城镇居民与农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户+抽取250户(均 按简单随机抽样进行),调查结果是城镇平均年收入标准差为3000元, 农村年平均户收入标准差为2000元.且对城镇居民与农村居民抽样 平均每户费用比为1: 2.给出城镇与农村两层比列分配与最优分配 的样本量的分配。
解:已知总体总量N = 171980(户),城镇居民总量M =23560(户),农村居N民总量N2=148420(户),,总样本容量n=550,城镇占总体比例屹=寸=0.137,N C 1农村占总体比例W广户=0.863 ,费用比寻=:1. 按比例分配:城镇样本量:巧=四*刀=0.137*550 = 75(户)农村样本量:么=W/〃 = 0.863*550 = 475(户)2. 考虑费用前提下的最优分配w V由定理4. 3.2知% =号耕 k为待求得比例系数乂因为:〃=%捋贝u k=ni(^华)n: = 〃 *勺『*(率/支率)=550*」37*30」37*3000 +863:25 “7(户)Jq 7=1 Jcj 1 1n2 -n-nA =433(户)由定理4.3.1知〃 = 固定(若不考虑费用)(奈曼最优分配):fl n. = a?冶-7———再j=l考虑本题有/?.=n * y>10.137*3000550*0.137 *3000+ 0.863* 2500=88(户)n2 = n— n{ = 432(户)三种样本量估算的比较\=I •■ ■■ ■条件n值(样本最)简化公式按绝对精度1 y-Y | Wdn=(乌顼2)宁 成+夺(u-sEn 〜(Ul—a/2)2S<〜d2按相对精度1 y~^ 11 1 是常数某大城市进行计算机普及率的调查,若从全市数白万户家庭中,简单随机地抽取 n户进行调查,为了使普及率的绝对误差不超过2%,样本量n应取多大? 解:此问题待估量是总体普及率P ,若P二空,则按(2.3.4)式的设N定,易算出总体方差s2=————(Yzj2 N-i% z n trN Nq(i上)= p(i_p)N N1N2N — l]N J并易发现当P从0上升到0.5时,Pd-P)是随着递增的,当P从0. 5再增加到1时,P(1T)是递降的.在P二0.5时达到最大值S2= P(l-P) =0. 25.按最保险的情况估算样本量,则可取「二(Us)* =2401d- 0.022如果我们在计算机普及率有一个很粗糙的估计,估计该普及率应在10%至20%之间,那么我们只要对P在此区间来粗略估算相应的矿.在此区间时P取20%有最大的$2值0.2X0. 8= 0. 16.故样本量n取下述值就够了:0.022口 =(*犯)誓二(1.96)2x0.16 —537d2 "当对精度的要求不是绝对精。












