
实验抽样与参数估计实验指导书.pdf
8页实验 抽样与参数估计实验指导书实验目的:熟练使用随机数字表及抽样命令抽取所需要的样本单位并进行简单的参数 估计,本部分提供了两种抽样方法和四种参数估计的基本方法有利于学习者根据自己特点选择适当的方法进行参数估计,有利于帮助学习者理解抽样分布的含义实验要求:同学们利用随机数字表从同一总体中抽选样本量相同的样本,根据样本数据利用描述统计命令计算样本均值及标准差,然后利用多个样本均值能够做出抽样分布;能够利用 Excel 计算得到不同分布下的临界值及总体均值的置信区间,并能结合实际背景对所得结果进行统计意义解释一、抽样方法抽样调查是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方式抽取样本是抽样调查中的重要一环,通常有两种方法取得样本具体如下:(一)手工法使用随机数字表抽选所需要的样本步骤一:首先要对所有的总体单位编号,一般从1 开始到 N 结束例如 2008—2009 年第二学期参加统计学考试的学生有800 名学生,要调查考试成绩情况,从中抽取按学生的姓名笔画排队编号,是无关标志编号; 按学生的统计学成绩排队编号,属有关标志编号本例中按姓名笔画排队标号从1—800。
步骤二:总体编号的最大数是100,是三位数,因此我们从“随机数字表”中按每三位一组选择随机数,随机选取某一行开始抽选,本例中从表中第1 至 3 列中, 从第 7 行开始从上到下读取三位随机数有:131,177,365,816,, 064 ,对于超过800 的随机数,一个办法是放弃,另一个办法是用它减去800 或 800 的倍数,得到的余数作为抽中的随机数这样一直抽够50 个为止63271 59986 71744 51102 15141 80714 58683 93108 13554 79945 88547 09896 95436 791 15 08303 01041 20030 63754 08459 28364 55957 57243 83865 0991 1 19761 66535 40102 26645 60147 15702 46276 87453 44790 67122 45573 84358 21625 16999 13385 22782 55363 07449 34835 15290 76616 67191 12777 21861 68689 03263 69393 92785 49902 58447 42048 30378 87618 26933 40640 16281 13186 29431 88190 04588 38733 81290 89541 70290 401 13 08243 17726 28652 56836 78351 47327 18518 92222 55201 27340 10493 36520 64465 05550 30157 82242 29520 69753 72602 23756 54935 81628 36100 39254 56835 37636 02421 98063 89641 64953 99337 84649 48968 75215 75498 49539 74240 03466 49292 36401 45525 63291 11618 12613 75055 43915 26488 411 16 64531 56827 30825 70502 53225 03655 05915 37140 57051 48393 91322 25653 06543 06426 24771 59935 49801 1 1082 66762 94477 02494 88215 27191 2071 1 55069 29431 70165 45406 78484 31639 52009 18837 96927 41990 70538 77191 25860 55204 73417 83920 69468 74972 38712 72452 36618 76298 26678 89334 33938 95567 29380 75906 91807 37042 40318 57099 10528 09925 89773 41335 96244 29002 46453 53766 52875 15987 46962 67342 77592 57651 95508 80033 69828 90585 58955 53122 16025 84299 53310 67380 84249 25348 04332 步骤三: 从同一总体中抽取样本量相同的样本可以有若干个,即随机起点不同样本就不同,这样同学们可以两人一组抽出两个样本,利用描述统计命令求出均值以及标准差,这样全部同学至少抽取了70 个样本,利用这70 个样本计算出70 个均值和标准差,在根据实验一的内容可以做出这70 个均值的频数分布及直方图,这就是均值的近似抽样分布(二)抽样工具法在 Excel 的“数据分析”工具中有一个“抽样”工具,可以较简单迅速地完成一些常规的抽样任务。
下面说明如何使用数据分析工具中“抽样” 工具抽取样本 首先需要编制总体单位编号表总体单位编号, 可按随机原则也可按照与调查目的有关或无关的标志排队编号案例同上把 800 名学生的编号输入的Excel 表格中,如表3-1 所示表 3-1 总体单位编号表(部分)在 Excel 表中输入总体编号后,可按以下步骤操作完成抽样工作:第一步:在“工具”菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“抽样”,回车打开“抽样”对话框见图 3-1~图3-3)图 3-1 在“工具”菜单中单击“数据分析”选项图 3-2 从“分析工具”列表中选择“抽样”图 3-3 “抽样”工具对话框第二步:在“抽样”对话框中进行相应设置本例在“输入区域(I) ” (总体单位编号所在区域)输入A1:J80( 在 Excel执行过程中自动更换为绝对引用形式,即在字符和数字前加 $号,使用者没有必要考虑这两种形式的不同) Excel 将从 A 列开始抽样,然后按顺序抽取 B 列至 J 列如果“输入区域(I) ”的第一行或第一列有标题,则需单击“标志(L)”前面的复选框(使其出现对钩,表示已被选定)第三步:在“抽样方法”选择区域具体选择抽样模式。
1、 “周期 (E) ”模式,即等距抽样或机械抽样采用此模式,需要将总体单位数除以所需样本数,求得取样的周期间隔 本例中如果在100名学生中抽取10 名进行调查, 800/50=16,可在“间隔框”中输入16(如果计算得到的周期间隔不是整数,取整即可)2、 “随机 (R) ”模式适用于简单随机抽样、分层抽样、整群抽样和多阶段抽样如采用简单随机抽样,只需在“样本数”框中输入所需的样本单位数本例,可在“样本数”框中输入 50其他抽样方法具体做法与简单随机抽样的区别在于第二步“输入区域”上的不同如采用分层抽样,事先要计划好分几层,每层要抽取多少样本,每层的总体单位编号在何区域在每一层中, 分别采用简单随机抽样,步骤同上 整群抽样需要对群进行编号然后抽样,多阶段抽样,每阶段抽样可以是简单随机抽样、分层抽样或等距抽样第四步:指定“输出区域(O)” “输出区域 (O)”是指 Excel 结果输出的起始位置,输入单元格的行列号即可,本例输入 “L1” 当然, 也可以选择 “新工作表 (P)”或“新工作薄 (W) ”作为放置抽样结果的位置完成以上操作后,回车确认,即在指定的位置给出抽样结果见图3-4。
图 3- 4 “抽样”输出结果(部分)说明: 在简单随机抽样时,也可以不对数据进行编号,而直接对数据本身进行“抽样”,操作过程相同二、临界值的取得Excel中没有直接求区间估计的程序,通常需要首先利用分布函数的逆函数求出临界值,然后用公式计算出置信区间Excel 提供了五种抽样分布的逆函数,即标准正态分布的逆函数 NORMSINV 、非标准正态分布的逆函数NORMINV 、T 分布的逆函数TINV、2分布的逆函数 CHIINV 和 F 分布的逆函数FINV使用这五种分布的逆函数不但可以代替查分布表,而且有时通过分布表也得不到的数值(例如T 分布当自由度比较大时),也可简便、精确、迅速地求得下面具体说明这五种分布逆函数的使用1、求显著性水平为0.01,标准正态分布的上2/分位点2/Z,即双侧置信区间的临界值(因为标准正态分布为对称分布,故只需要求一个临界值)打开 NORMSINV函数对话框,在“Probability”框中输入0.995,即2/1=0.995,可得到结果为2.58(请读者自己思考为什么?),如图3-5 所示以上操作也可以直接输入公式完成在Excel 窗口单击任一空单元格,输入“=NORMSINV(0.995) ” ,回车确认即可。
图 3-5 NORMSINV函数对话框2、求显著性水平为0.01,自由度为10 的 T 分布上2/分位点2/T,即双侧置信区间的临界值( T 分布为对称分布,故也只需求一个临界值)打开 TINV 函数对话框,在“Probability ”框中输入0.01(注意:与正态分布不同) ;在“Deg_freedom ”框中输入10,即可得到相应结果为3.17,如图 3-6 所示同样,以上操作可以直接输入公式完成在Excel 窗口单击任一空单元格,输入“=TINV(0.01,10) ” ,回车确认即可3、求显著性水平为0.01,自由度为10 的2分布上2/分位点2 2/,即双侧置信区间的右临界值(因2分布为非对称分布,所以得分别求左右临界值)打开 CHIINV函数对话框,在“Probability ”框中输入0.005(注意:与T 分布也有所不同 ) ;在“ Deg_freedom”框中输入10,即可得到相应结果为25.19,如图 3-7 所示同样,以 上 操 作 可 以 直 接 输 入 公 式 完 成 在Excel窗 口 单 击 任 一 空 单 元 格 , 输 入“=CHIINV(0.005,10)” ,回车确认即可。
用同样的步骤可以求得2分布的左临界值,即2分布的上2/1分位点2 2/14、求显著性水平为0.01,第一自由度和第二自由度都为10 的 F 分布上2/分位点2/F,即 F 分布的右临界值(因F 分布也为非对称分布,所以得分别求左右临界值)打开 FINV 函数对话框,在“Probability ”框中输入0.005;在“ Deg_freedom1”框中输入 10;在“ Deg_freedom2”框中输入10,即可得到相应结果为5.85,如图 3-8 所示同样,以 上 操 作 可 以 直 接 输 入 公 式 完 成 在Excel窗 口 单 击 任 一 空 单 元 格 , 输 入“=FINV(0.005,10,10) ” ,回车确认即可用同样的步骤可以求得F 分布的左临界值,即F 分布的上2/1分位点2/1F图 3-6 TINV 函数对话框图 3-7 CHIINV函数对话框注 意 与 正态 分 布 的区别注意其概率的输入图 3-8 FINV 函数对话框三、区间估计这部分主要介绍单总体的区间估计,其方法和过程同样适合于双总体的区间估计案例是上例中手工抽样得到的一个样本(显著性水平为95%)1、 “描述统计”法运用实验二介绍的“描述统计”工具,只要在“描述统计”对话框中同时选择“平均数置信度”,就可以得到与置信度对应的边际误差值(见输出结果的最后一行),从而得到置信区间。
2、手工法所谓手工法是指借助Excel 工具, 一步步求出区间估计所需要的各数值如逆函数等,在此基础上得出置信区间这是一个总体标准差未知,求总体均值的区间估计问题由区间估计理论知,本例为大样本总体均值在1置信水平下的置信区间为:nsZx nsZx22,其中,2/Z为标准正态分布的上2/分位点,x为样本均值,为总体标准差。
