
统计学 第六章 抽样调查.ppt
108页第4 章 抽样估计 本章要求学生:£明确抽样估计的含义了解有关的基本 概念,重点掌握抽样分布的含义、影响 因素及其计算£了解抽样估计的基本方法和步骤;全面 掌握简单随机抽样的平均误差计算方法 和样本容量确定方式;了解其它各种抽样 组织方式的含义及平均误差的计算第一节 抽样分布£一、抽样估计的概念和特点£(一)抽样估计定义:所谓抽样估计是指按随机原则 从总体中抽取部分单位组成样本进行观察,用样本结 果估计总体某方面数量特征的估计方法它适用于抽 样调查资料的处理£(二)抽样估计具有两方面的特点:£1、它是由部分估计整体的一种认识方法由于样本 资料来源于总体,因此样本资料的特性在某种程度上 能反映总体的特性样本的代表性很重要) £2、它是建立在随机取样的基础上由于样本的随机 性,会使得一次抽样结果往往不会恰好等于总体的结 果因此抽样估计是运用概率估计的方法£由于抽样估计是建立在概率论基础上的一套方 法,而概率的计算是建立在抽样分布的基础上 的,因此需明确抽样分布2、总体分布及其特征£总体分布是指总体中所有个体就 某一变量的取值所形成的分布 反映总体分布特征的指标称为总 体参数总体参数的值应由总体 全部单位的标志值计算而来:£在抽样中主要有两个:总体平均 数(均值)和总体方差或标准差 。
通常总体参数是唯一的但都是 未知的£是非变量(成数)也同样具有均值 和标准差3、样本分布及其特征£样本分布:是指样本中所有个体就某一变量的取值所 形成的分布样本分布越接近总体分布,抽样估计的 结果就越准确£当样本容量很大,或者是当样本容量逐渐增大时,样 本分布会接近总体分布£如果样本容量很小,样本分布就有可能与总体分布相 差很大,抽样估计的结果就会很差£反映样本分布特征的指标称为样本统计量主要有样 本平均数(均值)和样本方差或标准差通常样本统 计量是已知的反映样本分布特征的指标,样本统计量是已知的但是随机变量,它的取值随样 本的不同而发生变化是样本统计量的值,由样本单位的标志值计算而来,用来估计总体参数的值样本统计量:样本统计值 :抽样估计就是以可知但非唯一的样本统计量的值如样本均值、 样本成数、样本方差来估计未知但唯一的总体参数的均值、 成数和方差的值而进行这种推断的理论依据就是样本统计量 的抽样分布4、抽样分布及其特征1、概念 抽样分布:样本统计量的概率分布它由 样本统计量的所有可能取值和与之相对应的概 率组成 2、影响因素: 总体分布 样本容量 抽样方法 抽样组织形式 估计量的构造(直接估计量和间接估计量)二、抽样分布形式 在抽样估计中,最基本的抽样分布是: 1、样本均值的抽样分布 2、样本成数的抽样分布样本均值的抽样分布:样本均值的所有可能取值的概率分布 。
设从容量为N的有限总体中抽取容量为n的样本,最多可抽取 m套不同样本,计算得m个样本统计值n设m个样本统计值经单项式分组可分为k组,则抽 样分布的表现形式为:样本均值的抽样分布频率( 概率)样本成数的抽样分布例:某车间班组5个工人日工资为34,38, 42,46,50元,则总体日平均工资总体日工资方差例:样本平均数的抽样分布£(1)用重复抽样方法 从5个工人(日工资为34,38,42,46,50元) 中随机抽取2人构成样本,共52=25个样本 所有可能样本及其平均数:样样本变变量34 38 42 46 50 34 38 42 46 5034 36 38 40 42 36 38 40 42 44 38 40 42 44 46 40 42 44 46 48 42 44 46 48 50第一 单位第二 单位样本 均值¡整理出样本平均数的分布如下:频频率34 36 38 40 42 44 46 48 50 合计计4% 8% 12% 16% 20% 16% 12% 8% 4% 100%样本均值的抽 样分布样本均值的抽样分布图¡(2)用不重复抽样方法 从5个工人(日工资为34,38,42,46,50元) 中随机抽取2人构成样本(考虑顺序),共 5×4=20个样本。
所有可能样本及其平均数:样样本变变量34 38 42 46 50 34 38 42 46 5034 36 38 40 42 36 38 40 42 44 38 40 42 44 46 40 42 44 46 48 42 44 46 48 50¡整理出样本平均数的分布如下:频频率 36 38 40 42 44 46 48 合计计10% 10% 20% 20% 20% 10% 10% 100%样本均值的抽样分布图样本均值的抽 样分布¡样本成数的抽样分布形式:¡在经济活动中,许多情况下要用到比例估计 ,也就是要用样本成数p去推断总体的P¡样本成数的抽样分布是样本成数的所有可 能取值的概率分布¡当样本容量很大时,样本成数的抽样分布 可近似正态分布对于一个具体的样本成 数p,若np>=5和n(1-p)>=5,就可认为样 本容量足够大2、抽样分布特征£抽样分布的特征:样本统计量的平均数和方差样本统计量的平均数: 即样本统计量所有的样本统计值的平均数样本统计量的方差: 即样本统计量的所有样本统计值关于平均 数的方差¡在前面的例题中,重复抽样的抽样分布如下:频频率34 36 38 40 42 44 46 48 50 合计计4% 8% 12% 16% 20% 16% 12% 8% 4% 100%样本平均数的平均数与方差:¡不重复抽样的抽样分布如下: :频频率 36 38 40 42 44 46 48 合计计10% 10% 20% 20% 20% 10% 10% 100%样本平均数的均值与方差:£结论: (1)样本均值抽样分布的均值:在重复或不重复抽样下,都等于总体均值 (2)样本均值抽样分布的方差:重复抽样方差大于不重复抽样,显然不重复抽 样的抽样分布较为集中。
¡样本成数的抽样分布特征 (1)样本成数的均值在重复或不重复抽样下,样本成数的均值都等于总 体成数(2)样本成数抽样分布的方差:重复抽样方差大于不重复抽样,显然不重复抽样下 样本成数的抽样分布较为集中£由于在各种抽样方法和抽样组织方式下,样本统 计量的平均数都等于总体均值£所以抽样分布的特征主要通过方差来体现£抽样分布越集中、样本统计量的方差越小,则样 本统计值越可能接近总体参数真值,抽样估计的 误差越小、估计结果就越精确£然而,实际抽样调查只抽取一个样本,因此统计 量的抽样分布实际上是一种理论分布形式我们 不可能按前面讲的公式计算抽样分布的期望和方 差但是,我们对样本统计量抽样分布的理解, 能帮助我们掌握样本统计量分布的规律和样本统 计量与总体参数之间的内在联系通过样本统计量抽样分布的研究就可寻找到一些规 律性的东西,如 抽样分布形式与原有总体的分布和 样本容量的大小有关 1、如果原有总体是正态分布,无论样本容量大小 ,样本均值抽样分布都服从正态分布 2、如果原有总体是非正态分布,就要看样本容量 大小,随着样本容量的增加(大样本),无论原来 的总体是否服从正态分布,样本均值抽样分布都趋 于正态分布。
这就是著名的中心极限定律) 3、如果原有总体是非正态分布,样本容量少,( 小样本)样本均值抽样分布不是正态分布 4、当样本容量很大时,样本成数的抽样分布可近 似正态分布 这些规律就是一些著名的抽样分布定理四)常用的抽样分布定理£样本均值的抽样分布定理£1、正态分布的再生定理£2、中心极限定理£3、t分布定理£样本成数的抽样分布定理£1、二项分布定理£2、超几何分布定理£3、中心极限定理£正态分布的再生定理:£如果某样本的n个个体完全随机地来自数学期 望为 、方差为 的正态总体,则不要论 样本容量n多大,样本 服从数学期望为 方差为 (重复抽样)或 (不重复抽样)的正态分布标准统计量则服从数学期望为0,方差为1的标准正态分布 £这就要求我们在实际抽样估计中:£1、已知总体服从正态分布,可用小样本也可 用大样本,利用样本平均数服从正态分布去做 估计和推断£2、已知总体不服从正态分布或未知总体的分 布形式,就必须使用大样本,其样本平均数才 服从正态分布,这样就可按样本平均数服从正 态分布去做估计和推断£3、对于总体成数的推算要用大样本对于一 个具体的样本成数p,若np>=5和n(1-p)>=5, 就可认为样本容量足够大。
根据样本均值、样本成数的抽样分布定理可知正态分布是最重根据样本均值、样本成数的抽样分布定理可知正态分布是最重 要、最常用的抽样分布由于实践中的抽样一般都符合大样本要、最常用的抽样分布由于实践中的抽样一般都符合大样本 的要求,因此我们可根据正态分布理论,在一定的概率保证下,的要求,因此我们可根据正态分布理论,在一定的概率保证下, 以所抽样本给出的统计值为依据对总体参数作出区间估计以所抽样本给出的统计值为依据对总体参数作出区间估计第二节 估计量的评价标准一、抽样估计的一般步骤 1、计算样本统计量的值 2、计算抽样误差 3、推断总体参数 4、进行假设检验£因此估计总体参数,一个重要问题就是样本统 计量的选择二、抽样估计样本指标的选择£1、举例说明£例如要估计总体均值,可以根据样本单位的标 志值计算样本平均数作为总体平均数的估计值 ,也可计算中位数作为估计值究竟选择哪个 作为估计量好呢?这就突出了对估计量评价的 问题£下面举例说明的选择£某个建筑单位购进一批建筑用的线材,需要了 解其平均的抗拉强度是多少?假定样本容量为 3,进行4次抽样且假设实际的平均抗拉强度 为1000公斤抽样的结果如下表•抽样顺序样本测量值 最小值最大值 中位数平均数1 900 999 1011 900 1011 999 9702 995 1050 1150 995 1150 1050 10653 1010 941 890 890 1010 941 9474 950 910 1140 910 1140 950 1000923.75 1077.75 985 995.5 •一般来说,哪个估计值与待估计的总体均值 1000公斤比较接近,误差小,那个估计值就好。
但是四次的结果是不一致的解决这一困难的方 法就是,我们不能从一个估计值的某一次抽取结 果衡量其好坏,而应该看总体的性质即从统计量 的抽样分布来判断2、抽样估计样本统计量的优良标准(1)无偏性是指个别样本由于随机性原 因,样本指标可能偏大或偏小,然而一个 好的样本指标从平均数上看应该等于所估 计的那个总体指标样本 是总体平 均数 的无偏估计量样本成数p是总 体成数P的无偏估计量样本 是总体 的无偏估计量2)一致性若估计量随样本容量n的增 大而越来越接近总体参数值时,则称该 估计量为被估计参数的一致性估计量 (3)充分性用样本观测数据计算出的估 计值往往要损失一些有用的的信息,因 此估计量的构造应尽可能减少这种信息 损失优良估计量的抽样分布方差小于其优良估计量的抽样分布方差小于其 他估计量的方差他估计量的方差有效性有效性A AB B中位数的抽样分布中位数的抽样分布算术平均数的抽样算术平均数的抽样。












