
抽样分布与抽样误差.ppt
50页第五章 抽样推断,第一节 抽样及抽样分布,指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会,一、抽样推断的涵义及特点,按照随机原则 从调查对象中抽取一部分单位进行调查,并根据样本推断总体数量特征的一种统计方法,1、抽样推断的涵义,按随机原则抽取样本单位 目的是推断总体的数量特征 抽样误差可以事先计算并控制,2、抽样推断的特点,设总体中 个总体单位某项标志的标志值分别 为 ,其中具有某种属性的有 个 单位,不具有某种属性的有 个单位,则,⒈ 总体平均数(又叫总体均值):,指被估计的总体指标,又被称为全及指标,二、总体参数,⒉ 总体单位标志值的标准差:,⒊ 总体单位标志值的方差:,⒋ 总体成数:,⒌ 总体是非标志的标准差:,⒍ 总体是非标志的方差:,设样本中 个样本单位某项标志的标志值 分别为 ,其中具有和不具有某 种属性的样本单位数目分别为 和 个,则,⒈ 样本平均数(又叫样本均值):,指根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,又被称为估计量或统计量,三、样本指标,⒉ 样本的标准差:,⒊ 样本的方差:,为 的无偏估计,为 的无偏估计,⒋ 样本成数:,⒌ 样本单位是非标志的标准差:,⒍ 样本单位是非标志的方差:,为 的 无偏估计,为 的 无偏估计,四、抽样方法,1、重复抽样,又被称作重置抽样、有放回抽样,2、不重复抽样,又被称作不重置抽样、不放回抽样,五、抽样组织方式,是最简单、最基本、最符合随机原则, 但同时也是抽样误差最大的抽样组织形式,2· 类型抽样(分层抽样),——将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本。
总体 N,样本 n,等额抽取,等比例抽取,最优抽取,,,,,,,,,,,···,···,能使样本结构更接近于总体结构,提高样本的 代表性;能同时推断总体指标和各子总体的指标,,,,,,,······,,,,,,,,,,,,,,,,随机起点,半距起点,对称起点,(总体单位按某一标志排序),按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样4· 整群抽样(集团抽样),—— 将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位构成样本,例:总体群数R=16 样本群数r=4,,样本容量,简单、方便,能节省人力、物力、财 力和时间,但其样本代表性可能较差,例:在某省100多万农户抽取1000户调查农户生产性投资情况六、样本容量和样本个数,n≥30,为大样本;n 30,为小样本,在重复选取容量为n的样本时,由样本平均数的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体平均数的理论基础,七、样本平均数(均值)的抽样分布,样本平均数的抽样分布 (例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=44 个个体分别为x1=1,x2=2,x3=3,x4=4 。
总体的平均数、方差及分布如下,平均数和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本所有样本的结果为, 计算出各样本的均值,如下表并给出样本均值的抽样分布,,μ= 2.5 σ2 =1.25,总体分布,样本平均数的抽样分布 与中心极限定理,当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为μ,方差为σ2/n即x~N(μ,σ2/n),样本比例的抽样分布,总体(或样本)中具有某种属性的单位与全部单位总数之比 不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比 总体比例可表示为 样本比例可表示为,比例 (proportion),在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布 一种理论概率分布 当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础,样本比例的抽样分布,样本比例的数学期望 样本比例的方差 重复抽样 不重复抽样,样本比例的抽样分布 (数学期望与方差),一、抽样误差的概念 二、抽样平均误差 三、抽样极限误差,第二节 抽样误差,抽样平均误差的计算公式,⒈ 样本平均数的抽样平均误差,重复抽样时:,不重复抽样时:,⒉ 样本成数的抽样平均误差,重复抽样时:,不重复抽样时:,抽样平均误差的计算公式,影响抽样误差的因素,总体各单位的差异程度(即标准差的大小): 越大,抽样误差越大; 样本单位数的多少: 越大,抽样误差越小; 抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小; 抽样组织方式:简单随机抽样的误差最大。
抽样极限 误差,指在一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作允许误差、误差范围、误差置信限等,抽样极限误差的计算公式,(大样本条件下),Z为概率度,是给定概率保证程度下样本均值 偏离总体均值的抽样平均误差的倍数Z与相应的概率保证程度存在一一对应关系,常用Z值及相应的概率保证程度为:,z值 概率保证程度 1.00 0.6827 1.65 0.9000 1.96 0.9500 2.00 0.9545 2.58 0.9900 3.00 0.9973,,抽样极限误差的计算公式,(大样本条件下),第三节 参数估计,一、点估计 二、区间估计 三、样本容量的确定,评价估计量的标准,,无偏性 (unbiasedness),无偏性:估计量抽样分布的数学期望等于被 估计的总体参数,,有效性 (efficiency),有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效,,一致性 (consistency),一致性:随着样本容量的增大,估计量的 值越来越接近被估计的总体参数,二、区间估计,指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围;其中,被推断的总体指标的下限与上限所包括的区间称为置信区间,估计的可靠程度也称为置信度。
这里只讨论常用的大样本的情况),总体平均数的区间估计,表 达 式,其中, 为极限误差,总体成数的区间估计,表 达 式,其中, 为极限误差,三、样本容量的确定,推断总体平均数所需的样本容量,⑴ 重复抽样条件下:,, 或 S通常未知一般按以下方法确定其估计值:①过去的经验数据;②试验调查样本的S计算结果通常向上进位,,⑵ 不重复抽样条件下:,确 定 方 法,推断总体平均数所需的样本容量,确 定 方 法,推断总体成数所需的样本容量,⑴ 重复抽样条件下:,⑵ 不重复抽样条件下:,推断总体成数所需的样本容量,。
