
z-CH比率估计与回归估计.ppt
42页CH5 比率估计与回归估计Ratio estimate & linear regression estimate 4课时*1统计学专业必修课3学分估计量的类型P26n根据构造方法不同,抽样估计量有简单估计量和复杂估 计量之分n简单估计量/直接估计量n直接以调查变量Y的样本指标作为总体目标量的估 计n是线性估计量(即目标量Y的样本观测值yi的线性组 合),也是无偏估计量n复杂估计量/间接估计量(CH5)n在调查变量Y的样本指标的基础上,再结合辅助变 量X构造一个新估计量,作为总体目标量的估计量n常用的:比率估计量(ratio estimator),回归估 计量(regression estimator)n是有偏的、非线性的,但是通常更有效n复杂估计量有偏,但比简单估计量更有效Date2统计学专业必修课3学分复杂估计方法存在的意义n抽样设计的目标在于提高估计的效果n要实现这一目标,基本的思路有两个:n——改变抽样方法n——改变估计方法n复杂估计与简单估计的本质区别是:n——估计量的形式是否涉及到辅助变量n——估计量的形式是否是线性的Date3统计学专业必修课3学分srs条件下估计计形式简单简单 估计计回归归估计计差值值估计计公式 性质质1:是否 采用辅辅助变变量×√√√性质质2:估计计 量形式是否线线 性√×β未知时时×√说说明:×代表否√代表是比率估计计Date4统计学专业必修课3学分辅助变量使用的意义n样本均值作为总体均值的简单估计,具有无偏性、 一致性和极大似然性等优良性质,且完全不依赖其 他总体信息n然而,如果有其他总体信息却不去合理地利用, 这分明不符合“欲观其人、先察其友”的道理n实际上,当存在与调查的主要变量高度相关的其 他变量的有效信息,且这些变量的信息质量较好 时,利用这些信息无疑将有助于估计精度/估计效 率的提高n此时,简单估计量的效果就明显逊色了n本章即介绍如何利用辅助变量的信息来设计复杂估 计形式,以有效地提高估计精度/估计效率Date5统计学专业必修课3学分CH5内容体系§5.1 问题的提出n重点介绍:复杂估计的概念(辅助变量)、作用、应 用条件和基本符号说明 §5.2 srs下的比率估计n重点介绍:srs下的比率估计量的定义及其性质, 并比较比率估计与简单估计的效果 §5.3 srs下的回归估计n重点介绍:srs下的回归估计量的定义及其性质, 并进行回归估计与简单估计、比率估计的效果比 较 §5.4 st下的比率估计和回归估计n重点介绍:str下的比率估计量和回归估计量的定 义及其性质,并进行分别估计和联合估计的比较Date6统计学专业必修课3学分CH5学习要求n掌握基本概念n调查变量与辅助变量n总体比率n比率估计量、回归估计量n了解乘积估计、差值估计等n掌握srs下的比率估计量和回归估计量的形式及性质n掌握应用比率估计量和回归估计量的条件n掌握str下两种估计量的基本思想,适用条件n了解str下两种估计量的形式及性质Date7统计学专业必修课3学分§5.1 问题的提出一、概念与作用 二、应用条件 三、基本符号说明Date8统计学专业必修课3学分一、概念与作用(一)相关的概念n1、调查变量Y和辅助变量Xn2、总体比率n前面的讨论只是以调查变量Y的样本信息来估计 总体目标量n实践中,常会涉及到两个变量的总体均值(或总 体总值)之比的估计问题n两个变量的总体均值(或总值)之比,即总体比率n通常,分子变量为调查变量Y,分母变量为辅助 变量XDate9统计学专业必修课3学分对总体比率的理解n1、总体比率可以有不同的内涵n有时它是总体均值,比如n农场量调查中,分别以Yi、Xi记第i次调查单位的产 量和播种面积,则R即平均亩产n统计全国货物运输量时,计算平均运距n有时它是总体比例(结构相对数),比如n在人口调查中,分别以Yi、Xi记第i户60岁以上老年 人数和家庭人口数,则R即60岁以上老年人口比例n考察:家庭日常消费支出/总支出,家庭教育支出/ 总支出n考察:使用网通宽带上网的家庭/所有上网家庭n有时它是比例相对数,比如n在人口调查中,分别以Yi、Xi记第i户家庭男性人口 数和女性人口数,则R即男女性别比例Date10统计学专业必修课3学分2、比率与比例的不同(从抽样推断的角度)n比例 ①是部分与总体之比,它的值总是小于1,是一个结 构相对数 ②估计比例问题是抽取容量为n的样本,观察其中具 有某种特征的单元数n1所占比重,p=n1/n,其中n 是固定的,即比例估计式中,分母一般为常数, 分子是随机变量n比率 ①是两个变量之比,它的值可以小于1,也可以大于 1 ②估计比率时,样本比率r的分子分母都是随机变量n通过判断分母的随机性,可以区分比率和比例n这要从调查搜集数据的角度来判断Date11统计学专业必修课3学分(二)作用1、满足总体比率估计的要求n有时候目标量本身就是总体比率,此时必须要考虑比率 估计量形式2、提高估计精度n多数情况下,采用复杂估计形式是为了提高估计精度n抽样推断的目的是估计Y或Y,理论上既可以采用简单 估计,也可以用比率或回归估计等复杂估计形式。
但用 复杂估计可以明显提高估计精度n理由是:估计中借助了总体的辅助信息X,实践证明, 只要X与Y存在较好的正相关关系,比率估计、回归估 计就比简单估计效果好Date12统计学专业必修课3学分举例n估计桔子中的含糖量(比例估计问题)n估计一批桔子的含糖量,确切的含糖总量只有把全部 桔子榨成汁以后进行加工提炼才能得到假设现在用 srs抽取n个桔子为样本n可以简单估计但是,桔子的总数N不易数清;同 时桔子大小也有差别因此通常的思路误差会比较 大n如果借助重量作为辅助变量,在测定n个桔子含糖 量的同时,称出其重量(这很容易得到),得到桔子 的含糖量与重量之间的一个比率,而桔子的总重量 也比较容易获得,就可以用比率估计的方式获得这 批桔子含糖总量的估计n估计农作物平均亩产量(均值估计问题)Date13统计学专业必修课3学分二、复杂估计的应用条件(一)辅助变量X的选择要求n1、X与Y存在较好的正相关关系n比率估计要求:二者呈正比例关系Y=AX (A>0)n回归估计要求:二者呈线性回归关系Y=α+βX+εi (α≠0)n如果是负负比例相关,要采用乘积积估计计形式productn2、X的总总体总值总值 X或均值值X在调查调查 之前必须须已知, str中,要求各层层的X的总值总值 或均值值也要已知Ø 问题:如果辅助信息未知怎么办?Date14统计学专业必修课3学分辅助信息未知的处理n主要的思路:n采用二重抽样(DS:Double Sampling) →CH10n先抽选一个容量为n’ 的大样本(n’>>n), 调查的目的是寻找辅助变量X的可靠估计n再抽选一个容量为n的样本,调查搜集目标量 估计所需的样本信息nn可以从n’中抽,也可以直接从N中抽Date15统计学专业必修课3学分辅助变量的两种常见形式n与st中分层标志的选择相似,辅助变量的选择通常有 两种做法n调查变量Y的历史数据,比如上期调查结果,或者 再早的历史数据,或者前几期的简单算术平均等, 隐含着当期与历史的变化不会太大的假定→调查间比率估计n与调查变量Y之间整体上存在某种比值关系但完全 不同的变量X,隐含着两者比值关系的变化不会太 大的假定 →调查内比率估计Date16统计学专业必修课3学分选择辅助变量时要注意其特点n辅助变量必须与主要变量高度相关n辅助变量与主要变量之间的相关关系整体上相当稳 定n辅助变量的总体总值必须是已知的,或是容易获得 的n辅助变量的信息质量更好,或信息更容易取得即调 查成本更低n这些特点隐含着复杂估计量的应用条件Date17统计学专业必修课3学分(二)对n的要求n要求必须是大样本,即n要足够大n理由:n1、比率估计是有偏估计,回归估计中如果用样 本回归系数时(多数情况均需要),回归估计也有 偏;但偏差是n的无穷小,在n足够大时,估计的 偏倚趋于0,即近似无偏n2、比率估计、回归估计的抽样分布很难描述, 只有n足够大时才渐近地服从正态分布。
因此n足 够大时,区间估计才容易实现n本章在大样本条件下讨论问题,这在现实中很容易 做到在str条件下,要求各层样本量nh也足够大, 这稍微有点难度Date18统计学专业必修课3学分三、符号说明(srs) Yi、Xi (i=1,2,……,N)• 总体n样本P102Date19统计学专业必修课3学分符号(续)• 总体n样本Date20统计学专业必修课3学分§5.1总结n理解总体比率、调查变量、辅助变量等基本 概念n复杂估计方法的应用条件n辅助变量的选择要求:X与Y密切相关,X已知nn的要求:大样本n掌握基本符号的定义公式§5.1结束Date21统计学专业必修课3学分§5.2 srs下的比率估计R: Ratio estimate*22统计学专业必修课3学分§5.2内容体系一、比率估计量的形 式 二、比率估计量的性 质三、srs下比率估计与 简单估计的效果比 较——比率估计量 优于简单估计量的 条件u本节都是重点l从总体比率R的估计 、总体均值的估计、 总体总值Y的估计三 个方面说明: (一)估计量的定义 (二)估计量的性质n无偏性的讨论n方差的近似形式n方差的估计Date23统计学专业必修课3学分一、比率估计量形式(P99 5.2-5.4)目标量:总体比率 目标量:总体均值目标量:总体总值注: l因为X的总体均值或总值已知,所以对目标量的总体总值 或总体均值的估计都可归结到总体比率的估计上 l所以,讨论估计量的性质仅从R的估计入手讨论即可Date24统计学专业必修课3学分二、比率估计量的性质 (一)无偏性的讨论 1、渐近无偏 ①有偏 [补例]求解性别比例 (类似P100 [例 5.1] ) 已知模拟总体家庭编编号Yi 男性人口数Xi 女性人口数 124256313合计计813要求:从中抽取2个家庭估计性别比例问题:所有可能样本有几个?分别是? 被抽到的概率分别为?Date25统计学专业必修课3学分所有可能样本的估计可能样样本男性人口合计计女性人口合计计性别别比例R^(1,2)2+5=74+6=107/10(1,3)2+1=34+3=73/7(2,3)5+1=66+3=92/3数学期望————0.5984R=0.6154124 256 313Date26统计学专业必修课3学分②渐近无偏n当n充分大时,偏差 可以忽略不计,此 时 E(R^) ≈R 证明:=0Date27统计学专业必修课3学分(二)方差及方差的估计(n充分大)(P101 5.5) (P102 5.8,5.11) (P103 5.14,5.15)n方差的基本公式• 方差的估计• 方差的变形Date28统计学专业必修课3学分方差基本公式的启示 (P102)n对于比率估计量,其方差的大小主要取决于Yi与RXi 之间的差异,当Yi≈RXi时,估计量方差将很小,即 比率估计量将有很高的精度n因此,只有当两个变量大致呈正比例关系时,应用 比率估计量才能使估计精度有较大的改进Date29统计学专业必修课3学分方差形式的证明(1/3的同学掌握)l利用变量转换的思想,设Date30统计学专业必修课3学分Date31统计学专业必修课3学分总体均值的比率估计量方差及其近似估计(P101 5.6) (P102 5.9,5.12)Date32统计学专业必修课3学分P103[例5.2]说明:总体比率估计问题 典型例题n区间估计三要素n两种计算方差估计的方式:n完全平方式展开(P104)n基本定义公式n注意:本例中n=33,虽是 大样本但不够大,使用比率 估计量时的偏差要注意Date33统计学专业必修课3学分P104[例5.3]说明:总体总值估计问题n类似Date34统计学专业必修课3学分(三)消除比率估计偏倚的方法l改进抽样估计精度的基本思路:n改变估计量形式 ①Hartley-Ross估计量 ②Mickey估计量n改进抽样方法。
