好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

抽样理论与方法统计学专业.ppt

342页
  • 卖家[上传人]:ni****g
  • 文档编号:588725267
  • 上传时间:2024-09-08
  • 文档格式:PPT
  • 文档大小:2.11MB
  • / 342 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 统计学专业硕士课程抽样理论与方法(统计学专业)经济学院 刘超 统计学专业硕士课程统计学专业硕士课程第第1讲讲 绪论绪论l l第第第第0101章章章章     绪论绪论绪论绪论 统计学专业硕士课程统计学专业硕士课程第第01章章  绪论绪论n抽样的类型抽样的类型n抽样技术理论抽样技术理论n抽样技术的发展抽样技术的发展 统计学专业硕士课程统计学专业硕士课程1.1 抽样的类型抽样的类型• •非概率抽样非概率抽样非概率抽样非概率抽样              主要依据研究者的主观意愿、判断或是否方便等因素主要依据研究者的主观意愿、判断或是否方便等因素主要依据研究者的主观意愿、判断或是否方便等因素主要依据研究者的主观意愿、判断或是否方便等因素抽取样本;误差大,难以估计,代表性小,适合探索性研抽取样本;误差大,难以估计,代表性小,适合探索性研抽取样本;误差大,难以估计,代表性小,适合探索性研抽取样本;误差大,难以估计,代表性小,适合探索性研究主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样究主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样究主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样究主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样• •概率抽样概率抽样概率抽样概率抽样                依据概率论的基本原理,按照随机原则进行抽样;依据概率论的基本原理,按照随机原则进行抽样;依据概率论的基本原理,按照随机原则进行抽样;依据概率论的基本原理,按照随机原则进行抽样;主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样多段抽样多段抽样多段抽样 统计学专业硕士课程统计学专业硕士课程1.1 抽样的类型抽样的类型抽样方法抽样方法作用作用抽样原则抽样原则误差判断误差判断应用应用优缺点优缺点非随机抽非随机抽样样研究总体的研究总体的局部现象局部现象非随机抽非随机抽出样本,出样本,主观性强主观性强不能计算不能计算和判断抽和判断抽样误差样误差可随时随可随时随地采用地采用不够科学规不够科学规范,但省钱、范,但省钱、省事、灵活省事、灵活方便方便随机抽样随机抽样以部分推断以部分推断总体总体随机抽出随机抽出样本,客样本,客观性强观性强不能计算不能计算和判断抽和判断抽样误差样误差只能定期只能定期采用采用科学规范,科学规范,但费时、费但费时、费钱、不够灵钱、不够灵活方便活方便 统计学专业硕士课程统计学专业硕士课程1.1.1. 非概率抽样非概率抽样非随机抽样的含义、应用范围非随机抽样的含义、应用范围( (一一) )非随机抽样的含义非随机抽样的含义 它是在不确定总体中,按照非随机原则选取样本,并用这部分样本指标它是在不确定总体中,按照非随机原则选取样本,并用这部分样本指标的调查结果,来判断总体指标的一种抽样类型。

      的调查结果,来判断总体指标的一种抽样类型 ( (二二) )非随机抽样的范围非随机抽样的范围 1.1.当对调查的总体不够清楚,或者太复杂,不适于采取随机抽样时,那当对调查的总体不够清楚,或者太复杂,不适于采取随机抽样时,那么,就需要用非随机抽样来抽出样本;么,就需要用非随机抽样来抽出样本; 2.2.适用于经常性的调查和方便灵活的调查适用于经常性的调查和方便灵活的调查 统计学专业硕士课程统计学专业硕士课程1.1.1. 非概率抽样非概率抽样o偶遇抽样偶遇抽样方便抽样或自然抽样,指研究者根据现实情况,以自己方便的方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、最容易找到的人作为对象或者说研究可以得到的一组个体最容易找到的人作为对象或者说研究可以得到的一组个体. . 统计学专业硕士课程统计学专业硕士课程1.1.1. 非概率抽样非概率抽样适用范围适用范围((1 1)可用于经常性的市场调查;)可用于经常性的市场调查;((2 2)可用于正式市场调查之前的试验调查;)可用于正式市场调查之前的试验调查;((3 3)任意调查适用于同质总体。

      任意调查适用于同质总体 优点:方便、灵活,简便易行,及时取得所需资料,节约时间优点:方便、灵活,简便易行,及时取得所需资料,节约时间和费用成本低和费用成本低缺点:因为个体差异性,抽样误差很大,结果不够可靠,应用缺点:因为个体差异性,抽样误差很大,结果不够可靠,应用价值较低价值较低 统计学专业硕士课程统计学专业硕士课程1.1.1. 非概率抽样非概率抽样含义:又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取样含义:又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取样本的一种方法本的一种方法适用范围:总体的构成单位差异较大而样本数又很小的情况适用范围:总体的构成单位差异较大而样本数又很小的情况    优点:因为是按照调查人员的需要来选定样本,所以较好地满足了特殊优点:因为是按照调查人员的需要来选定样本,所以较好地满足了特殊的调查需要的调查需要    缺点:如果调查人员在选取样本时主观判断出现偏差,则判断抽样极易缺点:如果调查人员在选取样本时主观判断出现偏差,则判断抽样极易发生较大的抽样误差发生较大的抽样误差o判断抽样判断抽样 研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提供所需要信息的人作为样本。

      供所需要信息的人作为样本 统计学专业硕士课程统计学专业硕士课程采用判断抽样法应注意的问题采用判断抽样法应注意的问题:一要选好专家,二要应极力避免挑选极端情况的样本,一要选好专家,二要应极力避免挑选极端情况的样本,“多数型多数型”、、“平平均型均型”两种具体做法两种具体做法    专家判断选择样本专家判断选择样本 ::  平均型平均型                           统计判断选择样本:统计判断选择样本: 多数型多数型利用调查总体的全面统计资料,按照一定的标准选择样本利用调查总体的全面统计资料,按照一定的标准选择样本1.1.1. 非概率抽样非概率抽样 统计学专业硕士课程统计学专业硕士课程如如进行现场访问,任意选择一群消费者或者营业人员进行谈话,了解他们对进行现场访问,任意选择一群消费者或者营业人员进行谈话,了解他们对商品质量的看法或购买动向商品质量的看法或购买动向举例:在街头向过路行人做访问调查;上门对一栋大楼内的每个公司进行访举例:在街头向过路行人做访问调查;上门对一栋大楼内的每个公司进行访问式调查;在柜台销售商品过程中向购买者做询问调查等(样本的选取完全问式调查;在柜台销售商品过程中向购买者做询问调查等(样本的选取完全随调查人员的方便而定)随调查人员的方便而定)理论依据:认为被调查的母体中的每一个个体都是相同的理论依据:认为被调查的母体中的每一个个体都是相同的注意:适用于非正式的探测性调查,或调查前的准备工作。

      注意:适用于非正式的探测性调查,或调查前的准备工作1.1.1. 非概率抽样非概率抽样 统计学专业硕士课程统计学专业硕士课程1.1.1. 非概率抽样非概率抽样研究者根据可能影响研究变量的因素对总体分层,并计算出比例,然后取挑研究者根据可能影响研究变量的因素对总体分层,并计算出比例,然后取挑选对象检验理论、解释关系、比较不同群体时,抽样标准是适合性,不是代表性检验理论、解释关系、比较不同群体时,抽样标准是适合性,不是代表性o定额抽样定额抽样 指按照一定的标准确定地区别和职业等不同群体的样本配额,然后由指按照一定的标准确定地区别和职业等不同群体的样本配额,然后由调查人员主观地抽取配额内样本的方法调查人员主观地抽取配额内样本的方法 统计学专业硕士课程统计学专业硕士课程适用范围:通常适用于小型的市场调查适用范围:通常适用于小型的市场调查步骤:步骤:  ((1)选择)选择“控制特征控制特征”作为细分总体的标准;作为细分总体的标准;             ((2)将总体按)将总体按“控制特征控制特征”组成组成 若干子总体;若干子总体;             ((3)决定各子总体样本的大小;)决定各子总体样本的大小;             ((4)选择样本单位。

      选择样本单位o定额抽样定额抽样1.1.1. 非概率抽样非概率抽样 统计学专业硕士课程统计学专业硕士课程o配额抽样法和判断抽样法既有联系又有区别配额抽样法和判断抽样法既有联系又有区别o二者的联系是:配额抽样实质是一种二者的联系是:配额抽样实质是一种“分层分层”判断抽样判断抽样o二者的区别是:二者的区别是:o抽取样本的方式不同:抽取样本的方式不同:o a配额抽样是分别从各个控制特征的层次抽取若干个样本配额抽样是分别从各个控制特征的层次抽取若干个样本o b判断抽样是从总体中的某一层次中抽取若干个符合条件的典型样本判断抽样是从总体中的某一层次中抽取若干个符合条件的典型样本o二者的侧重点不同;二者的侧重点不同;o a配额注重配额注重“量量”的分配的分配o b判断抽样注重判断抽样注重“质质”的分配的分配o复杂程度不同:复杂程度不同:o a配额抽样方法复杂精密配额抽样方法复杂精密o b判断抽样方法简便易行判断抽样方法简便易行1.1.1. 非概率抽样非概率抽样 统计学专业硕士课程统计学专业硕士课程o雪球抽样雪球抽样o在无法了解总体情况时,从少数成员入手调查并询问其他符合条件的在无法了解总体情况时,从少数成员入手调查并询问其他符合条件的人,再找这些人所知道的人。

      人,再找这些人所知道的人1.1.1. 非概率抽样非概率抽样 统计学专业硕士课程统计学专业硕士课程1.1.2 概率抽样概率抽样o概率抽样的程序概率抽样的程序o简单随机抽样简单随机抽样o系统抽样系统抽样o分层抽样分层抽样o整群抽样整群抽样o多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程1.1.2 概率抽样概率抽样o概率抽样的程序概率抽样的程序o界定总体:范围与界限界定总体:范围与界限o制定抽样框:收集总体中全部抽样单位的名单,并对名单统一编号制定抽样框:收集总体中全部抽样单位的名单,并对名单统一编号分段、分层抽样时则要分别建立起几个不同的抽样框分段、分层抽样时则要分别建立起几个不同的抽样框o决定抽样方案:确定抽样方法、样本规模、主要目标量的精确程度决定抽样方案:确定抽样方法、样本规模、主要目标量的精确程度o实际抽取样本:按照选定方法从抽样框中抽取一个个抽样单位,构实际抽取样本:按照选定方法从抽样框中抽取一个个抽样单位,构成样本成样本o评估样本质量:质量、代表性、偏差评估样本质量:质量、代表性、偏差 o 将可得到的反映总体中某些重要特征及其分布的资料与样本中将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标进行对比。

      的同类指标进行对比 统计学专业硕士课程统计学专业硕士课程1.1.2 概率抽样概率抽样o简单随机抽样简单随机抽样o单纯随机抽样:按照等概率原则直接从含有单纯随机抽样:按照等概率原则直接从含有N个元素的总个元素的总体中随机抽取体中随机抽取n个元素组成样本(个元素组成样本(N>>n)常用的方法:抽签、随机数字表常用的方法:抽签、随机数字表o优点优点:可能产生代表性样本可能产生代表性样本o缺点缺点:不容易做不容易做编号难编号难必须能够接触到被选中的个体必须能够接触到被选中的个体成分比例难成分比例难 统计学专业硕士课程统计学专业硕士课程1.1.2 概率抽样概率抽样o分层抽样分层抽样 将总体中的所有单位按照某种特征或标志划分为若干类型或层次将总体中的所有单位按照某种特征或标志划分为若干类型或层次, ,在在每个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样每个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本本, ,共同构成研究的样本共同构成研究的样本. .o优点优点: :1.1.在不增加样本规模的前提下降低抽样误差在不增加样本规模的前提下降低抽样误差, ,提高抽样精度提高抽样精度, ,增大代表性增大代表性2.2.便于了解总体内不同层次的情况便于了解总体内不同层次的情况, ,以及对总体中的不同层次进行单独研以及对总体中的不同层次进行单独研究或者进行比较究或者进行比较. .o注意注意: :1.1.分层的标准问题分层的标准问题2.2.分层的比例问题分层的比例问题 统计学专业硕士课程统计学专业硕士课程1.1.2 概率抽样概率抽样o系统抽样系统抽样 等距抽样或机械抽样等距抽样或机械抽样, ,将总体的单位编号排序后将总体的单位编号排序后, ,按照固定的间隔抽取个体组按照固定的间隔抽取个体组成样本的方法成样本的方法. .步骤步骤: :1.1.制定抽样框制定抽样框2.2.计算抽样间隔计算抽样间隔:K=N/n:K=N/n3.3.在第一组在第一组K K个个体中随机抽取一个个体个个体中随机抽取一个个体A.A.4.4.在抽样框中每隔在抽样框中每隔K K个个体抽取一个个体个个体抽取一个个体. .5.5.将将n n个个体合起来构成样本个个体合起来构成样本. .注意注意2 2种情况种情况: :1.1.抽样框中的个体排列具有某种次序或等级抽样框中的个体排列具有某种次序或等级2.2.抽样框中的个体排列具有与抽样间隔对应的周期性分布抽样框中的个体排列具有与抽样间隔对应的周期性分布. . 统计学专业硕士课程统计学专业硕士课程1.1.2 概率抽样概率抽样o整群抽样整群抽样从总体中随机抽取一些小群体,将小群体的所有元素构成样本从总体中随机抽取一些小群体,将小群体的所有元素构成样本. .对小群体的抽取可采用简单随机抽样、系统抽样、分层抽样的方法。

      对小群体的抽取可采用简单随机抽样、系统抽样、分层抽样的方法优点:优点:1 1简化抽样过程简化抽样过程2 2降低收集资料的费用降低收集资料的费用3 3扩大抽样范围扩大抽样范围缺点:代表性比较差缺点:代表性比较差 统计学专业硕士课程统计学专业硕士课程1.1.2 概率抽样概率抽样o多阶段抽样多阶段抽样多级抽样或分段抽样,按照抽样元素的隶属关系或多级抽样或分段抽样,按照抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行层次关系,把抽样过程分为几个阶段进行步骤:步骤:1 1以大群为单位编制抽样框以大群为单位编制抽样框2 2抽取若干大群抽取若干大群3 3以小群为单位给每个大群编制抽样框以小群为单位给每个大群编制抽样框4 4分别从每个大群中抽取小群分别从每个大群中抽取小群5 5根据需要重复根据需要重复3 3、、4 4步骤步骤6 6得到基本元素,构成研究样本得到基本元素,构成研究样本优点:方便易行优点:方便易行 统计学专业硕士课程统计学专业硕士课程1.2 抽样技术内容抽样技术内容o经典理论:简单随机抽样、分层抽样、比估计、回归估计、不等概率经典理论:简单随机抽样、分层抽样、比估计、回归估计、不等概率抽样、二重抽样、系统抽样、多阶段抽样等。

      抽样、二重抽样、系统抽样、多阶段抽样等o扩展理论:扩展理论:调查方式改变调查方式改变无回答现象、计量误差无回答现象、计量误差复杂抽样方差估计复杂抽样方差估计o最优抽样设计最优抽样设计—— certain methods are often used to improve the precision —— certain methods are often used to improve the precision and control the costs of survey data collection. and control the costs of survey data collection. * * 在固定费用下精度最高;在固定费用下精度最高; * * 或在一定精度条件下调查总费用最省;或在一定精度条件下调查总费用最省; 统计学专业硕士课程统计学专业硕士课程1.3 抽样调查的发展简史抽样调查的发展简史 o百年历史,全面调查百年历史,全面调查————非全面,推论统计的发展非全面,推论统计的发展————数理统计的数理统计的 分支。

      分支 o1.  1.  个别场合适用,个别场合适用,18021802法国数学家拉普拉斯,人口调查,两阶段法国数学家拉普拉斯,人口调查,两阶段(便利),比估计(出生人口)(便利),比估计(出生人口)o2.  2.  正式提出、推广、逐步普及正式提出、推广、逐步普及18941894挪威统计局长凯尔,挪威统计局长凯尔,————代代表性调查,退休金、疾病保险金调查表性调查,退休金、疾病保险金调查18951895,瑞士,瑞士ISIISI国际统计会议国际统计会议(五次)(五次)——1903——1903年年ISIISI(九次)统计学家认同(九次)统计学家认同. . 统计学专业硕士课程统计学专业硕士课程1.3 抽样调查的发展简史抽样调查的发展简史 o3.  3.  主导地位英国鲍莱,主导地位英国鲍莱,19061906简单随机抽样、简单随机抽样、19121912系统抽样;系统抽样;19251925按比例分层,按比例分层,19301930美国经济恐慌促进调查成长美国经济恐慌促进调查成长o4.   4.   理论发展与完善如费歇尔理论发展与完善如费歇尔19201920:随机化:随机化————无偏,重复无偏,重复————方差估计,区组方差估计,区组————分层;分层; —— ——不等概,理论上证明随机抽样合不等概,理论上证明随机抽样合理性;多阶段理性;多阶段. .奈曼:奈曼:1934RSS1934RSS,最优分配、比估计、比例估计。

      汉,最优分配、比估计、比例估计汉森森- -赫维茨:赫维茨:PPSPPS抽样,现时人口调查抽样,现时人口调查CPSCPS;马哈拉诺比斯;马哈拉诺比斯19301930:印度:印度统计学院,交叉子样本,费用函数、方差函数统计学院,交叉子样本,费用函数、方差函数 , ,非抽样误差非抽样误差 统计学专业硕士课程统计学专业硕士课程1.4 抽样调查的发展简史抽样调查的发展简史 o19401940,陈达、戴世光,国情普查研究所,云南呈贡县,人口普查,,陈达、戴世光,国情普查研究所,云南呈贡县,人口普查,————清华学报清华学报o5050年代年代————报表、全面统计为主,部分抽样,农调队报表、全面统计为主,部分抽样,农调队o81——81——城调队、农调队,城调队、农调队,9494企调队企调队o8080年代后市场调查萌芽发展年代后市场调查萌芽发展o我国统计法规定:统计调查应以周期性普查为基础,以经常性抽样调我国统计法规定:统计调查应以周期性普查为基础,以经常性抽样调查为主题,以必要的统计报表、重点调查与综合分析等为补充,搜集查为主题,以必要的统计报表、重点调查与综合分析等为补充,搜集与整理基本统计资料与整理基本统计资料。

      统计学专业硕士课程统计学专业硕士课程第第2讲讲 简单随机抽样简单随机抽样l l第第第第0202章章章章     简单随机抽样简单随机抽样简单随机抽样简单随机抽样 统计学专业硕士课程统计学专业硕士课程第第02章章  简单随机抽样简单随机抽样((SRS))n定义及其抽选方法定义及其抽选方法n简单估计量及其性质简单估计量及其性质n样本量的确定样本量的确定n设计效应设计效应n稀有事件的抽样问题稀有事件的抽样问题 Simple Random Sampling  (SRS)Simple Random Sampling  (SRS) 统计学专业硕士课程统计学专业硕士课程 抽样方案设计抽样方案设计 o第一、确定抽样调查的第一、确定抽样调查的目的目的、任务和要求;、任务和要求;o第二、确定第二、确定调查对象调查对象的范围和的范围和抽样单位抽样单位;;o第三、确定第三、确定抽取样本方法抽取样本方法;;o第四、对主要抽样指针的精度提出要求;确定必第四、对主要抽样指针的精度提出要求;确定必 要的要的样本数样本数;;o第五、确定总体目标量的第五、确定总体目标量的估算方法估算方法;;o第六、第六、制订制订实施总体方案的办法实施总体方案的办法和步骤。

      和步骤 统计学专业硕士课程统计学专业硕士课程2.1定义与符号定义与符号o简单随机抽样也称为单纯随机抽样简单随机抽样也称为单纯随机抽样o从从含含有有 N 个个单单元元的的总总体体中中抽抽取取 n 个个单单元元组组成成样样本本,,如如果果抽抽样样是是不不放放回回的的,,则则所所有有可可能能的的样样本本有有 个个,,若若每每个个样样本本被被抽抽中中的的概概率率相相同同,,都都为为 ,,这这种种抽抽样样方法就是简单随机抽样方法就是简单随机抽样o具体抽样时,通常是逐个抽取样本单元,直到抽满具体抽样时,通常是逐个抽取样本单元,直到抽满n n个单元为止个单元为止 有限 统计学专业硕士课程统计学专业硕士课程2.1.1 放回简单随机抽样放回简单随机抽样o放回简单随机抽样放回简单随机抽样(SRS with replacement)n当当从从总总体体N个个抽抽样样单单元元中中抽抽取取n个个抽抽样样单单元元时时,,如如果果依依次次抽抽取取单单元元时时,,不不管管以以前前是是否否被被抽抽中中过过,,每每次次都都从从N个个抽抽样样单单元元中中随随机机抽抽取取,,这这时时,,所有可能的样本为所有可能的样本为 个个(考虑样本单元的顺序考虑样本单元的顺序),n每个样本被抽中的概率为每个样本被抽中的概率为o放放回回简简单单随随机机抽抽样样在在每每次次抽抽取取样样本本单单元元时时,,都都将将前前一一次次抽抽取取的的样样本本单单元元放放回回总总体体,,因因此此,,总总体体的的结结构构不不变变,,抽抽样样是是相相相相互互互互独独独独立立立立进进行行的,这一点是它与不放回简单随机抽样的主要不同之处。

      的,这一点是它与不放回简单随机抽样的主要不同之处o放回简单随机抽样的样本量不受总体大小的限制,可以是任意的放回简单随机抽样的样本量不受总体大小的限制,可以是任意的 统计学专业硕士课程统计学专业硕士课程o简单随机抽样的抽取原则:简单随机抽样的抽取原则:n((1)按随机原则取样;)按随机原则取样;n((2)每个抽样单元被抽中的概率都是已知的或事先确定的;)每个抽样单元被抽中的概率都是已知的或事先确定的;n((3)每个抽样单元被抽中的概率都是相等的每个抽样单元被抽中的概率都是相等的2.1.1 放回简单随机抽样放回简单随机抽样 统计学专业硕士课程统计学专业硕士课程2.1.1 放回简单随机抽样放回简单随机抽样o【例例2.1】设设总总体体有有5个个单单元元((1、、2、、3、、4、、5)),,按按放放回回简简单单随随机机抽抽样样的的方方式式抽抽取取2个个单单元元,,则则所所有有可可能能的的样样本本为为25个个((考考虑虑样本单元的顺序):样本单元的顺序):1,,12,,13,,14,,15,,11,,22,,23,,24,,25,,21,,32,,33,,34,,35,,31,,42,,43,,44,,45,,41,,52,,53,,54,,55,,5 统计学专业硕士课程统计学专业硕士课程2.1.2 不放回简单随机抽样不放回简单随机抽样(SRS without replacement)(SRS without replacement)o当当从从总总体体N个个抽抽样样单单元元中中依依次次抽抽取取n个个抽抽样样单单元元时时,,每每个个被被抽抽中中的的单元不再放回总体,而是从总体剩下的单元中进行抽样。

      单元不再放回总体,而是从总体剩下的单元中进行抽样o不放回简单随机抽样的样本量要受总体大小的限制不放回简单随机抽样的样本量要受总体大小的限制o在实际工作中,更多的采用不放回简单随机抽样在实际工作中,更多的采用不放回简单随机抽样 统计学专业硕士课程统计学专业硕士课程 2.1.2 不放回简单随机抽样不放回简单随机抽样o【【例例2.2】】设总体有设总体有5个单元(个单元(1、、2、、3、、4、、5),按),按不放回简单随机抽样的方式抽取不放回简单随机抽样的方式抽取2个单元,则所有可能个单元,则所有可能的样本为的样本为10个:个:1,,22,,33,,44,,51,,32,,43,,5 1,,42,,5  1,,5    统计学专业硕士课程统计学专业硕士课程符号符号 o大写符号表示总体的标志值,大写符号表示总体的标志值,o用小写符号表示样本的标志值用小写符号表示样本的标志值 统计学专业硕士课程统计学专业硕士课程符号符号 o大写符号表示总体的标志值,大写符号表示总体的标志值,o用小写符号表示样本的标志值用小写符号表示样本的标志值 统计学专业硕士课程统计学专业硕士课程o总体指标值上面带符号总体指标值上面带符号“^ ^”的表示由样本得到的总体的表示由样本得到的总体指标的估计。

      指标的估计 o 称称 为抽样比,记为为抽样比,记为f f o估估计量的方差用大写的量的方差用大写的V V表示表示, ,对对 的的样本估计,不用样本估计,不用 而用而用 表示 2.1.2 不放回简单随机抽样不放回简单随机抽样 统计学专业硕士课程统计学专业硕士课程2.1.3 抽选方法抽选方法o抽签法抽签法o随机数法随机数法——随机数表、随机数骰子、摇奖机、计算机产生的伪随机数表、随机数骰子、摇奖机、计算机产生的伪随机数随机数 随机数表随机数表法:法:N=327 n==5讨论:讨论: (1) 总总体体编编号号为为1~~35,,在在00~~99中中产产生生随随机机数数,,若若=00或或>35,则抛弃重抽则抛弃重抽 (2) 总总体体编编号号为为1~~35,,在在00~~99中中产产生生随随机机数数,,以以除除以以35,,余余数作为被抽中的数,如果余数为数作为被抽中的数,如果余数为0,则被抽中的数为,则被抽中的数为35 统计学专业硕士课程统计学专业硕士课程2.1.4 地位与作用地位与作用o优点优点n简单直观简单直观n理论基础理论基础o缺点缺点nN很大时难以获得很大时难以获得抽样框抽样框n样本分散不易实施,调查费用高样本分散不易实施,调查费用高o很少单独使用,一般结合其他方法使用很少单独使用,一般结合其他方法使用o没有其他信息时没有其他信息时使用使用o多变量复杂数据分析多变量复杂数据分析 统计学专业硕士课程统计学专业硕士课程2.2 2.2 简单估计量及其性质简单估计量及其性质o 判断下面要估计的总体目标量分别属于什么类型?判断下面要估计的总体目标量分别属于什么类型?n调查城市居民家庭平均用电量。

      调查城市居民家庭平均用电量n估计湖中鱼的数量估计湖中鱼的数量n测试日光灯的寿命测试日光灯的寿命n估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重n估计婴儿出生性别比估计婴儿出生性别比n检测食盐中碘含量检测食盐中碘含量  统计学专业硕士课程统计学专业硕士课程2.2.1 对总体均值的估计对总体均值的估计 以样本均值作为总体均值的估计以样本均值作为总体均值的估计o性性质1 1::对于于简单随机抽随机抽样,, 是是 的无偏估的无偏估计 统计学专业硕士课程统计学专业硕士课程例设总体为例设总体为{0,,1,,3,,5,,6},计算总体均值,计算总体均值   =3、总体方差、总体方差   =5.2和和     =6.5;给出全部;给出全部       的样本,并验证的样本,并验证                    及及                      1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5  306.5   方差方差1.951.95  样本编号单元1单元2样本均值-样本方差-2.2.1 对总体均值的估计对总体均值的估计 统计学专业硕士课程统计学专业硕士课程 证明证明 性质性质1 1 o对于固定的有限总体,估计量的期望是对所有可能样本求平均得对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,到的,因此因此o总体中每个特定的体中每个特定的单元元 在不同的在不同的样本中出本中出现的次数。

      的次数 统计学专业硕士课程统计学专业硕士课程证明 性质性质1 1(对称性论证法)(对称性论证法) o由于每个单元出现在总体所有可能样本中的由于每个单元出现在总体所有可能样本中的次数相同,因此次数相同,因此 一定是一定是 的倍数,且的倍数,且这个倍数就是个倍数就是 ,, 统计学专业硕士课程统计学专业硕士课程性质性质2::o对于有限总体的方差定义对于有限总体的方差定义 ::o性质性质2:对于简单随机抽样,:对于简单随机抽样, 的方差的方差式中:式中: 为抽样比,为抽样比, 为有限总体校正系数为有限总体校正系数 统计学专业硕士课程统计学专业硕士课程证明性质性质2 2((对称论证法): o 中的求和是对中的求和是对 项的,项的,o 中的求和是对中的求和是对 项的项的 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程每个特定单位被选入样本的概率:每个特定单位被选入样本的概率:         =P((i))=故其定义为:故其定义为:* 不放回抽样不放回抽样* 每个样本被抽中的概率为每个样本被抽中的概率为* 每个单位被选入样本的概率每个单位被选入样本的概率       利用无限总体理论利用无限总体理论 统计学专业硕士课程统计学专业硕士课程       Mean                                                                                            随机变量2.2.1 对总体均值的估计对总体均值的估计 统计学专业硕士课程统计学专业硕士课程证明性质性质2 统计学专业硕士课程统计学专业硕士课程简单估计量简单估计量估计精度影响因素:估计精度影响因素: o估计量的方差估计量的方差 是衡量估计量精度的度是衡量估计量精度的度量。

      影响估计量方差的量影响估计量方差的因素因素主要是样本量主要是样本量n n n n,总体,总体,总体,总体大小大小大小大小N N N N和总体方差和总体方差和总体方差和总体方差 n通常通常N N很大,当很大,当f<0.05f<0.05时,可将时,可将 近似取为近似取为1 1 总体方差是我体方差是我们无法改无法改变的的;;因此,在简单随机抽样的条件下,只有通过加大样本量来提因此,在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度高估计量的精度 统计学专业硕士课程统计学专业硕士课程 性质性质3 3:: 的样本无偏估计为: o证明 : 统计学专业硕士课程统计学专业硕士课程2.2.1 对总体均值的估计对总体均值的估计 统计学专业硕士课程统计学专业硕士课程2.2.1 对总体均值的估计对总体均值的估计o大样本下,抽样调查估计量渐进正态大样本下,抽样调查估计量渐进正态 统计学专业硕士课程统计学专业硕士课程2.2.1 对总体均值的估计对总体均值的估计o【例例2.32.3】我们从某个我们从某个=100=100的总体中抽出一个大小为的总体中抽出一个大小为=10=10的简单随的简单随机样本,要估计总体平均水平并给出置信度为机样本,要估计总体平均水平并给出置信度为95%95%的区间估计。

      的区间估计序号序号1234567891045204661508 统计学专业硕士课程统计学专业硕士课程2.2.1 对总体均值的估计对总体均值的估计o由由置置信信度度95%对对应应的的 ,,因因此此,,可可以以以以95%的把握说总体平均水平大约在的把握说总体平均水平大约在 之间,即之间,即2.4295和和7.5705之间 统计学专业硕士课程统计学专业硕士课程2.2.1 对总体均值的估计对总体均值的估计o有放回简单随机抽样有放回简单随机抽样 统计学专业硕士课程统计学专业硕士课程2.2.2 对总体总量的估计对总体总量的估计 统计学专业硕士课程统计学专业硕士课程【例例2.42.4】续例续例2.32.3估计总体总量,并给出在置信度估计总体总量,并给出在置信度95%95%的条件下,估的条件下,估计的极限相对误差计的极限相对误差o在置信度在置信度95%下,下, 的极限相对误差为:的极限相对误差为: 统计学专业硕士课程统计学专业硕士课程2.2.3对总体比例的估计对总体比例的估计 o某一类特征的单元占总体单元数中的比例某一类特征的单元占总体单元数中的比例P.P.o将总体单元按是否具有这种特征划分为两类,设总体中有个单元具将总体单元按是否具有这种特征划分为两类,设总体中有个单元具有有A这个特征,如果对每个单元都定义指标值这个特征,如果对每个单元都定义指标值o 统计学专业硕士课程统计学专业硕士课程2.2.3对总体比例的估计对总体比例的估计o总体方差:总体方差: 统计学专业硕士课程统计学专业硕士课程2.2.3对总体比例的估计对总体比例的估计o估计量估计量 o性质性质5 5:对于简单随机抽样,:对于简单随机抽样, 是是 P P 的无偏估计。

      的无偏估计 的方差为:的方差为: 统计学专业硕士课程统计学专业硕士课程证明 统计学专业硕士课程统计学专业硕士课程2.2.3对总体比例的估计对总体比例的估计】 o【例例2.52.5某某超超市市新新开开张张一一段段时时间间之之后后,,为为改改进进销销售售服服务务环环境境,,欲欲调调查查附附近近几几个个小小区区居居民民到到该该超超市市购购物物的的满满意意度度,,该该超超市市与与附附近近几几个个小小区区的的居居委委会会取取得得联联系系,,在在总总体体中中按按简简单单随随机机抽抽样样抽抽取取了了一一个个大大小小为为=200人人的的样样本本,,调调查查发发现现对对该该超超市市购购物物环环境境表表示示满满意意或或基基本本满满意意的的居居民民有有130位位,,要要估估计计对对该该超超市市购购物物环环境境持持肯肯定定态态度度居居民民的的比比例例,,并并在在置置信信度度95%下下,,给给出出估估计计的的近近似似置置信信区区间间、、极极限限绝对误差假定这时的抽样比可以忽略绝对误差假定这时的抽样比可以忽略 统计学专业硕士课程统计学专业硕士课程2.2.3对总体比例的估计对总体比例的估计】o95%近似置信区间为近似置信区间为〔〔 58.37%,,71.63% 〕〕 统计学专业硕士课程统计学专业硕士课程2.3 2.3 样本量的确定样本量的确定o所需要的精度所需要的精度o找出样本量与精度之间的关系找出样本量与精度之间的关系o估计所需的数值,求解估计所需的数值,求解 no如超出预算,调整精度值重新计算如超出预算,调整精度值重新计算 统计学专业硕士课程统计学专业硕士课程2.3 2.3 样本量的确定样本量的确定o费用费用n 总费用总费用 固定费用固定费用 可变费用可变费用n 设计费设计费分析费分析费办公费办公费管理费管理费场租费场租费等等访问员费访问员费交通费交通费礼品费礼品费费费等等 统计学专业硕士课程统计学专业硕士课程2.3.1 精度精度margin of erroro对精度的要求通常以允许最大绝对误差对精度的要求通常以允许最大绝对误差 (绝对误差(绝对误差限)或允许最大相对误差(限)或允许最大相对误差( 相对误差限)来表示。

      相对误差限)来表示 统计学专业硕士课程统计学专业硕士课程o样本量足够大时,可用正态分布近似样本量足够大时,可用正态分布近似变异系数 2.3.1 精度精度margin of error 统计学专业硕士课程统计学专业硕士课程当当N很大时,很大时,     0,, n    n0,,wr与与wor几乎没有区别几乎没有区别o样本量(样本量(Sample Size)) n0为重复抽样条件下的样本量为重复抽样条件下的样本量2.3.1 精度精度margin of error 统计学专业硕士课程统计学专业硕士课程2.3.1 精度精度margin of erroro总体参数为总体参数为P的样本量的样本量n0为重复抽样条件下的样本量为重复抽样条件下的样本量 统计学专业硕士课程统计学专业硕士课程2.3.1 精度精度margin of erroro f<0.05 统计学专业硕士课程统计学专业硕士课程2.3.2总体方差的估计总体方差的估计o根据预调查数据或以前文献资料根据预调查数据或以前文献资料o根据数据的分布粗略估算根据数据的分布粗略估算S,S,例如全距例如全距/4/4,全,全距距/ 6/ 6o对于比例估计,如果对于比例估计,如果P P在在0.50.5附近(0.2-附近(0.2-0.8)0.8),可根据,可根据PQPQ在在P=0.5P=0.5时达到极大值时达到极大值来对样本量进行计算来对样本量进行计算 . 统计学专业硕士课程统计学专业硕士课程o如如果果时时间间允允许许,,且且总总体体在在时时间间上上变变化化不不快快,,调调查查可可以以分分为为两两步步,,首首先先确确定定一一个个可可以以承承受受的的样样本本量量,,调调查查后后对对估估计计精精度度进进行行计计算算,,如如果果精精度度达达到到要要求求,,则则不不再再进进行行下下一一步步,,否否则则,,计计算算为为达达到到精精度度要要求求所需的样本量,再调查补充样本所需的样本量,再调查补充样本o通通过过定定性性分分析析 ,最最好好是是对对总总体体变变异异系系数数进进行行分分析析并估计,因为变异系数通常变化不大并估计,因为变异系数通常变化不大. .2.3.2总体方差的估计总体方差的估计 统计学专业硕士课程统计学专业硕士课程o估计精度越高越好吗?估计精度越高越好吗? 简单随机抽样估计比例简单随机抽样估计比例P的样本量与误差(当的样本量与误差(当P=0.5时)时) 样本量样本量 误差误差d 50 0.14 100 0.10 500 0.045 1000 0.032 10000 0.0098 对精度要求的判断十分重要。

      对精度要求的判断十分重要 为得到最小误差而选择最为得到最小误差而选择最 大样本量不是好的选择大样本量不是好的选择2.3.3样本量设计中的误区样本量设计中的误区 统计学专业硕士课程统计学专业硕士课程2. 样本量与总体规模样本量与总体规模N有关吗?按照总体比例确定样本量合适吗?有关吗?按照总体比例确定样本量合适吗?例:简单随机抽样估计例:简单随机抽样估计P,置信度,置信度95%,允许误差,允许误差5%,在,在P=0.5条件下条件下 总体规模(总体规模(N)) 所需样本量(所需样本量(n)) 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400 2.3.3样本量设计中的误区样本量设计中的误区 统计学专业硕士课程统计学专业硕士课程 由此可知,在精度要求相同条件下,在北由此可知,在精度要求相同条件下,在北京市进行一项调查和在全国进行一项调查,样京市进行一项调查和在全国进行一项调查,样本量的差别并不大。

      本量的差别并不大 总体规模越大,进行抽样调查的效率越高总体规模越大,进行抽样调查的效率越高u 若分类、分区、分层分别进行估计,如何处理?若分类、分区、分层分别进行估计,如何处理?u 对于多项目,如何处理?对于多项目,如何处理?2.3.3样本量设计中的误区样本量设计中的误区 统计学专业硕士课程统计学专业硕士课程2.3.4其他影响因素其他影响因素o1. 所研究问题目标量的个数所研究问题目标量的个数o2. 调查表的回收率调查表的回收率 例例如如回回收收率率估估计计为为80%,,则则应应接接触触的的样样本本量量为为计计算出所需样本量的算出所需样本量的1.25倍;倍;o3.非抽样误差非抽样误差o4.资源限制资源限制o5.有效样本有效样本oetc 统计学专业硕士课程统计学专业硕士课程(Design effect, Deff)定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估              计计 量的方差的比率量的方差的比率       Deff                                                                             Var((     )为复杂样本估计量的方差。

      为复杂样本估计量的方差2.4 2.4 设计效果设计效果 统计学专业硕士课程统计学专业硕士课程2.4 设计效果设计效果o设计效应设计效应基什(基什(L. KishL. Kish))提出提出 比比较不同抽不同抽样方法的效率方法的效率. . 不放回简单随机抽样简单估计量的方差 某个抽样设计在同样样本量条件下估计量的方差 统计学专业硕士课程统计学专业硕士课程  DeffDeff的作用:的作用: ((1 1)评价抽样设计的一个依据)评价抽样设计的一个依据, , 如果如果deff<1deff<1,, 则抽样设计比简单随机抽样的效率高;则抽样设计比简单随机抽样的效率高; 如果如果deff>1deff>1,, 则抽样设计比简单随机抽样的效率低则抽样设计比简单随机抽样的效率低2 2)计算样本量)计算样本量  如多阶段抽样的  如多阶段抽样的 DeffDeff大约在大约在2~2.52~2.5之间 n= n’(deff) n= n’(deff) n’ n’为简单随机抽样所需样本量。

      为简单随机抽样所需样本量2.4 设计效果设计效果 统计学专业硕士课程统计学专业硕士课程o放回简单随机抽样的放回简单随机抽样的deffdeff为:为:o常常用用于于复复杂杂抽抽样样样样本本量量的的确确定定;;在在一一定定精精度度条条件件下下,,简简单单随随机机抽抽样样所所需需的的样样本本量量比比较较容容易易得得到到,,复复杂杂抽抽样样的的样样本量为,本量为, 2.4设计效果设计效果 统计学专业硕士课程统计学专业硕士课程2.5 2.5 稀有事件的抽样问题稀有事件的抽样问题o如果估计的是非常稀有事件的比例,这时总体比例很小,如果估计的是非常稀有事件的比例,这时总体比例很小,用极限相对误差比极限绝对误差更好些用极限相对误差比极限绝对误差更好些 o 对于稀有事件,所需的样本量会很大,例如:对于稀有事件,所需的样本量会很大,例如: 统计学专业硕士课程统计学专业硕士课程o针对稀有事件并无法给出确切范围,针对稀有事件并无法给出确切范围,n对总体比例事先不同的假定,所导致的样本量对总体比例事先不同的假定,所导致的样本量差异非常大差异非常大 o霍丹(霍丹(HaldaneHaldane)提出的)提出的逆抽样逆抽样方法方法: :o 即事先确定一个整数即事先确定一个整数m m((m>1m>1),进行逐),进行逐个抽样,直到抽到个抽样,直到抽到m m个所考虑特征的单元为个所考虑特征的单元为止止. . 2.5稀有事件的抽样问题稀有事件的抽样问题 统计学专业硕士课程统计学专业硕士课程o设设n是实际的样本量,则是实际的样本量,则P的一个的一个无偏无偏估计为估计为o当当 n n比比较大,大, 时 很接近于很接近于1 1 2.5 稀有事件的抽样问题稀有事件的抽样问题 统计学专业硕士课程统计学专业硕士课程o规定了规定了 或或r、、 t后,就可以确定后,就可以确定m。

      如如 规定规定 =20%,则,则m=27o可以证明,这时所需样本量可以证明,这时所需样本量n的均值为的均值为 统计学专业硕士课程统计学专业硕士课程第第3讲讲 分层随机抽样分层随机抽样 l l第第第第0303章章章章     分层随机抽样分层随机抽样分层随机抽样分层随机抽样   l l第第第第0404章章章章 统计学专业硕士课程统计学专业硕士课程第第03章章  分层随机抽样分层随机抽样 n定义及符号定义及符号n估计量及其性质估计量及其性质n样本量的分配原则样本量的分配原则n样本量的确定样本量的确定n分层抽样的若干问题分层抽样的若干问题 统计学专业硕士课程统计学专业硕士课程3.1 定义及符号定义及符号3.1.1 3.1.1 定义定义 在抽样之前,先将总体在抽样之前,先将总体N N个单元划分成个单元划分成L L个互不重复的个互不重复的子总体,每个子总体称为层,它们的大小分别为子总体,每个子总体称为层,它们的大小分别为 ,这个层合起来就是整个总体,这个层合起来就是整个总体 ,然后,,然后,在每个层中分别独立地进行抽样,这种抽样就是分层在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。

      抽样,所得到的样本称为分层样本 如果每层都是独立按照简单随机抽样进行,则称为分如果每层都是独立按照简单随机抽样进行,则称为分层随机抽样层随机抽样 不重不漏 统计学专业硕士课程统计学专业硕士课程o作用作用o分分层层抽抽样样的的抽抽样样效效率率较较高高,,也也就就是是说说分分层层抽抽样样的的估估计计精精度度较较高高这这是是因因为为分分层层抽抽样样估估计计量量的的方方差差只只和和层层内内方方差差有有关关,,和和层层间间方方差差无关o分分层层抽抽样样不不仅仅能能对对总总体体指指标标进进行行推推算算,,而而且且能能对对各各层层指指标标进进行行推推算o层内抽内抽样方法可以不同,而且便于抽方法可以不同,而且便于抽样工作的工作的组织3.1 定义及符号定义及符号 统计学专业硕士课程统计学专业硕士课程3.1.2 3.1.2 分层原则:分层原则:总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层于两个层或不属于任何一个层o估计:层内单元具有相同性质,通常按调查对象的不同类型进行划分估计:层内单元具有相同性质,通常按调查对象的不同类型进行划分。

      o精精度度::尽尽可可能能使使层层内内单单元元的的指指标标值值相相近近,,层层间间单单元元的的差差异异尽尽可可能能大大,,从从而达到提高抽样估计精度的目的而达到提高抽样估计精度的目的o估估计计和和精精度度::既既按按类类型型、、又又按按层层内内单单元元指指标标值值相相近近的的原原则则进进行行多多重重分分层层,,同时达到实现估计类值以及提高估计精度的目的同时达到实现估计类值以及提高估计精度的目的o实施:抽样组织实施的方便,通常按行政管理机构设置进行分层实施:抽样组织实施的方便,通常按行政管理机构设置进行分层3.1 定义及符号定义及符号 统计学专业硕士课程统计学专业硕士课程例题例题o例例如如,,对对全全国国范范围围汽汽车车运运输输的的抽抽样样调调查查,,调调查查目目的的不不仅仅要要推推算算全全国国货货运运汽汽车车完完成成的的运运量量,,还还要要推推算算不不同同经经济济成成分分((国国有有、、集集体、个体)汽车完成的运量体、个体)汽车完成的运量n为为组组织织的的方方便便,,首首先先将将货货运运汽汽车车总总体体按按省省分分层层,,由由各各省省运输管理部门负责省内的调查工作运输管理部门负责省内的调查工作。

      n各省再将省内拥有的汽车按经济成分分层各省再将省内拥有的汽车按经济成分分层n为提高抽样效率,再对汽车按吨位分层为提高抽样效率,再对汽车按吨位分层o例例如如,,某某高高校校对对学学生生在在宿宿舍舍使使用用电电脑脑的的情情况况进进行行调调查查,,根根据据经经验,本科生和研究生拥有电脑的状况差异较大验,本科生和研究生拥有电脑的状况差异较大n因因此此,,在在抽抽样样前前对对学学生生按按本本科科生生和和研研究究生生进进行行分分层层是是有有必要的 统计学专业硕士课程统计学专业硕士课程3.1.3 符号说明符号说明 (关于第关于第h层的的记号号 )o层号号 单元总数样本单元数第  个单元的值层权抽样比总体均值样本均值总体方差样本方差 统计学专业硕士课程统计学专业硕士课程3.2 3.2 估计量估计量3.2.1 3.2.1 对总体均体均值的估的估计o分分层样本本,,总体均体均值 的估的估计o分分层随机随机样本本,,总体均体均值 的的简单估估计 统计学专业硕士课程统计学专业硕士课程3.2.1 估估计量的性量的性质 o性性质质1 1::对对于于一一般般的的分分层层抽抽样样,,如如果果 是是 的的无无偏偏估估计计(( )),,则则 是是 的的无无偏偏估估计计。

      则则 的方差为:的方差为: 只要对各层估计无偏,则总体估计也无偏只要对各层估计无偏,则总体估计也无偏n各各层层可可以以采采用用不不同同的的抽抽样样方方法法,,只只要要相相应应的的估估计计量量是是无无偏的,则对总体的推算也是无偏的偏的,则对总体的推算也是无偏的 统计学专业硕士课程统计学专业硕士课程证明性质证明性质1 1 由于对每一层有由于对每一层有 因此,因此, 估计量的方差估计量的方差 由由于于各各层层是是独独立立抽抽取取的的,,因因此此上上式式第第二二项项中中的的协协方方差差全全为为0,,从从而而有有 统计学专业硕士课程统计学专业硕士课程3.2.1 估估计量的性量的性质o 性质性质2:对于分层随机抽样,:对于分层随机抽样, 是是 的无偏估计,的无偏估计, 的方差为:的方差为: 统计学专业硕士课程统计学专业硕士课程证明性质证明性质2 2:: 对对于于分分层层随随机机抽抽样样,,各各层层独独立立进进行行简简单单随随机机抽抽样样,,对对每一层有每一层有 因此,由性质因此,由性质1,有,有 由第二章性质由第二章性质2,得,得 因此因此o 统计学专业硕士课程统计学专业硕士课程3.2.1 估估计量的性量的性质o 性性质质3::对对于于分分层层随随机机抽抽样样,, 的的一一个个无无偏估计为:偏估计为: 统计学专业硕士课程统计学专业硕士课程证明性质证明性质3 3:: 对对于于分分层层随随机机抽抽样样,,各各层层独独立立进进行行简简单单随随机机抽抽样样,,由由第第二二章性质章性质3,得,得 的无偏估计为:的无偏估计为: 因此,因此, 的一个无偏估计为:的一个无偏估计为: 统计学专业硕士课程统计学专业硕士课程3.2.2 对总体总量的估计对总体总量的估计o 总体体总量量 的估的估计为:: o如果得到的是分如果得到的是分层随机随机样本,本,则总体体总量的量的简单估估计为:: 统计学专业硕士课程统计学专业硕士课程3.2.2 对总体总量的估计对总体总量的估计o性质性质4 4:对于一般的分层抽样,如果:对于一般的分层抽样,如果是是 的的无无偏偏估估计计,,则则 是是 的的无无偏偏估估计计。

      的方差为:的方差为: 统计学专业硕士课程统计学专业硕士课程3.2.2 对总体总量的估计对总体总量的估计o性质性质5:对于分层随机抽样,:对于分层随机抽样, 的方差为:的方差为: 统计学专业硕士课程统计学专业硕士课程3.2.2 对总体总量的估计对总体总量的估计o性质性质6 6:对于分层随机抽样,:对于分层随机抽样, 的一个无的一个无偏估计为:偏估计为: 统计学专业硕士课程统计学专业硕士课程3.2.2 对总体总量的估计对总体总量的估计o例例3.1 3.1 调调查查某某地地区区的的居居民民奶奶制制品品年年消消费费支支出出,,以以居居民民户户为为抽抽样样单单元元,,根根据据经经济济及及收收入入水水平平将将居居民民户户划划分分为为4层层,,每每层层按按简简单单随随机机抽抽样样抽抽取取10户户,,调调查查获获得得如如下下数数据据((单单位位::元元)),,要要估估计计该该地地区区居居民奶制品年消费总支出及估计的标准差民奶制品年消费总支出及估计的标准差层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程3.2.3 对总体比例的估计对总体比例的估计 o总体比例总体比例P P的估计为:的估计为: o估计量的性质估计量的性质  性质性质7::对于一般的分层抽样,如果      是       的无偏估计(                  ),则      是     的无偏估计。

          的方差为: 统计学专业硕士课程统计学专业硕士课程3.2.3 对总体比例的估计对总体比例的估计性质性质8:对于分层随机抽样,:对于分层随机抽样,      是是     的无偏估计,的无偏估计,因而    的方差为:                         统计学专业硕士课程统计学专业硕士课程3.2.3 对总体比例的估计对总体比例的估计 性质性质9::对于分层随机抽样,       的一个无偏估计为: 统计学专业硕士课程统计学专业硕士课程3.2.3 对总体比例的估计对总体比例的估计o例例3.23.2在在例例3.1的的调调查查中中,,同同时时调调查查了了居居民民户户拥拥有有家家庭庭电电脑脑的的情情况况,,获获得得如如下下数数据据((单单位位::台台)),,要要估估计计该该地地区区居居民民拥拥有有家家庭庭电脑的比例及估计的标准差电脑的比例及估计的标准差层层居民居民户总户总数数样本户拥有家庭电脑情况样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000 统计学专业硕士课程统计学专业硕士课程解:由上表可得,由上表可得,                根根据据前前面面对对各各层层层层权权       及及抽抽样样比比       的的计计算算结结果果,,可可得得各各层层估估计计量的方差:量的方差:                            3.2.3 对总体比例的估计对总体比例的估计        统计学专业硕士课程统计学专业硕士课程因此,该地区居民拥有家庭电脑比例的估计为:因此,该地区居民拥有家庭电脑比例的估计为:                         估计量的方差为:估计量的方差为:                   估计量的标准差为:估计量的标准差为:3.2.3 对总体比例的估计对总体比例的估计        统计学专业硕士课程统计学专业硕士课程3.3 3.3 样本量在各层的分配样本量在各层的分配 o 确确定定样样本本量量::总总的的样样本本量量,,各各层层样样本本量量估估计计量量的的方方差差不仅与各层的方差有关,还和各层所分配的样本量有关。

      不仅与各层的方差有关,还和各层所分配的样本量有关o实际工作中有不同的分配方法,可以按各层单元数占总实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小最小、费用最小 统计学专业硕士课程统计学专业硕士课程3.3 3.3 样本量在各层的分配样本量在各层的分配o【例例3.1】调调查查某某地地区区的的居居民民奶奶制制品品年年消消费费支支出出,,以以居居民民户户为为抽抽样样单单元元,,根根据据经经济济及及收收入入水水平平将将居居民民户户划划分分为为4层层,,每每层层按按简简单单随随机机抽抽样样抽抽取取10户户,,调调查查获获得得如如下下数数据据((单单位位::元元)),,要要估估计计该该地地区区居居民民奶奶制制品品年年消消费费总总支出及估计的标准差支出及估计的标准差 统计学专业硕士课程统计学专业硕士课程3.3 3.3 样本量在各层的分配样本量在各层的分配层居民户总数 权数 方差常数分配与权数成比例 与正比   12000.07 1624103 3   24000.14 2166106 7   37500.26 82051011 23   415000.53 1931020 7    统计学专业硕士课程统计学专业硕士课程3.3 3.3 样本量在各层的分配样本量在各层的分配层居民户总数 权数 标准差常数分配与权数成比例与方差成比例与正比   120000.2 20100604940   230000.3 301009011090   350000.5 34100150141170    估计方差   3.863.093.113    统计学专业硕士课程统计学专业硕士课程3.3.1 3.3.1 比例分配比例分配 o按各层单元数占总体单元数的比例,也就是按各层的层按各层单元数占总体单元数的比例,也就是按各层的层权进行分配权进行分配. .o对于分层随机抽样,这时总体均值的估计是对于分层随机抽样,这时总体均值的估计是自加权自加权 统计学专业硕士课程统计学专业硕士课程总总体体中中的的任任一一个个单单元元,,不不管管它它在在哪哪一一个个层层,,都都以以同同样样的的概概率率入入样样,,因因此此按按比比例例分分配配的分层随机样本,估计量的形式特别简单。

      这种样本也称为自加权的样本的分层随机样本,估计量的形式特别简单这种样本也称为自加权的样本o总体比例的估计是总体比例的估计是 统计学专业硕士课程统计学专业硕士课程3.3.2 3.3.2 最优分配最优分配 o最优分配最优分配o在在分分层层随随机机抽抽样样中中,,如如何何将将样样本本量量分分配配到到各各层层,,使使得得总总费费用用给给定定的的条条件件下下,,估估计计量量的的方方差差达达到到最最小小,,或或给给定定估估计计量量方方差差的的条条件件下下,,使使总总费费用用最最小小,,能能满满足足这这个个条条件件的的样样本本量量分分配就是最优分配配就是最优分配 统计学专业硕士课程统计学专业硕士课程3.3.2 3.3.2 最优分配最优分配o对所有层成立时,对所有层成立时, 达到极小达到极小 常数常数 统计学专业硕士课程统计学专业硕士课程3.3.2 3.3.2 最优分配最优分配o简单线性费用函数,总费用简单线性费用函数,总费用由此得出下面的行为准则,如果某一层由此得出下面的行为准则,如果某一层o·单元数较多单元数较多o·内部差异较大内部差异较大o·费用比较省费用比较省则对这一层的样本量要多分配一些。

      则对这一层的样本量要多分配一些 统计学专业硕士课程统计学专业硕士课程3.3.3 Neyman(内曼)分配(内曼)分配o如果每层抽样的费用相同,最优分配可简化为如果每层抽样的费用相同,最优分配可简化为o这种分配称为这种分配称为NeymanNeyman分配这时,分配这时, 达到最小达到最小 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程o例例3.33.3 ((续续例例3.1)),,如如果果样样本本量量仍仍为为40,,则则按按比比例例分分配和配和Neyman分配时,各层的样本量应为多少?分配时,各层的样本量应为多少?o按比例分配时,各层的样本量为:按比例分配时,各层的样本量为: 统计学专业硕士课程统计学专业硕士课程o对于对于NeymanNeyman分配,分配, 统计学专业硕士课程统计学专业硕士课程某些层要求大于某些层要求大于100%100%抽样时的修正抽样时的修正 o 按最优分配时,有时按最优分配时,有时抽样比抽样比f f较大,某个层较大,某个层的的 又比较大,又比较大,则可能出现按最优分配计则可能出现按最优分配计算的这个层的样本量算的这个层的样本量 超过超过 的情况。

      的情况o实际工作中,如果第实际工作中,如果第 k k 层出现这种情况,层出现这种情况,最优分配是对这个层进行最优分配是对这个层进行100%100%的抽样,即取的抽样,即取 ,然后,将剩下的样本量,然后,将剩下的样本量 按最优分配按最优分配分到各层分到各层 统计学专业硕士课程统计学专业硕士课程3.4 3.4 分层抽样的样本量分层抽样的样本量o令令 当方差当方差 给定时给定时 统计学专业硕士课程统计学专业硕士课程3.4.1 3.4.1 样本量的确定样本量的确定o当按比例分配时,当按比例分配时, o实际工作中,实际工作中,n的计算可以分为两步,先计的计算可以分为两步,先计算:算:o然后进行修正:然后进行修正: 统计学专业硕士课程统计学专业硕士课程3.4.1 3.4.1 样本量的确定样本量的确定o当按当按NeymanNeyman分配时,分配时, 统计学专业硕士课程统计学专业硕士课程例例3.43.4 (续例(续例3.13.1),如果要求在),如果要求在95%95%置信度下,相对误差不超过置信度下,相对误差不超过10%10%,则按比例分配和,则按比例分配和NeymanNeyman分配时,总样本量分别为多少?分配时,总样本量分别为多少? =267=267 统计学专业硕士课程统计学专业硕士课程o当按当按NeymanNeyman分配时:分配时: 统计学专业硕士课程统计学专业硕士课程3.4.2 最优分配需要考虑费用时最优分配需要考虑费用时o给定给定V时时 统计学专业硕士课程统计学专业硕士课程给定C时 统计学专业硕士课程统计学专业硕士课程3.4.3 3.4.3 总体参数为总体参数为P P的情形的情形 o当方差给定时,如果当方差给定时,如果 都比较大,使得都比较大,使得 , ,则总样本量为则总样本量为 o按比例分配按比例分配 统计学专业硕士课程统计学专业硕士课程3.4.3 3.4.3 总体参数为总体参数为P P的情形的情形oNeyman分配分配oo计算样本量之前,需要对计算样本量之前,需要对计算样本量之前,需要对计算样本量之前,需要对 作预估计作预估计作预估计作预估计。

      统计学专业硕士课程统计学专业硕士课程3.4.3 3.4.3 总体参数为总体参数为P P的情形的情形o例例3.53.5 ((续续例例3.2)),,如如果果要要求求在在95%置置信信度度下下,,绝绝对对误误差差不不超超过过5%,,则则按按比比例例分分配配和和Neyman分分配配时,总样本量分别为多少?时,总样本量分别为多少?o按比例分配时:按比例分配时: 统计学专业硕士课程统计学专业硕士课程3.4.3 3.4.3 总体参数为总体参数为P P的情形的情形oNeyman分配时: 统计学专业硕士课程统计学专业硕士课程3.5 3.5 分层时的若干问题分层时的若干问题 3.5.1 抽样效果分析抽样效果分析o通常分层抽样比简单随机抽样的精度要高通常分层抽样比简单随机抽样的精度要高. .o对于固定样本量的情况,如果对于固定样本量的情况,如果 相对相对1 1可以忽略可以忽略n如果各如果各层均均值差异越大,差异越大,则采用按比例分配的方式采用按比例分配的方式较好好; ;n而当各而当各层的的标准差相差很大准差相差很大时,,则最最优分配更好分配更好n在在调查多个目多个目标变量量时,按比例分配的分,按比例分配的分层抽抽样可能更好些。

      可能更好些 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程3.5.2 层的划分层的划分o最优分层最优分层o按按调调查查目目标标量量进进行行分分层层当当然然是是最最好好的的,,但但我我们们在在调调查查之之前前并并不不知知道道的的值值,,因因此此,,分分层层只只能能是是通通过过与与高高度度相相关关的的辅助指标辅助指标来进行o累累积积平平方方根根法法: :戴戴伦纽斯斯(Dalenius)(Dalenius)与与霍霍捷捷斯斯(Hodges)(Hodges)提提出出的的,,它它的的做做法法是是将将分分层变量量((例例如如))分分布布的的累累积平平方根方根进行等分行等分来来获得最得最优分分层,, 统计学专业硕士课程统计学专业硕士课程3.5.2 层的划分层的划分o例例3.6 3.6 某地区电信部门在对利用上网的居民家庭某地区电信部门在对利用上网的居民家庭安装安装ADSL意愿进行调查时,以辖区内最近三个月有电意愿进行调查时,以辖区内最近三个月有上网支出的居民用户为总体(上网费为话上网支出的居民用户为总体(上网费为0.02元元/分钟),并准备按上网费支出(记为)进行分层,分钟),并准备按上网费支出(记为)进行分层,试确定各层的分点。

      试确定各层的分点 统计学专业硕士课程统计学专业硕士课程范围范围频数频数累计累计0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.00380~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582>45078.36662712.949不等距67813562034 统计学专业硕士课程统计学专业硕士课程3.5.2 层的划分层的划分o最终累计频数是最终累计频数是2712.949,如果取层数为,如果取层数为4,则应每,则应每隔隔2712.949/4=678.237分一层,因此分点应该分一层,因此分点应该使得累计使得累计 最接近最接近678.237、、1357.474、、2034.712,即较合理的分层是,即较合理的分层是<15、、[15,,30]、、 [30,,70] 以及以及>70。

      统计学专业硕士课程统计学专业硕士课程3.5.2 层的划分层的划分o层数的确定层数的确定o因因为为要要保保证证每每个个层层有有样样本本单单元元,,因因此此层层数数不不能能超超过过样样本本量量n,,如如果果要要给给出出估估计计量量方方差差的的无无偏偏估估计计,,则则每每层层至至少少两个样本单元,那么层数不能超过两个样本单元,那么层数不能超过n/2 统计学专业硕士课程统计学专业硕士课程层数的增加确实能提高估计精度 o以最简单的情形为例,是区间 上的均匀分布,则总体方差 ,样本量为 的简单随机抽样简单估计量的方差为 将总体分成大小相同的 层,并按比例分配样本量,即 则o 统计学专业硕士课程统计学专业硕士课程3.5.2 层的划分层的划分o除非 与 的相关系数 ,层数一般不超过6为宜 统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层 实际工作中实际工作中o没有层的抽样框没有层的抽样框o总体特别大来不及事先分层总体特别大来不及事先分层o几个变量都适合于分层,要进行事先的交叉分层比较困几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计,如难,并且我们并不需要交叉分层后每个子层的估计,如需要按年龄分层的结果,还需要按受教育程度分层的结需要按年龄分层的结果,还需要按受教育程度分层的结果,但并不需要这两个指标的交叉结果。

      果,但并不需要这两个指标的交叉结果 o出现离群值出现离群值o提高估计精度提高估计精度 统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层o使用事后分层技术时,还应注意事后层不宜使用事后分层技术时,还应注意事后层不宜太多o简单随机样本n,事后分层落到第h层的样简单随机样本n,事后分层落到第h层的样本量n本量nh hnh固定并都大于固定并都大于0的条件下的条件下n足够大时,为无足够大时,为无偏估计偏估计 统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层o第一项就是按比例分配分层抽样估计量的方差,第二项第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增表示因事后分层而非事先按比例分配分层引起的方差增加量o只要样本量足够大,事后分层的精度与按比例分配事先只要样本量足够大,事后分层的精度与按比例分配事先分层的精度相当分层的精度相当 统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层o如果样本是按某一个辅助指标分层后抽取的,只要这个如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格事先分层抽样是严格按比例分配按比例分配进行的,则这个样本是进行的,则这个样本是自加权自加权的,总体中每个单元被抽中的概率相同,我们可的,总体中每个单元被抽中的概率相同,我们可以将这个样本以将这个样本看作简单随机样本,分别对其它指标进行看作简单随机样本,分别对其它指标进行事后分层估计事后分层估计。

      统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层o例例3.7 3.7 某某高高校校欲欲了了解解在在校校学学生生用用于于课课外外进进修修((如如各各种种考考证证辅导班班、、外外语语辅导班班等等))的的开开支支,,在在全全校校8000名名学学生生中中抽抽出出了了一一个个200人人的的简简单单随随机机样样本本,,根根据据学学生生科科的的统统计计,,本本科科生生人人数数为为全全校校学学生生的的70%%,,调调查查最最近近一个学期课外进修支出(元)的结果如下:一个学期课外进修支出(元)的结果如下:o试估计全校学生用于课外进修的平均开支试估计全校学生用于课外进修的平均开支 统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层层层权样本量样本均值样本标准差本科生0.7120253.4231.00研究生0.380329.4367.00合计1200283.8294.57 统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层解:全校学生用于课外进修的平均开支为:解:全校学生用于课外进修的平均开支为:估计的方差为:估计的方差为: 估计的标准差为:估计的标准差为: 19.54(元)==381.83 统计学专业硕士课程统计学专业硕士课程3.5.3 事后分层事后分层 解:解: 如果采用简单估计如果采用简单估计,则估计的方差为:则估计的方差为: 估计的标准差为:估计的标准差为:20.57(元) 统计学专业硕士课程统计学专业硕士课程第第4讲讲 比估计和回归估计比估计和回归估计n第第04章章  比估计和回归估计比估计和回归估计 统计学专业硕士课程统计学专业硕士课程第第04章章 比估计和回归估计比估计和回归估计n比估计比估计n回归估计回归估计n分层比估计与分层回归估计分层比估计与分层回归估计 统计学专业硕士课程统计学专业硕士课程为什么要使用比率估计为什么要使用比率估计/回归估计回归估计o利用总体的辅助信息提高估计的精度利用总体的辅助信息提高估计的精度。

      n辅助指标的选择辅助指标的选择 ::辅助指标应该与调查指标有辅助指标应该与调查指标有较好的较好的正的相关关系正的相关关系 的抽样分布较的抽样分布较 的抽样分布变动性要的抽样分布变动性要小得多 n辅助指标的总体总量或辅助指标的总体总量或总体均值已知总体均值已知o比率估比率估计、回、回归估估计需要有需要有足够的样本量足够的样本量才能保才能保证估估计的有效的有效n有偏估有偏估计::当当样本量足本量足够大大时,估,估计的偏倚的偏倚趋于于0 0 统计学专业硕士课程统计学专业硕士课程o18021802年,拉普拉斯(年,拉普拉斯(LaplaceLaplace)想要估计法国的人口数目他获得了一)想要估计法国的人口数目他获得了一个遍布全国范围的个遍布全国范围的30commune30commune的样本,截至的样本,截至18021802年年9 9月月2323日总共有日总共有20376152037615居民在包括居民在包括18021802年年9 9月月2323日以前的三年中,日以前的三年中,215599215599个新生儿在个新生儿在3030个个communecommuneo拉普拉斯认为拉普拉斯认为3030个个communecommune的每年注册的新生儿数为的每年注册的新生儿数为215599/3=71866.33215599/3=71866.33,把,把20376152037615按照按照71866.3371866.33来分,拉普拉斯估计每年每来分,拉普拉斯估计每年每28.3528.35人里有一个人里有一个注册新生儿。

      注册新生儿o通过用通过用28.3528.35乘以全法国年度新生儿总数来估计得出法国人口总数乘以全法国年度新生儿总数来估计得出法国人口总数o调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度能被用来提高我们的估计精度利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度 统计学专业硕士课程统计学专业硕士课程 例例: :法国的法国的LaplaceLaplace受政府委托进行法国人口的估计与推算受政府委托进行法国人口的估计与推算 推算方法如下:推算方法如下:利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度 统计学专业硕士课程统计学专业硕士课程o简单地想要估计一个比率简单地想要估计一个比率 :假定总体由面积假定总体由面积不同农业用地构成,不同农业用地构成,yi =i地谷物的产量,地谷物的产量,xi ::i地的面积,地的面积,B=每亩谷物的平均产量每亩谷物的平均产量利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度 统计学专业硕士课程统计学专业硕士课程例:有一批甘蔗欲估计其含糖总量。

      例:有一批甘蔗欲估计其含糖总量 若按照若按照简单随机抽样方法简单随机抽样方法,从中随机抽取了,从中随机抽取了n n根样本根样本甘蔗,若用样本均值甘蔗,若用样本均值 来估计总体均值来估计总体均值 ,便,便得到每根甘蔗的平均含糖量,要得到总含糖量,还要乘以得到每根甘蔗的平均含糖量,要得到总含糖量,还要乘以总根数,而当这批甘蔗量很大时,总根数不容易数清楚总根数,而当这批甘蔗量很大时,总根数不容易数清楚辅助变量法:辅助变量法:每根甘蔗的含糖量与重量之间有密切关系,呈高度相关,在每根甘蔗的含糖量与重量之间有密切关系,呈高度相关,在测每根甘蔗含糖量的同时,也测其重量,得到样本甘蔗的含糖量和重量之测每根甘蔗含糖量的同时,也测其重量,得到样本甘蔗的含糖量和重量之间的一个比率间的一个比率R R,含义是单位重量的含糖量,乘以这批,含义是单位重量的含糖量,乘以这批甘蔗的总重量甘蔗的总重量即得即得其总的含糖量,而这批甘蔗的总重量比总根数容易获得其总的含糖量,而这批甘蔗的总重量比总根数容易获得利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度 统计学专业硕士课程统计学专业硕士课程o想要估计一个总体总数,想要估计一个总体总数,但但总体大小总体大小N N是未知的是未知的。

      但是我们知道但是我们知道, ,于是可以通过来估计于是可以通过来估计N,N,由此我们可以使用不同于总数由此我们可以使用不同于总数N N的方法而是的方法而是采用辅助变量来进行测量采用辅助变量来进行测量o要估计渔网中长度长于要估计渔网中长度长于12cm12cm的鱼的总数,抽取一个鱼的随机样本,的鱼的总数,抽取一个鱼的随机样本,估计长度长于估计长度长于12cm12cm的鱼所占的比例,用鱼的总数的鱼所占的比例,用鱼的总数N N乘以这个比例即乘以这个比例即可得到,但如果可得到,但如果N N未知不能使用未知不能使用o能称量渔网中鱼的总重量鱼的长度与其重量相关能称量渔网中鱼的总重量鱼的长度与其重量相关 统计学专业硕士课程统计学专业硕士课程o调整来自样本的估计量以便它们反映人口统计学的总量调整来自样本的估计量以便它们反映人口统计学的总量 o在一所具有在一所具有4000名学生的大学提取一个名学生的大学提取一个400个学生的个学生的简单随机样本,此样本可能包含简单随机样本,此样本可能包含240个女性,个女性,160个个男性,且其中被抽中的男性,且其中被抽中的84名女性和名女性和40名男性计划以教名男性计划以教学为毕业后的职业。

      学为毕业后的职业 统计学专业硕士课程统计学专业硕士课程o 比率估计量被用来比率估计量被用来对无回答进行调整对无回答进行调整 o设抽取一个行业的样本:令设抽取一个行业的样本:令yi 为为i行业花费在健康保行业花费在健康保险上的金额,险上的金额,xi 为为i行业的雇员数假定对总体中的每行业的雇员数假定对总体中的每个行业个行业xi 均已知我们希望一个行业花费在健康保险均已知我们希望一个行业花费在健康保险上的金额与雇员数相关某些行业在调查中可能涉及上的金额与雇员数相关某些行业在调查中可能涉及不到估计保险费用的总花销时调整无回答的方法不到估计保险费用的总花销时调整无回答的方法 之一是用总体数之一是用总体数 X 乘以比率乘以比率 统计学专业硕士课程统计学专业硕士课程4.1 比估计(比估计(Ratio Estimator)Ratio Estimator)辅助指标辅助指标辅助指标辅助指标x x x x,其总体均值(总量)已知,其总体均值(总量)已知,其总体均值(总量)已知,其总体均值(总量)已知4.1.1 4.1.1 4.1.1 4.1.1 比估计公式比估计公式比估计公式比估计公式在在在在srssrs条件下条件下条件下条件下 统计学专业硕士课程统计学专业硕士课程【【例例1 1】】对以下假设总体(对以下假设总体(N=6N=6),用简单随机抽样抽取的样本,比较简单随机),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。

      抽样比估计及简单估计的性质 123456平均值平均值01358104.51311182946184.1 比估计(比估计(Ratio Estimator)Ratio Estimator) 统计学专业硕士课程统计学专业硕士课程样本样本简单估计简单估计比估计比估计11,,221821,,361831,,49.517.141,,51516.87551,,623.521.1562,,3715.7572,,410.515.7582,,5161692,,624.520103,,414.516.3113,,52016.36123,,628.519.73134,,523.516.27144,,63219.2155,,637.518.75 统计学专业硕士课程统计学专业硕士课程o简单估计是无偏的,而比估计是有偏的简单估计是无偏的,而比估计是有偏的o简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多误差也比简单估计的小得多o因此对这个总体,比估计比简单估计的效率高因此对这个总体,比估计比简单估计的效率高 统计学专业硕士课程统计学专业硕士课程4.1.2 比率估计的性质比率估计的性质偏倚量会小,偏倚量会小,偏倚量会小,偏倚量会小,如果:如果:如果:如果:• •样本量样本量样本量样本量n n n n 很大很大很大很大• •抽样比抽样比抽样比抽样比n/Nn/Nn/Nn/N很大很大很大很大• •    很大很大很大很大• •SxSxSxSx很小很小很小很小• •相关系数相关系数相关系数相关系数R R R R接近于接近于接近于接近于1 1 1 1 统计学专业硕士课程统计学专业硕士课程比率估计的近似方差比率估计的近似方差 统计学专业硕士课程统计学专业硕士课程 数据透视图可以看作是数据透视表和图表的结合,它以图形的形式表示数据透视图可以看作是数据透视表和图表的结合,它以图形的形式表示数据透视表中的数据。

      在数据透视表中的数据在Excel 2007Excel 2007中,可以根据数据透视表快速创建数据透中,可以根据数据透视表快速创建数据透视图,更加直观地显示数据透视表中的数据,方便用户对其进行分析视图,更加直观地显示数据透视表中的数据,方便用户对其进行分析4.1.3  比率估计的效率比率估计的效率  统计学专业硕士课程统计学专业硕士课程o与简单估计的比较与简单估计的比较简单估计量无偏,而比率估计量渐近无偏简单估计量无偏,而比率估计量渐近无偏因此这里只比较当因此这里只比较当n比较大n比较大n比较大n比较大的情形比率估比率估计量量优于于简单估估计量的条件是:量的条件是: 正高度正高度相关相关4.1.3  比率估计的效率比率估计的效率  统计学专业硕士课程统计学专业硕士课程4.1.3 比率估计的效率比率估计的效率 比率估计成为最优线性无偏估计的条件比率估计成为最优线性无偏估计的条件 (1).   与  的关系是过原点的直线与  的关系是过原点的直线 (2).   对这条直线的方差与  成比例对这条直线的方差与  成比例则比率估计是最优线性无偏估计则比率估计是最优线性无偏估计(BLUE)(BLUE)。

      统计学专业硕士课程统计学专业硕士课程o【【例例2 2】】某县在对船舶调查月完成的货运量进行调查时,对运管部门某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶登记的船舶台帐进行整理后获得注册船舶28602860艘,载重吨位艘,载重吨位154626154626吨,吨,从从28602860艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量调查月完成的货运量 17801006217012021500507182315031005508145080437610915820560020101370504.1.3 比率估计的效率比率估计的效率 统计学专业硕士课程统计学专业硕士课程o该县船舶在调查月完成货运量的比率估计为该县船舶在调查月完成货运量的比率估计为 o用简单估计对货运量进行估计用简单估计对货运量进行估计 实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。

      实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚  统计学专业硕士课程统计学专业硕士课程4.1.4 分层随机抽样下的比率估计分层随机抽样下的比率估计 o分别比率估计量分别比率估计量 separate ratio estimator 如果各层的样本量不小的话,则可以采用各层分别进行比率估计,如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量o联合比估计联合比估计combined ratio estimator 若若 某些层的样本量比较小时,可以采用联合比估计对两个指标先某些层的样本量比较小时,可以采用联合比估计对两个指标先加权求总体均值加权求总体均值 的分层估计,然后用它们构造比估计,所得估计量的分层估计,然后用它们构造比估计,所得估计量称为联合比估计称为联合比估计 统计学专业硕士课程统计学专业硕士课程o分别比率估计量分别比率估计量 separate ratio estimatorseparate ratio estimator 如果各层的样本量不小的话,则可以采用各层分别进行比率估计,如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。

      计量4.1.4 分层随机抽样下的比率估计分层随机抽样下的比率估计  统计学专业硕士课程统计学专业硕士课程n n分别比率估计量要求每一层的样本量都比较大,如果达分别比率估计量要求每一层的样本量都比较大,如果达分别比率估计量要求每一层的样本量都比较大,如果达分别比率估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏倚可能比较大,这时使用联合比不到这个要求,则它的偏倚可能比较大,这时使用联合比不到这个要求,则它的偏倚可能比较大,这时使用联合比不到这个要求,则它的偏倚可能比较大,这时使用联合比率估计量率估计量率估计量率估计量 combined ratio estimator combined ratio estimator combined ratio estimator combined ratio estimator 4.1.4 分层随机抽样下的比率估计分层随机抽样下的比率估计  统计学专业硕士课程统计学专业硕士课程4.1.4 分层随机抽样下的比率估计分层随机抽样下的比率估计 o联合比估计联合比估计combined ratio estimator 若若 某些层的样本量比较小时,可以采用联合比估计。

      对两个指标先某些层的样本量比较小时,可以采用联合比估计对两个指标先加权求总体均值加权求总体均值 的分层估计,然后用它们构造比估计,所得估计量的分层估计,然后用它们构造比估计,所得估计量称为联合比估计称为联合比估计 统计学专业硕士课程统计学专业硕士课程方差的比较方差的比较如如果果每每一一层层样样本本量量都都比比较较大大,,各各层层R相相差差较较大大,,则则分分别别比比率率估估计计量量的的方方差小于联合比率估计量的方差差小于联合比率估计量的方差但但当当每每层层的的样样本本量量不不太太大大时时,,还还是是采采用用联联合合比比率率估估计计量量更更可可靠靠些些,,因因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大为这时分别比率估计量的偏倚很大,从而使总的均方误差增大实际应用中每层的样本量都较大,可用分别比率估计实际应用中每层的样本量都较大,可用分别比率估计 统计学专业硕士课程统计学专业硕士课程例例:某县有:某县有300 300 个村,小麦播种面积为个村,小麦播种面积为2343423434亩全村按地势分为平原、丘陵和山亩全村按地势分为平原、丘陵和山区三种类型,各按区三种类型,各按10%10%等比例抽样,调查亩产量,整理结果下表所示等比例抽样,调查亩产量,整理结果下表所示层NhWhnhs2yhs2xhsxyh平原平原990.3310583561568180915031643丘陵丘陵1380.4614445427439199019871948山区山区630.216290274271198918921936o相邻两年产量之间存在较高的正相关性,因此对今年平均亩产进行估计时以相邻两年产量之间存在较高的正相关性,因此对今年平均亩产进行估计时以去年产量为辅助变量构造分层比率估计是适宜的。

      去年产量为辅助变量构造分层比率估计是适宜的 统计学专业硕士课程统计学专业硕士课程o分别比率估计分别比率估计 统计学专业硕士课程统计学专业硕士课程o联合比率估计联合比率估计 统计学专业硕士课程统计学专业硕士课程4.2.1回归估计回归估计o回归估计:回归估计: 是通过对调查变量是通过对调查变量Y Y以及与该变量有关的辅助变量以及与该变量有关的辅助变量X X建立回归方程,然建立回归方程,然后运用回归方程对总体指标进行推断、估计的方法后运用回归方程对总体指标进行推断、估计的方法 最早使用回归估计的是沃森(最早使用回归估计的是沃森(WatsonWatson)),1937 ,1937 年他利用植物叶片的年他利用植物叶片的重量作为辅助变量,通过回归估计得到了主要变量植物叶片面积的总重量作为辅助变量,通过回归估计得到了主要变量植物叶片面积的总值估计 条件:条件: 1 1、植物叶片面积与植物叶片重量之间存在着稳定的线性关系植物叶片面积与植物叶片重量之间存在着稳定的线性关系 2 2、叶片重量比面积更易测得。

      叶片重量比面积更易测得4.2  回归估计回归估计 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程因为因为而而的样本均值的样本均值后者的总体均值为后者的总体均值为故(故(2)式成立)式成立其样本估计量:其样本估计量: 统计学专业硕士课程统计学专业硕士课程总体回归系总体回归系数数C:: 的最佳值是的最佳值是B:: 是是 的无偏估计的无偏估计A:: 是是 的无偏估计的无偏估计性质性质 统计学专业硕士课程统计学专业硕士课程大样本条大样本条件下件下残差方差残差方差Se22. 由样本估计由样本估计此时此时 统计学专业硕士课程统计学专业硕士课程o当n很大时,有当n很大时,有由于|由于|ρ||≤1,故,故 (ρ=0时,取等号=0时,取等号) 回归估计量、比估计量与简单估计量的比较回归估计量、比估计量与简单估计量的比较回归估计总是优于简单估计量,除非回归估计总是优于简单估计量,除非ρ=0时=0时 统计学专业硕士课程统计学专业硕士课程o 只有当只有当B =R时,式子相等,时,式子相等, 回归估计为比估计,直线过原点回归估计为比估计,直线过原点o可见可见,在大样本时,回归估计量的精度要好于简单估计量和比估计量。

      在大样本时,回归估计量的精度要好于简单估计量和比估计量 回归估计量、比估计量与简单估计量的比较回归估计量、比估计量与简单估计量的比较 统计学专业硕士课程统计学专业硕士课程第第4讲讲 整群抽样整群抽样l l第第第第0404章章章章     整群抽样整群抽样整群抽样整群抽样 统计学专业硕士课程统计学专业硕士课程n整群抽样整群抽样n等概率整群抽样等概率整群抽样n等概率两阶段抽样等概率两阶段抽样第第04章章 整群抽样整群抽样 统计学专业硕士课程统计学专业硕士课程4.1 整群抽样整群抽样4.1.1整群抽样及特点整群抽样及特点n什么是整群抽样什么是整群抽样 将总体划分为若干群,以群为抽样单元,对群中的所有单位进行调查将总体划分为若干群,以群为抽样单元,对群中的所有单位进行调查n整群抽样的特点整群抽样的特点与多阶段抽样,多阶段整群与多阶段抽样,多阶段整群抽样的关系抽样的关系n抽样框编制得以简化抽样框编制得以简化n实施调查便利,实施调查便利,n节省费用估计效率较低节省费用估计效率较低n对某些特殊结构的总体却有好的估计效果对某些特殊结构的总体却有好的估计效果 统计学专业硕士课程统计学专业硕士课程4.1.2 群的划分群的划分大致可分为两类大致可分为两类n根据行政或地域形成的群体调查人员根据行政或地域形成的群体调查人员n人为确定的人为确定的分群的原则可用方差分析原理说明:分群的原则可用方差分析原理说明:群内差异群内差异群内差异群内差异尽可能尽可能尽可能尽可能大大大大,,,,群间差异群间差异群间差异群间差异尽可能尽可能尽可能尽可能小小小小4.1 整群抽样整群抽样 统计学专业硕士课程统计学专业硕士课程4.1.3 群的规模群的规模v无法控制规模的群无法控制规模的群v可控制规模的群,群规模不宜过大可控制规模的群,群规模不宜过大有群规模相等与不相等两种情况有群规模相等与不相等两种情况4.1 整群抽样整群抽样 统计学专业硕士课程统计学专业硕士课程4.2.1群规模大小相等时的估计群规模大小相等时的估计o N: 总体群数总体群数o n: 样本群数样本群数o Yij: 总体第总体第i群的第群的第j单位数值单位数值o yij: 样本中第样本中第i群的第群的第j单位数值单位数值o Mi: 第第i群规模(单位个数)群规模(单位个数)o 本节中,本节中,M1== M2 ==……==MN ==M4.2 等概率整群抽样等概率整群抽样 统计学专业硕士课程统计学专业硕士课程Mt: 总体单位总数总体单位总数Yi: 总体中第总体中第i群的总量群的总量yi: 样本中第样本中第i群的总量群的总量4.2 等概率整群抽样等概率整群抽样 统计学专业硕士课程统计学专业硕士课程 : 总体中第总体中第i群个体均值群个体均值 : 样本中第样本中第i群个体均值群个体均值 : 总体的群均值总体的群均值 : 样本的群均值样本的群均值4.2 等概率整群抽样等概率整群抽样 统计学专业硕士课程统计学专业硕士课程o : 总体中的个体均值总体中的个体均值 (各群(各群 )) o : 样本中的个体均值样本中的个体均值 4.2 等概率整群抽样等概率整群抽样 统计学专业硕士课程统计学专业硕士课程o : 总体方差总体方差o : 总体群间方差总体群间方差o : 总体群内方差总体群内方差4.2 等概率整群抽样等概率整群抽样 统计学专业硕士课程统计学专业硕士课程o : 样本方差样本方差o : 样本群间方差样本群间方差o : 样本群内方差样本群内方差 4.2 等概率整群抽样等概率整群抽样 统计学专业硕士课程统计学专业硕士课程4.2.1 群规模大小相等时的估计群规模大小相等时的估计o均值估计量均值估计量SRS,群规模相同,均为,群规模相同,均为M,则,则 的估计为:的估计为: 比较SRS抽取nM个样本4.2 等概率整群抽样等概率整群抽样 统计学专业硕士课程统计学专业硕士课程估计量估计量 的性质的性质 性质性质1:: 是是 的无偏估计,即的无偏估计,即因为是按简单随机方法抽取群,所以样本群均值因为是按简单随机方法抽取群,所以样本群均值 是总体群均值是总体群均值 的无偏估计,因而的无偏估计,因而4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程性质性质2 的方差为的方差为 4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程已知已知 ,又,又 故故 4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程o性质性质3 的样本估计为的样本估计为 因为因为 是的是的 无偏估计,所以无偏估计,所以 是的是的 无偏无偏估计估计 4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程o总体总值总体总值o据此,可直接推出其估计量及相应的方差据此,可直接推出其估计量及相应的方差 4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程4.2.1 群规模大小相等时的估计群规模大小相等时的估计o整群抽样效率分析整群抽样效率分析群内相关系数群内相关系数 表达式为:表达式为:上式中的分子为:上式中的分子为:个数个数 统计学专业硕士课程统计学专业硕士课程上式中的分母为:上式中的分母为:故故 又可写为:又可写为:4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程事实上,事实上, 的方差可用群内相关系数近似表示的方差可用群内相关系数近似表示4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程o简单随机抽样的方差公式为简单随机抽样的方差公式为o由此可计算出等群抽样的设计效应为由此可计算出等群抽样的设计效应为4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程整群抽样的估计效率,与群内相关系数整群抽样的估计效率,与群内相关系数 的关系密切的关系密切当当 ==1时,时,deff==M当当 ==0时,时,deff==1当当 为负时,为负时,deff<1 的取值范围是的取值范围是群内方差为0群内方差为0群内方差与总体方群内方差与总体方差相等差相等群间方差为0群间方差为04.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程群内相关系数也可由样本统计量群内相关系数也可由样本统计量 估计估计4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程o当当N很大,而很大,而M相对于相对于NM很小时,很小时, 统计学专业硕士课程统计学专业硕士课程i1 240,187,162,185,206,197,154,173 188.00 27.192 210,192,184,148,186,175,169,180 180.50 17.983 149,168,145,130,170,144,125,167 149.75 17.324 202,187,166,232,205,263,198,210 207.88 29.175 210,285,308,198,264,275,183,231 244.25 45.206 394,256,192,280,267,334,216,289 278.50 63.877 192,121,172,165,152,224,195,241 182.75 38.778 230,205,187,176,212,253,189,240 211.50 27.489 274,208,195,307,264,258,210,309 253.13 44.5210 232,187,150,182,175,212,169,222 191.13 28.2911 342,294,267,309,258,198,244,286 274.75 43.7012 228,294,182,312,267,254,232,298 258.38 43.52 统计学专业硕士课程统计学专业硕士课程o解:解:已知已知N==510,,n==12,,M==8,,f==n/N=0.0235,故,故4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程于是于是 的置信度为的置信度为95%的置信区间为%的置信区间为也即也即4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程例例2 由例由例1数据,计算群内相关系数与设计效应数据,计算群内相关系数与设计效应解:由前已算出样本群间方差而群内方差为解:由前已算出样本群间方差而群内方差为4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程4.2.1 群规模大小相等时的估计群规模大小相等时的估计 统计学专业硕士课程统计学专业硕士课程4.2.1 群规模大小相等时的估计群规模大小相等时的估计o若若 令为简单随机抽样的样本量令为简单随机抽样的样本量则则即可达到整群抽样即可达到整群抽样96户样本量相同的估计精度户样本量相同的估计精度 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计当群当群Mi规模不等时,有不同的抽取方法和估计方法规模不等时,有不同的抽取方法和估计方法o等概抽样,等概抽样,简单估计(有偏估计)简单估计(有偏估计) 对总体均值对总体均值 的估计为的估计为可以看出,此公式与上节(可以看出,此公式与上节(1)式同)式同 的方差估计为的方差估计为 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计o此法特点此法特点o估计量估计量 是是有偏有偏的的o此法特点操作简便,易于掌握和使用此法特点操作简便,易于掌握和使用o此法特点适用条件,群之间的规模差异不大时此法特点适用条件,群之间的规模差异不大时 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计o案例分析案例分析 背景:某县有背景:某县有33个乡,个乡,726个村,该年度某种作物总种植面积个村,该年度某种作物总种植面积30525亩,现采用等概抽样随机抽出亩,现采用等概抽样随机抽出10个乡,要求估计个乡,要求估计全县总产量,计算抽样误差。

      全县总产量,计算抽样误差 调查资料如下:调查资料如下: 统计学专业硕士课程统计学专业硕士课程样本乡样本乡编号编号村庄数村庄数 Mi作物总产量(乡)作物总产量(乡) yi(万公斤)(万公斤)种植面积(乡)种植面积(乡) xi(亩)(亩)123456789101518261420282119311722.022.830.221.725.331.226.020.533.823.68007801000700880110085080012008301.46671.26671.16151.551.2651.11431.23811.0791.09031.3882合计 209 257.1 8940 —— 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计o分别采用几种方法估计分别采用几种方法估计n等概抽样,简单估计等概抽样,简单估计 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计评价:方法虽简单,却是评价:方法虽简单,却是有偏有偏估计估计 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计o等概抽样,等概抽样,加权估计加权估计(无偏估计无偏估计)思路:以群规模思路:以群规模Mi为权数,得到群总和为权数,得到群总和yi,, 进而求得群总和均值进而求得群总和均值 ,再除以群,再除以群 平均规模平均规模 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计估计公式为:估计公式为:若若 未知,可用样本群平均规模代替未知,可用样本群平均规模代替 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计总体总量总体总量Y的估计为的估计为总量估计的另一公式为总量估计的另一公式为 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计估计量的方差为估计量的方差为它的无偏估计为它的无偏估计为均值估计均值估计 的方差为的方差为 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计n等概抽样,等概抽样,加权估计加权估计 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计评价:虽是评价:虽是无偏无偏估计量,但方差估计没有改观估计量,但方差估计没有改观 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计o等概抽样,等概抽样,比率估计(有偏估计)比率估计(有偏估计)总体均值估计为总体均值估计为这里辅助变量不是这里辅助变量不是Xi而是群规模而是群规模Mi总体总量估计为总体总量估计为 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计估计量的方差分别是估计量的方差分别是 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计 与与 的样本估计分别是的样本估计分别是 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计n等概抽样,等概抽样,比率估计比率估计评价:有偏,评价:有偏,n较大时比较理想较大时比较理想 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计n其它辅助变量的其它辅助变量的比率估计比率估计已知:种植面积已知:种植面积X==30525(亩)(亩) 用种植面积为辅助变量用种植面积为辅助变量评价:和评价:和 相比,相比, 更小,因而有更小,因而有 更好更好的估计效果。

      选择关系密切的辅助变量的估计效果选择关系密切的辅助变量 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计o与群规模成比例不等概率抽样估计与群规模成比例不等概率抽样估计按与按与Mi成比例的成比例的PPS抽样抽样每次第每次第i群入选概率为群入选概率为根据汉森-赫维茨估计量根据汉森-赫维茨估计量 和和 是是 和和 的的 无偏估计无偏估计 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计 估计量的方差为估计量的方差为 统计学专业硕士课程统计学专业硕士课程例例4.2 有下列资料有下列资料1234567812004502100860284019103903200129501-12001201-16501651-37503751-46104611-74507451-93609361-97509751-12950分厂编号分厂编号 职工人数职工人数 Mi 累积区间累积区间4.2.2 群规模不等时的估计群规模不等时的估计 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计n=3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。

      调查结果如下: 统计学专业硕士课程统计学专业硕士课程4.2.2 群规模不等时的估计群规模不等时的估计故置信区间为故置信区间为估计总量估计总量 统计学专业硕士课程统计学专业硕士课程4.2.3 总体比例的估计总体比例的估计n群规模相等时的估计群规模相等时的估计令令 ai 为第为第i群中具有某特征的单位数群中具有某特征的单位数 为第为第i群中的比例群中的比例srs方法抽取方法抽取n群,对总体比例群,对总体比例P进行估计进行估计 统计学专业硕士课程统计学专业硕士课程4.2.3 总体比例的估计总体比例的估计M为每群中的单位数为每群中的单位数M1==M2==…=M 规模相等规模相等 为为 的无偏估计的无偏估计 统计学专业硕士课程统计学专业硕士课程4.2.3 总体比例的估计总体比例的估计o群规模不等时的估计群规模不等时的估计Mi不等,不等,srs方法抽取群方法抽取群 为比估计形式为比估计形式式中式中 为群平均规模为群平均规模 统计学专业硕士课程统计学专业硕士课程4.2.3 总体比例的估计总体比例的估计例例4.3题:题: 统计学专业硕士课程统计学专业硕士课程群群(i) 居民数(Mi) 女性人数(ai) 群群 (i) 居民数(Mi) 女性人数(ai) 123456789101112138124566758326547133442321321415161718192021222324251093655468738541423133403合计合计 151 72 统计学专业硕士课程统计学专业硕士课程 以以95%的置信区间估计该小区女性的置信区间,%的置信区间估计该小区女性的置信区间, 并同简单随机抽样方法进行比较。

      并同简单随机抽样方法进行比较这是群规模不等的比例估计这是群规模不等的比例估计4.2.3 总体比例的估计总体比例的估计 统计学专业硕士课程统计学专业硕士课程 置信区间置信区间 4.2.3 总体比例的估计总体比例的估计 统计学专业硕士课程统计学专业硕士课程若采用简单随机抽样,抽若采用简单随机抽样,抽151人,其中女性人,其中女性72人,估计为人,估计为设计效应:4.2.3 总体比例的估计总体比例的估计 统计学专业硕士课程统计学专业硕士课程还可进一步计算群内相关系数还可进一步计算群内相关系数4.2.3 总体比例的估计总体比例的估计 统计学专业硕士课程统计学专业硕士课程第第5讲讲 不等概抽样不等概抽样l l第第第第0505章章章章     不等概抽样不等概抽样不等概抽样不等概抽样 统计学专业硕士课程统计学专业硕士课程n不等概抽样概述不等概抽样概述n放回不等概抽样放回不等概抽样n不放回不等概抽样不放回不等概抽样第第05章章 不等概抽样不等概抽样 统计学专业硕士课程统计学专业硕士课程o5.1.1 不等概率抽样的必要性不等概率抽样的必要性o在简单随机抽样中,总体在简单随机抽样中,总体( (或层或层) )中的每个单元入样的概率都相等。

      中的每个单元入样的概率都相等 等概率抽样的特点是总体中的每个单元在该总体中的地位等概率抽样的特点是总体中的每个单元在该总体中的地位( (或重要或重要性性) )相同,在抽样时对每个单元采取的是相同,在抽样时对每个单元采取的是““不偏不倚不偏不倚””的态度的态度 等概率抽样不仅实施简单,而且相应的数据处理公式也简单但是等概率抽样不仅实施简单,而且相应的数据处理公式也简单但是在许多实际问题中,在许多实际问题中, 我们还需要使用我们还需要使用不等概率抽样不等概率抽样( (sampling with unequal sampling with unequal probabilitiesprobabilities) )5.1 不等概抽样概述不等概抽样概述 统计学专业硕士课程统计学专业硕士课程o抽样单元在总体中所占的地位不一致:抽样单元在总体中所占的地位不一致: 例如:要反映某小麦品种的优良情况,以村作为抽样单位,但各村的例如:要反映某小麦品种的优良情况,以村作为抽样单位,但各村的种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响体的结果有很大影响 ,所以让,所以让““大单元大单元””被抽到的概率大,被抽到的概率大,““小单小单元元””被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误差。

      差5.1 不等概抽样概述不等概抽样概述 统计学专业硕士课程统计学专业硕士课程5.1 不等概抽样概述不等概抽样概述o例例 O’Brien et al.(1995) 对对Philadelphia地区的病人进行地区的病人进行抽样,目的是了解病人对于医疗服务的偏好目标总体是这一区抽样,目的是了解病人对于医疗服务的偏好目标总体是这一区域的所有注册的医院的病人域的所有注册的医院的病人 总共有总共有294家医院,家医院,27652个床个床位(抽样以前,研究人员只知道床位数,不知道病人数)位(抽样以前,研究人员只知道床位数,不知道病人数) 统计学专业硕士课程统计学专业硕士课程o等概率的抽取样本医院的缺点?等概率的抽取样本医院的缺点? o首先,可能医院中愿意接受首先,可能医院中愿意接受CPRCPR治疗的病人数量会正比与医院床位的治疗的病人数量会正比与医院床位的数量,采用等概简单估计量可能会有大的方差数量,采用等概简单估计量可能会有大的方差o其次,自加权的等概率样本可能难于管理可能仅仅为了调查一两个其次,自加权的等概率样本可能难于管理可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。

      困难的o第三,调查成本在调查开始的时候是未知的第三,调查成本在调查开始的时候是未知的--------一个一个4040个医院的样本个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本可能包括了主要的大的医院,这会导致比预计更大的成本5.1 不等概抽样概述不等概抽样概述 统计学专业硕士课程统计学专业硕士课程5.1 不等概抽样概述不等概抽样概述o其他办法?其他办法?o调查人员还可以采用与医院病床数量成比例的方法抽取调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,个医院,然后从每个样本医院中抽取然后从每个样本医院中抽取30个简单随机样本床位个简单随机样本床位o如果病人数等于床位数,并且医院实际的床位数和抽样时依据的如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?病床数据一致,每个病人是否有相同的入样概率?o而且成本在调查实施前是已知的,因为每个访员在每个医院访问而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的而且,总体总量的方差可能更小的病人数量是相同的而且,总体总量的方差可能更小 统计学专业硕士课程统计学专业硕士课程o分层抽样:抽样选择概率小的单位会有较高的权数。

      分层抽样:抽样选择概率小的单位会有较高的权数o采用不等概率抽样来减少抽样方差而不采用清晰的分层采用不采用不等概率抽样来减少抽样方差而不采用清晰的分层采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补进行弥补o抽样的关键是每个样本的选择概率是已知的抽样的关键是每个样本的选择概率是已知的 5.1 不等概抽样不等概抽样 统计学专业硕士课程统计学专业硕士课程o不等概率抽样的主要不等概率抽样的主要优点优点是由于使用了辅助信息,提高了抽样策略是由于使用了辅助信息,提高了抽样策略的统计效率,的统计效率, 能显著地减少抽样误差能显著地减少抽样误差o 5.1.2 不等概抽样的特点不等概抽样的特点凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息例如:每个单元的例如:每个单元的““大小大小””度量度量MiMi注意:比估计和回归估计是估计方法注意:比估计和回归估计是估计方法用到了辅助信息,本章是抽样方法用到辅助信息用到了辅助信息,本章是抽样方法用到辅助信息. .5.1 不等概抽样不等概抽样 统计学专业硕士课程统计学专业硕士课程o抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要存储总体中每一个单元的度量大小;需要存储总体中每一个单元的度量大小;o并非在任何情况下都能使用,因为并非在任何情况下都能使用,因为 并不是每一个总体都有稳定且并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的与主要调查变量相关的有关大小或规模的 度量;度量;o抽样及估计(特别对不放回抽样)相当复杂;抽样及估计(特别对不放回抽样)相当复杂;o当单元大小度量不准确或不稳定时不适用。

      当单元大小度量不准确或不稳定时不适用5.1 不等概抽样不等概抽样 统计学专业硕士课程统计学专业硕士课程2675.1.3 不等概率抽样的分类不等概率抽样的分类o放回不等概抽样:放回不等概抽样:按照总体单元的规模大小来确定在每次抽中的概率按照总体单元的规模大小来确定在每次抽中的概率抽取后放回总体,再进行下一次抽样,每次抽样都是独立的这种抽抽取后放回总体,再进行下一次抽样,每次抽样都是独立的这种抽样称为放回不等概抽样样称为放回不等概抽样( (sampling with sampling with p probabilities robabilities p proportional to roportional to s sizesizes,简称,简称PPSPPS抽样抽样) ) o不放回的不等概抽样不放回的不等概抽样::每次在总体中对每个单元按入样概率进行抽样,每次在总体中对每个单元按入样概率进行抽样,抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单元再以什么概率被抽取就较复杂元再以什么概率被抽取就较复杂 这种抽样不是独立的,无论是抽样方法还是方差估计,都要比放回抽这种抽样不是独立的,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。

      不放回抽样通常称为样繁复得多不放回抽样通常称为πPS抽样抽样5.1 不等概抽样不等概抽样 统计学专业硕士课程统计学专业硕士课程5.1 不等概抽样不等概抽样o放回不等概抽样放回不等概抽样n代码法代码法n拉系里法拉系里法o不放回不等概抽样不放回不等概抽样n逐个抽取逐个抽取n重抽法重抽法n全样本抽取;样本量随机全样本抽取;样本量随机n系统抽样法系统抽样法 统计学专业硕士课程统计学专业硕士课程5.2 放回不等概抽样放回不等概抽样PPSoPPSPPS抽样:抽样:有放回的不等概抽样有放回的不等概抽样 统计学专业硕士课程统计学专业硕士课程累计累计代码代码10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738==73.8738  o代码法代码法例例5.1  设某个总体有设某个总体有10个单元,相应的单元大小及其代码数如下表,在其中产生个单元,相应的单元大小及其代码数如下表,在其中产生一个一个n=3的样本。

      的样本 假设在假设在[1,738][1,738] 中中等概等概产生第一个随机数为产生第一个随机数为354354,再在,再在[1,738][1,738]中产生第二个中产生第二个随机数为随机数为553553,最后在,最后在[1,738][1,738]中产生第三个随机数为中产生第三个随机数为493493,则它们所对应的第,则它们所对应的第5 5,,7 7,,6 6号单元被抽中号单元被抽中 Mi*10 统计学专业硕士课程统计学专业硕士课程o拉希里法拉希里法( (二次抽取法二次抽取法) )(统计学家(统计学家LahiriLahiri最先提出):最先提出):设设 M1, M2,……MN为单元的规模为单元的规模5.2 放回不等概抽样放回不等概抽样PPS 统计学专业硕士课程统计学专业硕士课程o拉希里法拉希里法( (二次抽取法二次抽取法) )设设 M1, M2,……MN为单元的规模为单元的规模累计累计代码代码10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738==73.8738  Mi*10例例5.1中,中,M=150,N=10.在在[1,10],[1,150] 中分别产生(中分别产生( i,m)如下)如下:第一次第一次 (3,121) ,   M3=15<121, 舍舍弃,重抽弃,重抽 ;;第二次(第二次(8,,50),),M8=36<50, 舍弃,重抽舍弃,重抽 ;第三次第三次 (7,77) ,  M7=100>77, 第第7号单元入样;号单元入样;第四次(第四次(5,,127),),M5=78<127, 舍弃,重抽舍弃,重抽 ;第五次第五次 (4,77), M4=137>77, 第第4号号单元入样;单元入样;第六次第六次(9,60),M9=60≥60, 第第9号单号单元入样;元入样;因此第因此第4,,7,,9号单元被抽中。

      号单元被抽中5.2 放回不等概抽样放回不等概抽样PPS 统计学专业硕士课程统计学专业硕士课程Data a;Input x$ y  @@;Datalines;1 0.6 2 14.5 3 1.5 4 13.7  5 7.8 6 15 7 10 8 3.6 9 6 10 1.1;Proc surveyselect  data=a out=b method=pps_wr  n=3 seed=10;((pps_wr表示有放回的不等概抽样,表示有放回的不等概抽样,method=pps表表示无放回抽样示无放回抽样))Size y;Run;Proc Print data=b;Run;5.2 放回不等概抽样放回不等概抽样PPS 统计学专业硕士课程统计学专业硕士课程Data a;Input  st$ y  @@;Datalines;1 0.6 1 14.5 1 1.5 1 13.7 1 12  2 7.8 2 15 2 10 2 3.6 2 6 2 1.1;Proc surveyselect  data=a out=b method=pps_wr  n=(2 3)   ; Size y;Strata st;Run; 5.2 放回不等概抽样放回不等概抽样PPS 统计学专业硕士课程统计学专业硕士课程Mik可能重复可能重复     >2k肯定重复肯定重复o不等概等距抽样不等概等距抽样 K K==M M0 0 /n/niMi累计代码1551~6228337~333265934~594147360~735108374~8363812184~12177128120~128850178129~17892180179~180108188181~1885.2 放回不等概抽样放回不等概抽样PPS 统计学专业硕士课程统计学专业硕士课程5.2 放回不等概抽样放回不等概抽样PPSo5.2.1 5.2.1 汉森汉森- -赫维茨估计量(赫维茨估计量(Hansen-hurwitzHansen-hurwitz))例如:估计超市销售额,例如:估计超市销售额,m:员工人数:员工人数解释公式意义解释公式意义独立同分布样本独立同分布样本y1y2…yn抽中概率抽中概率z1z2…zn新变量新变量 Ty1/ z1y2 /z2…yn/zn 统计学专业硕士课程统计学专业硕士课程5.2.1汉森汉森-赫维茨估计量赫维茨估计量((Hansen-hurwitz))o可以证明可以证明 统计学专业硕士课程统计学专业硕士课程5.2.1汉森汉森-赫维茨估计量赫维茨估计量((Hansen-hurwitz))o因为是放回抽样,所以是独立样本,数理统计的结论可以在这里应用。

      因为是放回抽样,所以是独立样本,数理统计的结论可以在这里应用 统计学专业硕士课程统计学专业硕士课程5.2.1汉森汉森-赫维茨估计量赫维茨估计量((Hansen-hurwitz))o例例5.2 5.2 某部门要了解所属某部门要了解所属85008500家生产企业当月完成的利润,该部家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为企业去年完成的产量为36763676万吨考虑到时间紧,准备采用抽样万吨考虑到时间紧,准备采用抽样调查来推算当月完成的利润根据经验,企业的产量和利润相关调查来推算当月完成的利润根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的企业的管理水平较高些,因此采用以与去年产量成比例的PPSPPS抽样,抽样,从所属企业中抽出一个样本量为从所属企业中抽出一个样本量为3030的样本,的样本, 统计学专业硕士课程统计学专业硕士课程1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.205105.2.1汉森汉森-赫维茨估计量赫维茨估计量((Hansen-hurwitz)) 统计学专业硕士课程统计学专业硕士课程              =45%174118 相对误差相对误差相对误差达到相对误差达到20%时所需样本量?%时所需样本量?757087(元)5.2.1汉森汉森-赫维茨估计量赫维茨估计量((Hansen-hurwitz)) 统计学专业硕士课程统计学专业硕士课程的含义,的含义,包含概率满足包含概率满足5.3 不放回不等概率抽样不放回不等概率抽样不放回的与单元大小成比例的概率抽样不放回的与单元大小成比例的概率抽样为为πPSπPS抽样抽样 n n固定条件下的包含概率固定条件下的包含概率 第第i单位入样概率单位入样概率第第i,,j单位都入样概率单位都入样概率oHorvitz—Thompson(霍维茨(霍维茨—汤普森)估计量汤普森)估计量 统计学专业硕士课程统计学专业硕士课程5.3不放回不等概率抽样不放回不等概率抽样 统计学专业硕士课程统计学专业硕士课程是Y的无偏估计是                      的无偏估计 5.3不放回不等概率抽样不放回不等概率抽样 统计学专业硕士课程统计学专业硕士课程其他公式在某种程度上可用这两个公式表现。

      其他公式在某种程度上可用这两个公式表现如:在如:在srs中中(等概抽样)(等概抽样)在在srs等概抽样条件下,每个单元包含概率是等概抽样条件下,每个单元包含概率是则则5.3不放回不等概率抽样不放回不等概率抽样 统计学专业硕士课程统计学专业硕士课程又如,对于霍维茨又如,对于霍维茨——汤普森估计量汤普森估计量在入选概率与规模成比例条件下,在入选概率与规模成比例条件下,的性质为的性质为则5.3不放回不等概率抽样不放回不等概率抽样 统计学专业硕士课程统计学专业硕士课程第第06章章 多阶段抽样多阶段抽样n多阶段抽样概述多阶段抽样概述n初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样n初级单元大小不等时的二阶抽样初级单元大小不等时的二阶抽样n多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程6.1 多阶段抽样概述多阶段抽样概述o多阶段抽样多阶段抽样o分多个阶段抽到最终接受调查的样本o 初级单元(PSU)----Primary Sampling Unito 二级单元 (SSU)----Second-stage Sampling Unito 三级单元(TSU)----Third-stage Sampling Unito 最终单元 (USU)----Ultimate Sampling Unit 统计学专业硕士课程统计学专业硕士课程6.1 多阶段抽样概述多阶段抽样概述o多阶段抽样推断原理多阶段抽样推断原理o以单位大小相同的二阶段抽样为例以单位大小相同的二阶段抽样为例 统计学专业硕士课程统计学专业硕士课程6.1 多阶段抽样概述多阶段抽样概述推导推导 过程过程 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程与整群抽样比与整群抽样比较一下较一下6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程o估计量方差一般公式为:o于是有:(1)6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程假定假定n=1, 第二阶段抽取第二阶段抽取m个单位个单位用用 估计估计 ,误差大小取决于,误差大小取决于 和和m,,即即 其次,用其次,用 推断推断 时,第二次推断误差大小取决于时,第二次推断误差大小取决于 和和n,,当当n=1时,时, ,这时,这时若以若以n个个 的均值的均值 推断推断 ,其方差为,其方差为再考虑再考虑fpc,则(则(1)式成立。

      式成立 6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样证明:证明:                                      ((2))                 即即    是是      的无偏估计的无偏估计      但但 不是不是的无偏估计的无偏估计计算计算          时时          不受二阶抽样影响,计算不受二阶抽样影响,计算      的的      则不然         即:即: 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程(3)6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程o【【例例8.18.1】】欲调查欲调查4 4月份月份100100家企业的某项指标,首先从家企业的某项指标,首先从100100家企业家企业中抽取了一个含有中抽取了一个含有5 5家样本企业的简单随机样本,由于填报一个月家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水帐,为了减轻样本企业的负担,调查人的数据需要每天填写流水帐,为了减轻样本企业的负担,调查人员对这员对这5 5家企业分别在调查月内随机抽取家企业分别在调查月内随机抽取3 3天作为调查日,要求样天作为调查日,要求样本企业只填写这本企业只填写这3 3天的流水帐。

      调查的结果如下:天的流水帐调查的结果如下: 6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程样本企业样本企业第一日第一日第二日第二日第三日第三日1 15757595964642 23838414150503 35151606063634 44848535349495 5626255555454o要求根据这些数据推算要求根据这些数据推算100家企业该指标的总量,并给出估计的家企业该指标的总量,并给出估计的95%置信区间%置信区间 6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程样本企业样本企业1 1606013132 2434339393 3585839394 45050 7 75 5575719196.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程o方方差差估估计式式中中,,第第一一项是是主主要要的的,,第第二二项要要小小得得多多,,这是是因因为第第二二项的的分分母母是是第第一一项的的m m倍倍,,而而且且它它还要要乘乘以以小小于于1 1 的的f1f1o如如果果第第一一阶阶的的抽抽样样比比f1f1可可以以忽忽略略,,则则方方差差估估计计式式可可以以简简单为如下的结果:单为如下的结果:o这个个结果果在在实际工工作作中中非非常常有有用用,,因因为第第二二阶抽抽样采采用用等等距距抽抽样或或某某些些复复杂抽抽样时,,方方差差的的无无偏偏估估计很很难得得到到,,当当f1f1可可以以忽忽略略时,,只只需需要要初初级单元元的均的均值就可以得到方差的估就可以得到方差的估计。

      6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程o6.2.3 6.2.3 总体比例的估体比例的估计 a ai i是第是第i i个初级单元中具有某一特征的次级单元数个初级单元中具有某一特征的次级单元数6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程(4)(5)6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程由上式看出,m与 , 成正比,与 , 成反比求出m后,利用(4),(5)式,即可求出n.6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程o分层二阶段抽样时的估计o第一阶段:分层抽样,同一层内初级单元大小相等第一阶段:分层抽样,同一层内初级单元大小相等总体均值的估计总体均值的估计 6.2 初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.3 初级单元大小不相等时的二阶抽样初级单元大小不相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.3 初级单元大小不相等时的二阶抽样初级单元大小不相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程6.3 初级单元大小不相等时的二阶抽样初级单元大小不相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程的无偏估计量6.3 初级单元大小不相等时的二阶抽样初级单元大小不相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程若二阶抽样采用若二阶抽样采用srs,即,即是是Yi的无偏估计的无偏估计6.3 初级单元大小不相等时的二阶抽样初级单元大小不相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程6.3 初级单元的初级单元的PPS抽样抽样 统计学专业硕士课程统计学专业硕士课程 统计学专业硕士课程统计学专业硕士课程为常数 统计学专业硕士课程统计学专业硕士课程在自加权条件下在自加权条件下6.3 初级单元大小不相等时的二阶抽样初级单元大小不相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程与与 的的 无偏估计无偏估计6.3 初级单元大小不相等时的二阶抽样初级单元大小不相等时的二阶抽样 统计学专业硕士课程统计学专业硕士课程按简单随机抽样抽取初级单元 o简单估计量简单估计量o自加权条件:第二阶(段)抽样比为一个常数自加权条件:第二阶(段)抽样比为一个常数 统计学专业硕士课程统计学专业硕士课程o比率估计量 统计学专业硕士课程统计学专业硕士课程6.4 多阶段抽样多阶段抽样o各级单元大小相等时的三阶段抽样 统计学专业硕士课程统计学专业硕士课程6.4 多阶段抽样多阶段抽样o各级单元大小不等时的三阶段抽样各级单元大小不等时的三阶段抽样 ::o总体总和的无偏估计量总体总和的无偏估计量 统计学专业硕士课程统计学专业硕士课程不等概抽样在多阶段抽样中的应用不等概抽样在多阶段抽样中的应用 统计学专业硕士课程统计学专业硕士课程6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程o【【例例8.58.5】】某调查公司接受了一项关于全国城市成年居民人均奶制某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。

      品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查 确定抽样范围为全国地级及以上城市中的成年居民成年居民指确定抽样范围为全国地级及以上城市中的成年居民成年居民指年满年满18周岁以上的居民周岁以上的居民 6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程o第一步:确定抽样方法第一步:确定抽样方法o 调查公司决定采用多阶段抽样方法进行方案设计,调查的最调查公司决定采用多阶段抽样方法进行方案设计,调查的最小单元为成年居民确定调查的各个阶段为城市、街道、居委会、小单元为成年居民确定调查的各个阶段为城市、街道、居委会、居民户,在居民户中利用二维随机表(居民户,在居民户中利用二维随机表(KishKish随机表的简化)抽取随机表的简化)抽取成年居民成年居民6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程o第二步:第二步:确定样本量及各阶段样本量的配置确定样本量及各阶段样本量的配置 =3.2 6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程o 初级单元:初级单元:2020个城市;个城市;o 二级单元:二级单元:8080个街道,每个样本行政区内抽个街道,每个样本行政区内抽4 4个街道;个街道;o 三级单元:三级单元:160160个居委会,每个样本街道内抽个居委会,每个样本街道内抽2 2个居委会;个居委会;o 四级单元:四级单元:16001600个居民户,每个样本居委会内抽个居民户,每个样本居委会内抽1010户居民户。

      户居民户o 在样本居民户内,利用二维随机表抽1名成年居民6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程o第三步:抽样方法第三步:抽样方法o第一阶段,在全国城市中按与人口数成比例的放回的不等概抽样,第一阶段,在全国城市中按与人口数成比例的放回的不等概抽样,即即PPSPPS抽样o第二和第三阶段分别按与人口数成比例的不等概系统抽样第二和第三阶段分别按与人口数成比例的不等概系统抽样o以第二阶段为例,在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量4,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道o 第四阶段,分别在每个样本居委会中,按等距抽样抽出第四阶段,分别在每个样本居委会中,按等距抽样抽出1010个居民个居民户即根据居委会拥有的居民户数除以样本量户即根据居委会拥有的居民户数除以样本量1010得到抽样间距,得到抽样间距,然后随机起点的等距抽样然后随机起点的等距抽样6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程 o第四步:推算方法第四步:推算方法o各样本城市人均奶制品消费支出为:各样本城市人均奶制品消费支出为:o成年居民人均奶制品消成年居民人均奶制品消费支出支出为 6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程6.4 多阶段抽样多阶段抽样 统计学专业硕士课程统计学专业硕士课程 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.