第六章估计与假设检验.doc
14页第六章 参数估计与假设检验第一节 参数估计一、参数估计概述在许多实际问题中,总体被理解为我们所研究的那个统计指标,它在一定范围内取数值,而且是以一定的概率取各种数值的,从而形成一个概率分布,但是这个概率分布往往是未知的例如为了制定绿色食品的有关规定,我们需要研究蔬菜中残留农药的分布状况,对这个分布我们知之甚少,以致它属于何种类型我们都不清楚有时我们可以断定分布的类型,例如在农民收入调查中,根据实际经验和理论分析如概率论中的中心极限定理,我们断定收入服从正态分布,但分布中的参数取何值却是未知的这就导致统计估计问题统计估计问题专门研究由样本估计总体的未知分布或分布中的未知参数直接对总体的未知分布进行估计的问题称为非参数估计;当总体分布类型已知,仅需对分布的未知参数进行估计的问题称为参数估计本节我们研究参数估计问题本节及以后假定抽样方法为放回简单随机抽样,样本的每个分量都与总体同分布,它们之间相互独立二、参数估计的基本方法(一)估计量与估计值1.参数估计就是用样本统计量去估计总体参数2.用来估计总体参数的统计量的名称称为估计量,如样本均值、样本比例、样本方差等都可以是一个估计量3.估计量的具体数值称为估计值(二)点估计与区间估计参数估计方法有点估计与区间估计两种方法。
1.参数估计的点估计法(1)设总体的分布类型已知,但包含有未知参数,从总体中抽取一个简单随机样本,欲利用样本提供的信息对总体未知参数进行估计构造一个适当的统计量作为的估计,称为未知参数的点估计量(Point estimate)当有了一个具体的样本观察值后,将其代入估计量中就得到估计量的一个具体观察值,称为参数的一个点估计值今后点估计量和点估计值这两个名词将不强调它们的区别,通称为点估计,根据上下文不难知道此处的点估计究竟是点估计量还是点估计值通俗地说,用样本估计量的值直接作为总体参数的估计值称为点估计常用的点估计量有: 2、估计的评价标准:(1)无偏性: 设是未知参数的一个点估计量,若满足 即估计量的数学期望等于被估计参数则称是的无偏估计量(Unbiased estimate),否则称为有偏估计量需要注意的是,由于估计量是样本的函数,样本量是维随机变量,所以对求平均是按样本的概率分布求平均无偏性是我们衡量点估计量好坏的一个评价标准,这个评价标准的直观意义如下由于样本的出现带有随机性,所以基于一次具体抽样所得的参数估计值未必等于参数真值,这是由样本的随机性造成的。
我们希望当大量使用这个估计量对参数进行估计时,一系列估计值的平均值应该与待估参数真值相等这就从平均效果上对估计量的优劣给出一个评价标准2)有效性:设,均为未知参数的无偏估计量,如果对参数的一切可能取值有且严格不等号至少对参数的某个可能值成立,则称无偏估计量比有效(Efficiency)一个无偏估计量并不意味着他就非常接近被估计的参数,他还必须与总体参数的离散程度比较小对同一总体参数的两个无偏点估计量,方差小者更有效3)一次性:设对容量为的样本,是参数的一个估计量,,若对任意>0,则称是的一个一致的估计量序列,或称此估计量序列具有一致性随着样本容量的增大,点估计量的值越来越接近总体参数2.参数估计的区间估计法在参数估计中,虽然点估计可以给出未知参数的一个估计,但不能给出估计的精度为此人们希望利用样本给出一个范围,要求它以足够大的概率包含待估参数真值这就是导致区间估计(Interval estimation)问题所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计成立的概率值设是未知参数,是来自总体的样本,构造两个统计量,,对于给定的(0<<1),若、满足 则称随机区间[,]是参数的置信水平(Confidence level)为的置信区间(Confidence interval), 称为[,]的置信度,,称为置信限(Confidence limit)。
这里有几点需要说明:(1)区间[,]的端点,及长度-都是样本的函数,从而都是随机变量,因此[,]是一个随机区间2) 是说随机区间[,]以的概率包含未知参数真值,区间长度-描述估计的精度,置信水平描述了估计的可靠度3)因为未知参数是非随机变量,所以不能说落入区间[,]的概率是,而应是随机区间[,]包含的概率是通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计三、总体均值的区间估计(一)正态总体且方差已知;或非正态总体、方差未知、大样本情况下在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值,方差为则称为总体均值在置信水平下的置信区间设样本来自正态总体是总体均值,当已知时数理统计证明服从正态分布,从而服从标准正态分布,对给定的置信度查表可得,使得从而有取 则 即是的置信水平为的置信区间[例6.5]保险公司从投保人中随机抽取36人,计算得36人的平均年龄岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间解:查表得故全体投保人平均年龄的置信水平为99%的置信区间为[36.41,42.59]在不重复抽样条件下,置信区间为: (6.17)[例6.6]一家食品公司,每天大约生产袋装食品若干,按规定每袋的重量应为100g。
为对产品质量进行检测,该企业质检部门采用抽样技术,每天抽取一定数量的食品,以分析每袋重量是否符合质量要求现从某一天生产的一批食品8000袋中随机抽取了25袋(不重复抽样),测得它们的重量如表6.3所示表6.3 25袋食品重量已知产品重量服从正态分布,且总体方差为100g试估计该批产品平均重量的置信区间,置信水平为95%解:已知=100g,n=25,=95%,=1.96根据样本资料,计算的样本均值为:根据(6.17)式得=105.36±1.96××即105.36±3.914115=(101.4459, 109.2741),该批产品平均重量在95%置信水平下的置信区间为:101.4459~109.2741若总体方差未知,可用样本方差S2代替[例6.7]承[例6.5]假定保险公司从投保人中随机抽取36人,得到他们的年龄数据如表6.4所示表6.4 36名投保人的年龄若总体方差未知,试建立投保人年龄90%的置信区间解:已知n=36,=90%,=1.645,由于总体方差未知,但为大样本,故可用样本方差代替根据样本资料计算的样本均值和样本标准差为: (样本均值和样本标准差的计算,也可直接通过Excel软件中的描述统计功能计算,计算结果如图6.3所示)图6.3 描述统计运行结果则置信区间为:即39.5±2.13=(37.37,41.63),投保人平均年龄在90%的置信水平下的置信区间为37.37岁~41.63岁。
二)正态总体、方差未知、小样本情况下如果总体服从正态分布,无论样本容量大小,样本均值的抽样分布都服从正态分布只要总体方差已知,即使在小样本情况下,也可以计算总体均值的置信区间如果总体方差未知,需用样本方差S2代替,在小样本情况下,应用分布来建立总体均值的置信区间分布是类似正态分布的一种对称分布,他通常要比正态分布平坦和分散随着自由度的增大,分布逐渐趋于正态分布正态总体、方差未知、小样本情况下,总体均值在置信水平下的置信区间为: (重复抽样条件下) (6.18) (不重复抽样条件下) (6.19)其中为t分布临界值,可以查t分布临界值表得到,也可由Excel计算得到Excel计算,可使用粘贴函数 “Tinv”完成操作步骤依次为:Tinv→→df→确定[例6.8]已知某种电子元件的寿命服从正态分布,现从一批电子元件中随机抽取16只,测得其寿命如图6.4中的原始数据部分图6.4 16只电子元件寿命原始数据及描述统计部分结果试建立该批电子元件使用寿命95%的置信区间根据样本资料计算的样本均值和样本标准差为: (样本均值和样本标准差的计算,也可直接通过Excel软件中的描述统计功能计算,计算结果如图6.4所示)由=95%知,==2.131则该批电子元件平均使用寿命95%的置信区间为:即=(1476.8,1503.2),该批电子元件平均使用寿命在95%的置信水平下的置信区间为1476.8小时~1503.2小时。
现将总体均值的区间估计总结如表6.5所示.表6.5 不同情况下总体均值的区间估计四、总体比例的区间估计在大样本(一般经验规则:)条件下,样本比例的抽样分布可用正态分布近似在这种情况下,数理统计已经证明如下结论:置信水平为的置信区间为: (重复抽样) (不重复抽样) [例6.9]某城市想要估计下岗职工中女性所占的比例,采取重复抽样方法随机抽取了100名下岗职工,其中65人为女性试以95%的置信水平估计该城市下岗职工中女性所占比例的置信区间解:已知,,根据公式得: 即65%±9.35%=(55.65%,74.35%),95%的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%~74.35%[例6.10]某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对试以95%的置信水平确定赞成改革的人数比例的置信区间解:已知,,根据公式得:即75%±5.37%=(69.63%,80.37%),95%的置信水平下估计赞成改革的人数比例的置信区间为69.63%~80.37%。
五 、 样本容量的确定(一)影响样本容量的因素在抽取样本时样本容量应多大是一个很实际的问题样本容量取得比较大,收集的信息就比较多,从而估计精度比较高,但进行观测所投入的费用、人力及时间就比较多;样本容量取得比较小,则投入的费用、人力及时间就比较少,但收集的信息也比较少,从而估计精度比较低这说明精度和费用对样本量的影响是矛盾的,不存在既使精度最高又使费用最省的样本量一个常用的准则是在使精度得到保证的前提下寻求使费用最省的样本量由于费用通常是样本量的正向线性函数,故使费用最省的样本量也就是使精度得到保证的最小样本量二)估计总体均值时样本容量的确定在简单随机重复抽样下,设样本来自正态总体,总体均值的点估计为样本均值如果要求以估计时的绝对误差为Δ,可靠度为,即要求由知故只要需取绝对误差 从而解得 (重复抽样条件下) 同理,在简单随机不重复抽样条件下,我们可以得出估计总体均值时样本容量的计算公式为:(不重复抽样条件下) [例6.12] 在某企业中采用简单随机抽样调查职工月平均奖金额,设职工月奖金额服从标准差为10元的正态分布,要求估计的绝对误差为3元,可靠度为95%,试问应抽多少职工?解:已知则即需抽取43名职工作为样本进行调查。
三)估计总体比例时样本大小的确定在简单随机重复抽样条件下,估计总体比例时,我们可以定义绝对误差为:从而得到样本容。





