数理统计6.3_6.5解析
6.3 参数的区间估计 前面,我们讨论了参数点估计. 它 是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个 近似值,它没有反映出这个近似值的误 差范围,使用起来把握不大. 区间估计 正好弥补了点估计的这个缺陷 . 譬如,在估计湖中鱼数的问题中,若 我们根据一个实际样本,得到鱼数N的极 大似然估计为1000条. 若我们能给出一个区间,在此区间 内我们合理地相信 N 的真值位于其中. 这 样对鱼数的估计就有把握多了. 实际上,N的真值可能大于1000条, 也可能小于1000条. 也就是说,我们希望确定一个区间,使我 们能以比较高的可靠程度相信它包含真参 数值. 湖中鱼数的真值 这里所说的“可靠程度”是用概率来度量的, 称为置信概率,置信度或置信水平. 习惯上把置信水平记作 ,这里 是一个 很小的正数. 置信水平的大小是根据实际需要选定的. 例如,通常可取置信水平 =0.95或0.9等. 根据一个实际样本,由给定的置信水平,我 小的区间 ,使们求出一个尽可能 置信区间. 称区间 为 的置信水平为 的 寻找置信区间的方法,一般是从确定 误差限入手. 使得 称 为 与 之间的误差限 . 我们选取未知参数的某个估计量 ,根 据置信水平 ,可以找到一个正数 , 只要知道 的概率分布,确定误差限并不难. 由不等式可以解出 : 这个不等式就是所求的置信区间. 一、 置信区间定义: 满足 设 是 一个待估参数,给定 若由样本X1,X2,Xn确定的两个统计量 则称区间 是 的置信水平(置信度、 置信概率)为 的置信区间. 分别称为置信下限和置信上限. 一旦有了样本,就把 估计在区间 内. 这里有两个要求: 可见, 对参数 作区间估计,就是要设法找出 两个只依赖于样本的界限(构造统计量) (X1,Xn) (X1,Xn) 2. 估计的精度要尽可能的高. 如要求区间 长度 尽可能短,或能体现该要求的其 它准则. 1. 要求 以很大的可能被包含在区间 内,就是说,概率 要尽可能大. 即要求估计尽量可靠. 可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度. 选 的点估计为 求参数 的置信度为 的置信区间. 例1 设X1,Xn是取自 的样本, N(0, 1) 二、置信区间的求法 寻找未知参数的 一个良好估计. 解: 寻找一个待估参数和 估计量的函数 ,要求 其分布为已知. 有了分布,就可以求出 Z取值于任意区间的概率. 对给定的置信水平 查正态分布表得 对于给定的置信水平(大概率), 根据Z的分布, 确定一个区间, 使得Z取值于该区间的概率为 置信水平. 使 从中解得 也可简记为: 于是所求 的 置信区间为 从例1解题的过程,我们归纳出求置 信区间的一般步骤如下: 1. 明确问题, 是求什么参数的置信区间? 置信水平 是多少? 2. 寻找参数 的一个良好的点估计 T (X1,X2,Xn) 称S(T, )为枢轴量. 3. 寻找一个待估参数 和估计量T的函数 S(T, ),且其分布为已知. 4. 对于给定的置信水平 ,根据S(T, ) 的分布,确定常数a, b,使得 P(a S(T, )b)= 5. 对“aS(T, )b”作等价变形,得到如下 形式: 则 就是 的100( )的置信区间. 可见,确定区间估计很关键的是要寻找 一个待估参数 和估计量T 的函数S(T, ), 且S(T, )的分布为已知, 不依赖于任何未知 参数 (这样我们才能确定一个大概率区间). 而这与总体分布有关,所以,总体分布的 形式是否已知,是怎样的类型,至关重要. 这里,我们主要讨论总体分布为正态 的情形. 若样本容量很大,即使总体分布 未知,应用中心极限定理,可得总体的近 似分布,于是也可以近似求得参数的区间 估计. 教材上讨论了以下几种情形: 单个正态总体均值 和方差 的区间估计. 两个正态总体均值差 和方差比 的区间估计. 概率 p 的区间估计. 下面我们举几个例子,其余部分请自己看. 休息片刻继续 例2 已知某地区新生婴儿的体重X 随机抽查100个婴儿 得100个体重数据 X1,X2,X100 的区间估计求和(置信水平为1- ). 解:这是单总体均值和方差的估计 已知 先求均值 的区间估计. 因方差未知,取 对给定的置信度 ,确定分位数 使 即 均值 的置信水平为 的区间估计. 即为 从中解得 取枢轴量 从中解得 再求方差 的置信水平为 的区间估计. 对给定的置信度 ,确定分位数 使 于是 即为所求. 需要指出的是,给定样本,给定置信水 平,置信区间也不是唯一的. 对同一个参数,我们可以构造许多置信区间. N(0, 1) 取枢轴量 由标准正态分布表,对任意a、b,我们可 以求得P( aZb) . 例如,设X1,Xn是取自 的样本, 求参数 的置信水平为 的 置信区间. N(0, 1) 例如,由P(-1.96Z1.96)=0.95 我们得到 均值 的置信水平为 的 置信区间为 由 P(-1.75Z2.33)=0.95 这个区间比前面一个要长一些. 置信区间为 我们得到 均值 的置信水平为 的 我们总是希望置信区间尽可能短. 类似地,我们可得到若干个不同的置信 区间. 任意两个数a和b,只要它们的纵标包含 f(u)下95%的面积,就确定一个95%的置信 区间. 在概率密度为单峰且对称的情形,当a =-b时 求得的置信区间的长度为最短. a =-b 即使在概率密度不对称的情形,如 分布,F分布,习惯上仍取对称的百分位点 来计算未知参数的置信区间. 我们可以得到未知参数的的任何置信水 平小于1的置信区间,并且置信水平越高, 相应的置信区间平均长度越长. 也就是说,要想得到的区间估计可靠 度高,区间长度就长,估计的精度就差. 这是一对矛盾. 实用中应在保证足够可靠的前提下,尽 量使得区间的长度短一些 . 例3 某单位要估计平均每天职工的总医疗费, 观察了30天,其总金额的平均值是170元,标准 差为30元,试决定职工每天总医疗费用平均值 的区间估计(置信水平为0.95). 解:设每天职工的总医疗费为X, 近似服从正态分布 大样本,由中心极限定理, E(X)= ,D(X)= 未知,用样本标准差S近似代替. 取枢轴量 近似N(0,1)分布 对给定的置信水平 , 确定分位数 使 得均值 的置信水平为 的区间估计为 将 =170,S=30, =1.96,n=30代入得, 的置信水平为0.95的置信区间是 ( 159.27, 180.74 ) 得均值 的置信水平为 的区间估计为 6.5 单侧置信区间 上述置信区间中置信限都是双侧的,但 对于有些实际问题,人们关心的只是参数在 一个方向的界限. 例如对于设备、元件的使用寿命来说,平均 寿命过长没什么问题,过短就有问题了. 这时,可将置信上限取 为+,而只着眼于置信下 限,这样求得的置信区间叫 单侧置信区间. 于是引入单侧置信区间和置信限的定义: 满足 设 是 一个待估参数,给定 若由样本X1,X2,Xn确定的统计量 则称区间 是 的置信水平为 的 单侧置信区间. 称为单侧置信下限. 又若统计量 满足 则称区间 是 的置信水平为 的 单侧置信区间. 称为单侧置信上限. 设灯泡寿命服从正态分布. 求灯泡寿命均 值 的置信水平为0.95的单侧置信下限. 例4 从一批灯泡中随机抽取5只作寿命试 验,测得寿命X(单位:小时)如下: 1050,1100,1120,1250,1280 由于方差 未知,取枢轴量 解: 的点估计取为样本均值 对给定的置信水平 ,确定分位数 使 即 于是得到 的置信水平为 的单侧置 信区间为 将样本值代入得 的置信水平为0.95的单侧置信下限是 1065小时 的置信水平为 的单侧置信下限为即 P149中表6-1,已将各种情况下的区间 估计加以总结.