
对总体分布函数F(x)的假设检验.ppt
16页山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂一、对总体分布函数一、对总体分布函数F(x)的假设检验的假设检验二、对随机变量的独立性、相关性的假设检验二、对随机变量的独立性、相关性的假设检验例如,例如,1 . 考察某一产品的质量指标打算用正态分布模型考察某一产品的质量指标打算用正态分布模型2. 考察一种元件的寿命打算用指数分布模型考察一种元件的寿命打算用指数分布模型3. 一个骰子是否是均匀的?一个骰子是否是均匀的?假设假设 H0::X~N( , 2)假设假设 H0 ::X服从参数为服从参数为 的的指数分布指数分布假设假设 H0 ::这个骰子是均匀的这个骰子是均匀的这里主要介绍拟合优度检验(这里主要介绍拟合优度检验(卡方检验法)卡方检验法)H0: F(x)= F0(x), H1: F(x)≠ F0(x)§8.3 §8.3 非参数假设检验非参数假设检验山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂 卡方检验卡方检验((K. Pearson,拟合优度检验),拟合优度检验) 设设 X为未知总体,为未知总体,(x1,,x2,,…,,xn)为大样本为大样本(n≥50),欲检,欲检验验H0: F(x)= F0(x),, H1: F(x)≠ F0(x)把实数轴把实数轴(-∞,,+∞)分成分成k个互不相交的区间:个互不相交的区间: (-∞, a1], (a1, a2], …, (ak-2, ak-1], (ak-1, + ) 记记a0=-∞, ak=+ , Ii=(ak-2, ak-1] (i=1,2,…,k-1) , Ik=(ak-1, + ),, ni为样本观测值(为样本观测值(X的取值)落在第的取值)落在第i个小区间个小区间Ii 的个数的个数, pi 为为X取值落入第取值落入第i个小区间个小区间Ii的概率,的概率,0 其中布其中r是是F0(x)中未知参数的个数中未知参数的个数 称称ni为为实测频数实测频数,,vi=npi为为理论频数理论频数称这类检验为称这类检验为拟合优度拟合优度检验检验 对于给定的对于给定的 ,查,查 2分布表得临界值分布表得临界值 2(k-r-1),,使使 由样本值计算出由样本值计算出 2 统计量的值,当统计量的值,当 2 ﹥ 2 2( (k k- -r r-1)-1) 时拒绝时拒绝H0 2 ≤ 2 2( (k k- -r r-1)-1) 时接受时接受H0 可见,皮尔逊定理(准则)适用于实测频数与理论频数相比可见,皮尔逊定理(准则)适用于实测频数与理论频数相比较的问题较的问题山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂 几点注释几点注释 ①①若分布函数若分布函数F0(x)的类型未知,可由实际问题分析或由样本的类型未知,可由实际问题分析或由样本观察数据的直方图来推测观察数据的直方图来推测。 ②②若已知若已知F0(x) 分布类型,还有分布类型,还有r个参数未知时,须先个参数未知时,须先用极大用极大似然估计法求出未知参数的估计值,似然估计法求出未知参数的估计值,然后再作假设然后再作假设 ③③此检验要求一定是大样本,一般此检验要求一定是大样本,一般n≥50至于k的大小,对于的大小,对于正态总体,样本容量正态总体,样本容量n与区间个数与区间个数k要满足渐近最优关系要满足渐近最优关系k=1.87(n-1)0.4 ④④ 若理论频数若理论频数vi=npi<<5时,则将相临的小区间合并,直至全时,则将相临的小区间合并,直至全部部npi ≥5(合并区间的同时,也将实测频数合并),合并后的小(合并区间的同时,也将实测频数合并),合并后的小区间数设为区间数设为k*,,则此时则此时 2统计量的由度变为统计量的由度变为 df = k*-r-1⑤⑤手工计算时常采用公式手工计算时常采用公式N50100200 500 1000200010000k9121622305674山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂= (-1.22)- (-1.68)=0.0647.类似地算得类似地算得: p3=0.1124, p4=0.1547, p5=0.1813, p6=0.1695, p7=0.1286, p8=0.0793, p9=0.0630. 例例1 设从总体设从总体X中抽取中抽取120个样本观察值,经计算整理得下表,个样本观察值,经计算整理得下表,试检验试检验X服从正态分布。 服从正态分布 =0.05)) 组号组号小区间小区间ni1((-∞,,198]62((198,,201]73((201,,204]144((204,,207]205((207,,210]236((210,,213]227((213,,216]148((216,,219]89((219,,+∞))6∑120 解解 这里只给出了分布类型,有两这里只给出了分布类型,有两个待估参数个待估参数 与与 2 用极大似然法对用极大似然法对 与与 2作出估计,得到作出估计,得到故提出假设故提出假设 H0: X ~ N( 209 , 42.77) H1: X不服从不服从 N(209, 42.77)山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂由由 n =120,,算得统计量的值算得统计量的值由于由于所以接受所以接受H0,,认为认为X ~ N(209 ,42.77).=0.05, k=9, r=2. 查表得临界值查表得临界值山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂 解解 首先,用样本观察值对未知参数首先,用样本观察值对未知参数 作极大似然估计。 以作极大似然估计以xi表示区间表示区间(ti-1, ti)的中点(也称为组中值),则的中点(也称为组中值),则故提出假设故提出假设 H0::X服从服从 =0.2的指数分布的指数分布. 当当H0为真时,有为真时,有 例例2 对对200个电池做寿命试验,个电池做寿命试验,(ti-1,ti)表示以小时计的时间区表示以小时计的时间区间间(i=1,2,…,6),在,在 =0.05下,试检验电池寿命下,试检验电池寿命X服从指数分布服从指数分布组序组序((ti-1, ti))ni1((0, 5))1332((5, 10))453((10, 15))154((15, 20))45((20, 25))26((25, 30))1∑200山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂由由 =0.05 得得 类似地算出:类似地算出:p3 =0.0855, p4 =0.03147, p5 =0.0016, p6 =0.0043. 各各vi=npi分别为:分别为:126.42, 46.52, 17.10, 6.30, 2.32, 0.84. 由于由于v5和和v6都小于都小于5,且合并后仍小于,且合并后仍小于5,故与,故与v4合并合并.组序组序nivi=npini-npi(ni-npi)2/npi1133126.426.580.342524546.52--1.520.049731517.10--2.100.2579479.46--2.460.6397 2002001.29 由由于于 2﹤﹤ 2 2( (k k- -r r-1)-1),,故故接接受受H0,,即即认认为为X服服从从参参数数 = 0.2的的指数分布。 指数分布山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂解解 先用极大似然估计法求先用极大似然估计法求 估计值估计值(i =1,2,3,4,5) 例例3 从同类产品中,任取从同类产品中,任取n = 200 批,质检结果如下表,其中批,质检结果如下表,其中xi表示各批产品中次品数,表示各批产品中次品数,ni表示有表示有xi件次品的批数,试在件次品的批数,试在显著性著性水平水平 =0.05下,检验次品件数下,检验次品件数X 服从泊松分布服从泊松分布于是认为于是认为F0(x)是参数为是参数为 =0.6的泊松分布的分布函数,分布律为的泊松分布的分布函数,分布律为检验假设为检验假设为 H0: X服从服从 =0.6的泊松分布的泊松分布序号序号 12345xi01234 ni116562242200山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂当当 H0成立时,算得成立时,算得2 =2.5509243,由由于于 2<< 2(k―r―1),,所所以以接接受受H0,,即即认认为为X服服从从 =0.6的的泊松分布。 泊松分布 类似地算出类似地算出 p3=0.098761,, p4=0.0197572,, p5=0.00296. 再算出理论频数再算出理论频数npi分别为分别为 109.7623,,65.8574,,19.7572,,3.9514,,0.5927. 山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂统计量统计量实质是实质是 选讲内容:选讲内容: 1. 适合性检验适合性检验 适合性检验适合性检验是用样本提供的信息去推断总体分布是否适合某是用样本提供的信息去推断总体分布是否适合某种已知的规律种已知的规律 例例4 某地区某地区1993年新生婴儿年新生婴儿1284个,其中男婴个,其中男婴692个,试问婴个,试问婴儿的性别比是否正常?儿的性别比是否正常?( =0.01) 解解 检验假设为检验假设为 H0:男:男:女女=1:1 , H1:男:男:女女≠1:1 当当H0为真时,有为真时,有山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂 选讲内容:选讲内容: 1. 适合性检验适合性检验对于对于 ==0.01,查表得临界值,查表得临界值由于由于所以拒绝所以拒绝H0,即认为该地区,即认为该地区1993年新生婴儿性别的比例失调。 年新生婴儿性别的比例失调山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂 例例5 按孟德尔遗传学说,将两种豌豆杂交后,可产出数量之按孟德尔遗传学说,将两种豌豆杂交后,可产出数量之比为比为 9:3:3:1 的的 A、、B、、C、、D 四种不同的种子今在一试验中四种不同的种子今在一试验中共收了共收了189粒种子,粒种子,A、、B、、C、、D各类型的分别为各类型的分别为102粒、粒、30粒、粒、42粒和粒和5粒问在 =0.01下,该结果是否符合孟德尔遗传学说的下,该结果是否符合孟德尔遗传学说的结果结果?? 选讲内容:选讲内容: 1. 适合性检验适合性检验 解解 检验假设为检验假设为H0::A:B:C:D=9:3:3:1,即试验结果适合孟德尔学说,即试验结果适合孟德尔学说实测频数为实测频数为102,,30,,42和和15,且当,且当H0成立时理论频数为成立时理论频数为 同样可计算出同样可计算出B、、C、、D型种子的理论频数依次为型种子的理论频数依次为vB=35.4375,,vC=35.4375,,vD=11.8125.山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂由由 =0.01得临界值得临界值由于由于于是有于是有故接受故接受H0,即认为试验结果与孟德尔学说的结果相符合。 即认为试验结果与孟德尔学说的结果相符合 选讲内容:选讲内容: 1. 适合性检验适合性检验山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂独独立立性性检检验验是是对对两两个个总总体体,,或或两两组组资资料料,,或或一一总总体体的的两两种种指指标标((分分类类、、特特性性、、特特征征))等等之之间间的的独独立立性性所所进进行行的的检检验验因因此此,,若若设设X和和Y是是两两个个总总体体((或或一一个个总总体体的的两两个个指指标标)),,则则其其假假设设应应为:为: H0::两总体两总体X与与Y相互独立相互独立将将X和和Y的的可可能能的的取取值值范范围围分分成成互互不不相相交交的的r个个组组和和s个个组组::A1, A2, …, Ar和和B1, B2, …, Bs. 在在总总体体(X, Y)中中随随机机抽抽取取样样本本(x1, y1), (x2, y2), …, (xn, yn).记记 Ai与与 Bj的的 每每 一一 个个 搭搭 配配 (Ai, Bj)所所 包包 括括 的的 样样 本本 个个 数数 为为cij(i=1,2,…, r; j=1,2,…,s), cij即为实测频数且即为实测频数且 选讲内容:选讲内容: 2.列联表的独立性检验列联表的独立性检验由由cij构成构成r×s列联表。 列联表X, Y)落入落入(Ai, Bj)概率的估计值为概率的估计值为山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂当当H0成立时,则有成立时,则有于是理论频数的估计值为于是理论频数的估计值为根据皮尔逊准则,对于给定的根据皮尔逊准则,对于给定的 ,查表得临界值,查表得临界值 选讲内容:选讲内容: 2.列联表的独立性检验列联表的独立性检验。












