
拟合优度检验.ppt
22页在前面的讨论中,我们总假定总体的分在前面的讨论中,我们总假定总体的分布形式是已知的例如,假设总体分布为正布形式是已知的例如,假设总体分布为正态分布态分布 N( , 2), 总体分布为区间总体分布为区间 (a, b) 上上的均匀分布,等等的均匀分布,等等 然而,在实际问题中,然而,在实际问题中,我们所遇到的总我们所遇到的总体服从何种分布往往并不知道体服从何种分布往往并不知道需要我们先需要我们先对总体的分布形式提出假设,如:总体分布对总体的分布形式提出假设,如:总体分布是正态分布是正态分布N( , 2),,总体分布是区间总体分布是区间(a, b)上均匀分布等,然后利用数据上均匀分布等,然后利用数据 (样本样本) 对这对这一假设进行检验,看能否获得通过一假设进行检验,看能否获得通过§8.4 拟合优度检验拟合优度检验 这是一项非常重要的工作这是一项非常重要的工作,许多学者视它为近代统计学的许多学者视它为近代统计学的开端 解决这类问题的方法最早由英国统计学解决这类问题的方法最早由英国统计学家家 K. Pearson (皮尔逊皮尔逊) 于于1900年在他发表的年在他发表的一篇文章中给出一篇文章中给出, 该方法后被称为该方法后被称为 Pearson χ 2检验法,简称检验法,简称χ 2检验检验。
设设F(x)为一已知的分布函数,现有样本为一已知的分布函数,现有样本X1, X2, ……, Xn,但我们并不知道样本的总体,但我们并不知道样本的总体 分布是什么现在试图检验分布是什么现在试图检验 H0:总体:总体 X 的分布函数为的分布函数为F(x) ;; (1) 对立假设为对立假设为 H1:总体:总体 X 的分布函数非的分布函数非F(x)如果如果 F(x) 形式已知,但含有未知参数形式已知,但含有未知参数θ 或参或参数向量数向量θ =(θ1, θ2,…, θr ) ,,则记其为则记其为F(x, θθ )这种检验通常称为这种检验通常称为拟合优度检验拟合优度检验 不妨设总体不妨设总体 X 是连续型分布检验思想是连续型分布检验思想与步骤如下与步骤如下:(1). 将总体将总体 X 的取值范围分成的取值范围分成 k 个互不重叠的个互不重叠的 小区间小区间 I1, I2, …, Ik,,(2). 计算各子区间计算各子区间 Ii 上的理论频数上的理论频数如果总体的分布函数为如果总体的分布函数为F(x, θθ ),那么每个,那么每个点落在区间点落在区间 Ii 上的概率均为上的概率均为n 个点中,个点中,理论上理论上有有n pi (θ )个点落在个点落在 Ii 上上, (称为理论频数称为理论频数)。
当分布函数中含有当分布函数中含有未知参数未知参数 θθ 时,理论频数也未知,要用时,理论频数也未知,要用来估计来估计 n pi (θθ ),其中,其中 为为 θ 的极大似然的极大似然估3). 计算各子区间计算各子区间 Ii 上的实际频数上的实际频数 fi fi =﹟{ X1, X2, …, Xn ∈∈ Ii } ,, i=1, 2, …, k . 计数符号,取集计数符号,取集合中元素的个数合中元素的个数(4). 计算理论频数与实际频数的偏差平方计算理论频数与实际频数的偏差平方和可以证明:在可以证明:在 H0 成立,且成立,且 n→∞时时, (5). H0 的显著性水平为的显著性水平为 α 的的检验的拒的拒绝域域为 注意注意:该检验方法是在:该检验方法是在 n 充分大时使用充分大时使用的,因而,使用时要注意的,因而,使用时要注意 n 必须足够地大必须足够地大, 以及以及 npi 不能太小不能太小这两个条件这两个条件 在实用上,在实用上,一般要求一般要求 n ≥ 50,,以及所有以及所有npi ≥5如果初始子区间划分不满足后一个如果初始子区间划分不满足后一个条件条件, 则适当地将某些子区间合并,可使则适当地将某些子区间合并,可使 npi 满满足上述要求。
足上述要求例例1::为检验棉纱的拉力强度为检验棉纱的拉力强度 X (单位单位: 千克千克) 服从正态分布,从一批棉纱中随机抽取服从正态分布,从一批棉纱中随机抽取300条条进行拉力试验,结果列在表进行拉力试验,结果列在表8.2中给定 α = 0.01,检验假设检验假设 H0:拉力强度:拉力强度 X ~ N(μ, σ2) .解:解:本例中,并未给出各观测值本例中,并未给出各观测值 Xi 的具体值的具体值,只给出了各观测值的取值范围,这样的数据只给出了各观测值的取值范围,这样的数据称为区间数据称为区间数据样本均值样本均值与与样本方差样本方差可通过可通过下列式计算:下列式计算: (1). 先将数据先将数据 Xi 分成分成13组,每组落入一个区组,每组落入一个区 间,区间的端点为:间,区间的端点为:(2). 计算数据落入各子区间的理论频数计算数据落入各子区间的理论频数因分布中含有两个未知参数,所以,理论因分布中含有两个未知参数,所以,理论频数只能近似地估计落入第频数只能近似地估计落入第 i 个子区间个子区间Ii 的理论频数的估计为的理论频数的估计为 ,, 其中其中(3). 计算数据落入各子区间上的实际频数计算数据落入各子区间上的实际频数 fi 。
fi =﹟{ X1, X2, …, Xn ∈∈ Ii } ,, i=1, 2, …, 10 . (4). 计算检验统计量的值计算检验统计量的值因为因为 k =10,,r =2,所以上述,所以上述 χ 2分布的自分布的自由度由度为 k- -r- -1=7由由(5). H0 的显著性水平为的显著性水平为 α 的的检验 于是,拒绝原假设,即认为棉纱拉力强于是,拒绝原假设,即认为棉纱拉力强度不服从正态分布度不服从正态分布 孟德尔在关于遗传问题的研孟德尔在关于遗传问题的研究中,用豌豆做实验豌豆有黄究中,用豌豆做实验豌豆有黄和绿两种颜色,在对它们进行两和绿两种颜色,在对它们进行两代杂交之后,发现一部分杂交豌代杂交之后,发现一部分杂交豌豆呈黄色,另一部分呈绿色其豆呈黄色,另一部分呈绿色其数目的比例大致是数目的比例大致是 3:1 χ 2检验的一个著名应用例子是孟德尔豌豆检验的一个著名应用例子是孟德尔豌豆实验奥地利生物学家孟德尔在实验奥地利生物学家孟德尔在1865年发表的年发表的论文,事实上提出了基因学说,奠定了现代遗论文,事实上提出了基因学说,奠定了现代遗传学的基础。
他的这项伟大发现的过程有力地传学的基础他的这项伟大发现的过程有力地证明了统计方法在科学研究中的作用因此,证明了统计方法在科学研究中的作用因此,我们有必要在这里将这一情况介绍给大家我们有必要在这里将这一情况介绍给大家 这只是一个表面上的统计规律但它启这只是一个表面上的统计规律但它启发孟德尔去发展一种理论,以解释这种现象发孟德尔去发展一种理论,以解释这种现象他大胆地假定存在一种实体,即现在我们称他大胆地假定存在一种实体,即现在我们称为为“基因基因”的东西,决定了豌豆的颜色这的东西,决定了豌豆的颜色这基因有黄绿两个状态,一共有四种组合:基因有黄绿两个状态,一共有四种组合: 孟德尔把他的实验重复了多次,每次都孟德尔把他的实验重复了多次,每次都得到类似结果得到类似结果黄黄, 黄黄),,(黄黄, 绿绿),,(绿绿, 黄黄),,(绿绿, 绿绿). (黄黄, 黄黄),,(黄黄, 绿绿),,(绿绿, 黄黄),,(绿绿, 绿绿). 孟德尔认为孟德尔认为, 前三种配合使豆子呈黄色前三种配合使豆子呈黄色,而第四种配合使豆子呈绿色从古典概率的而第四种配合使豆子呈绿色。
从古典概率的观点看,黄色豆子出现的概率为观点看,黄色豆子出现的概率为3/4,绿色豆,绿色豆子出现的概率为子出现的概率为1/4这就解释了黄绿颜色豆这就解释了黄绿颜色豆子之比为什么总是接近子之比为什么总是接近 3:1 这个观察结果这个观察结果 孟德尔这个发现的深远意义是他开辟了孟德尔这个发现的深远意义是他开辟了遗传学研究的新纪元下面的例子就是用遗传学研究的新纪元下面的例子就是用 χ 2检验来检验孟德尔提出黄绿颜色豌豆数目之检验来检验孟德尔提出黄绿颜色豌豆数目之比为比为 3:1的论断例例2::孟德尔豌豆试验中,发现黄色豌豆为孟德尔豌豆试验中,发现黄色豌豆为25粒粒, 绿色豌豆绿色豌豆11粒,试在粒,试在 α =0.05下下, 检验豌检验豌豆黄绿之比为豆黄绿之比为3:1解:解:定义随机变量定义随机变量 X(1). 将将 (- -∞, ∞) 分成两个区间分成两个区间(2). 计算每个区间上的理论频数,这里计算每个区间上的理论频数,这里 n = 25+11=36, 不存在要估计的未知参数不存在要估计的未知参数, 故故(3). 实际频数为,实际频数为,f1=25,, f2=11 .(4). 计算统计量的值计算统计量的值(5). H0 的显著性水平为的显著性水平为 α 的的检验 所以,接受原假设,即认为豌豆的黄绿所以,接受原假设,即认为豌豆的黄绿之比为之比为 3:1 。
例例3::某医院一年中出生的婴儿共计某医院一年中出生的婴儿共计1521人人,其中男婴其中男婴802人,女婴人,女婴719人给定 αα =0.05,,试问:能否认为男婴、女婴出生概率相同?试问:能否认为男婴、女婴出生概率相同?解:解:用用 X 表示服从两点分布的随机变量表示服从两点分布的随机变量, X 取取0, 1两个值,两个值,X=1表示男婴,表示男婴, X=0表是女婴表是女婴则问题就是检验假设则问题就是检验假设 H0::p1 = P{X=0}=0.5.(1). 将将 (- -∞, ∞) 分成两个区间分成两个区间(2). 计算每个区间上的理论频数因为两个计算每个区间上的理论频数因为两个区区 间上的理论概率间上的理论概率 p1= p2=0.5, 而而 n=1521, 故故(3). 各区间上各区间上实际频数:实际频数:f1=802,, f2=719 .(4). 计算统计量的值计算统计量的值(5). H0 的显著性水平为的显著性水平为 α 的的检验 所以,拒绝原假设,即认为男婴女婴出所以,拒绝原假设,即认为男婴女婴出生概率有显著差异。
生概率有显著差异小结小结 本讲首先介绍正态总体方差的假设检验本讲首先介绍正态总体方差的假设检验,其中包括:单个正态总体方差的其中包括:单个正态总体方差的 χ 2检验和两检验和两个正态总体方差之比的个正态总体方差之比的 F 检验;然后介绍关检验;然后介绍关于总体分布的拟合优度检验的思想、方法和于总体分布的拟合优度检验的思想、方法和步骤;最后给出三个拟合优度检验例题的详步骤;最后给出三个拟合优度检验例题的详细解题过程细解题过程。
