
第9章方差分析及回归分析课件.ppt
138页1第九章第九章 方差分析和回归分析方差分析和回归分析单因素方差分析单因素方差分析 一元线性回归一元线性回归 回归诊断回归诊断 2n方差分析方差分析(Analysis of variance, 简称简称: ANOVA),是由英国统计学家费歇尔是由英国统计学家费歇尔(Fisher)在在20世纪世纪20年代提出的年代提出的,可用可用于推断两个或两个以上总体均值是否于推断两个或两个以上总体均值是否有差异的显著性检验有差异的显著性检验.39.1 单因素方差分析单因素方差分析例例1.1 为了比较三种不同类型日光灯管的寿命为了比较三种不同类型日光灯管的寿命(小时小时), 现将从每种类型日光灯管中抽取现将从每种类型日光灯管中抽取 8个个, 总共总共 24 个日光灯管进行老化试验个日光灯管进行老化试验,根据根据下面经老化试验后测算得出的各个日光灯下面经老化试验后测算得出的各个日光灯管的寿命管的寿命(小时小时),试判断三种不同类型日光灯试判断三种不同类型日光灯管的寿命是不是有存在差异管的寿命是不是有存在差异.4日光灯管的寿命日光灯管的寿命(小小时时)类型寿命(小时)类型I5290 6210 5740 5000 5930 6120 6080 5310类型II5840 5500 5980 6250 6470 5990 5470 5840类型.III7130 6660 6340 6470 7580 6560 7290 6730引起日光灯管寿命不同的原因有二个方面引起日光灯管寿命不同的原因有二个方面: n其一其一, 由于日光灯类型不同由于日光灯类型不同,而引起寿命不同而引起寿命不同.n其二其二,同一种类型日光灯管同一种类型日光灯管,由于其它随机因由于其它随机因素的影响素的影响, 也使其寿命不同也使其寿命不同.5n在方差分析中在方差分析中, 通常把研究对象的特征值通常把研究对象的特征值, 即所考察的试验结果即所考察的试验结果( 例如日光灯管的寿命例如日光灯管的寿命)称为称为 试验指标试验指标.n对试验指标产生影响的原因称为对试验指标产生影响的原因称为 因素因素, “日日光灯管类型光灯管类型” 即为即为因素因素.n因素中各个不同状态称为因素中各个不同状态称为 水平水平, 如日光灯管如日光灯管三个不同的类型三个不同的类型, 即为三个即为三个水平水平. 6n单因素方差分析单因素方差分析 仅考虑有一个因素仅考虑有一个因素A对试验对试验指标的影响指标的影响. 假如因素假如因素 A有有r 个水平个水平, 分别在分别在第第 i 水平下进行了水平下进行了 多次独立观测多次独立观测, 所得到的所得到的试验指标的数据试验指标的数据 7 各个总体相互独立各个总体相互独立. 因此因此, 可写成如下的可写成如下的 数数学模型学模型:8n 方差分析的目的就是要比较因素方差分析的目的就是要比较因素A 的的r 个水平下试验指标理论均值的差异个水平下试验指标理论均值的差异, 问问题可归结为比较这题可归结为比较这r个总体的均值差异个总体的均值差异.9检验假设检验假设不全相等不全相等.10假设等价于假设等价于不全为零不全为零.11n为给出上面的检验,主要采用的方法是平为给出上面的检验,主要采用的方法是平方和分解。
即方和分解即n假设数据总的差异用总离差平方和假设数据总的差异用总离差平方和 分解分解为二个部分为二个部分:n 一部分是由于因素一部分是由于因素 A引起的差异引起的差异, 即效应平即效应平方和方和 ;n另一部分则由随机误差所引起的差异另一部分则由随机误差所引起的差异, 即即误差平方和误差平方和 .1213证明:证明: 1415161718定理定理9.1.119方差来源平方和自由度均方F因素Ar-1误差n-r总和n-1单因素试验方差分析表单因素试验方差分析表2021 例例1.2 设设有有5种种治治疗疗荨荨麻麻疹疹的的药药,要要比比较较它它们们的的疗疗效效假假设设将将30个个病病人人分分成成5组组,每每组组6人人,令令同同组组病病人人使使用用一一种种药药,并并记记录录病病人人从从使使用用药药物物开开始始到到痊痊愈愈所所需需时时间间,得到下面的记录:得到下面的记录:( =0.05)22药物类型药物类型治愈所需天数治愈所需天数x15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,623这里药物是因子,共有这里药物是因子,共有5 5个水平,这是个水平,这是一个单因素方差分析问题,要检验的一个单因素方差分析问题,要检验的假设是假设是“所有药物的效果都没有差别所有药物的效果都没有差别”。
2425方差来源方差来源 平方和平方和 自由度自由度均方均方F因素因素A36.46749.117 3.90误差误差58.500252.334总和总和94.9672926未知参数的估计未知参数的估计2728置信区间置信区间293031假设检验假设检验3233例例1.4(1.4(续续1.2)1.2)(1)(1)判断第一种、第二种药物的差异;判断第一种、第二种药物的差异; (2)(2)判断第一种、第三种药物的差异;判断第一种、第三种药物的差异; (3)(3)判断第三种、第五种药物的差异;判断第三种、第五种药物的差异;解:仅检验解:仅检验(1)(1),(2)(2)和和(3)(3)留作思考题留作思考题. .3435在在Excel上实现方差分析上实现方差分析n先加载先加载数据分析数据分析 这个模块这个模块,方法如下方法如下:n在在excel工作表中点击主菜单中工作表中点击主菜单中 “工具工具” 点击下点击下拉式菜单中拉式菜单中“加载宏加载宏” 就会出现一个就会出现一个“加载宏加载宏” 的框的框. n 在在 “分析工具库分析工具库” 前的框内打勾点击前的框内打勾点击“确定确定”. 这时候再点击下拉式菜单会新出现这时候再点击下拉式菜单会新出现 “数据分析数据分析”. 然后就可以进行统计分析了然后就可以进行统计分析了.36以下面的例子来说明用以下面的例子来说明用Excel进行方差分进行方差分析的方法析的方法:n保险公司某一险种在四个不同地区一保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示年的索赔额情况记录如表所示. 试判断试判断在四个不同地区索赔额有无显著的差在四个不同地区索赔额有无显著的差异异?37保保险险索索赔记录赔记录地区地区索索赔额赔额(万元万元)A11.601.611.651.681.701.701.78A21.501.641.401.701.75A31.641.551.601.621.641.601.741.80A41.511.521.531.571.641.6038n在在Excel工作表中输入上面的数据点击主菜工作表中输入上面的数据点击主菜单中单中 “工具工具”点击下拉式菜单中点击下拉式菜单中“数据分数据分析析” 就会出现一个就会出现一个“数据分析数据分析” 的框的框.n 点击菜单中点击菜单中“方差分析方差分析:单因素方差分析单因素方差分析”点击点击“确定确定”, 出现出现“方差分析方差分析:单因素方单因素方差分析差分析” 框框.39n在在“输入区域输入区域”中标定你已经输入的数据中标定你已经输入的数据的位置的位置(本例为本例为$B$3:$I$6),根据你输入数据根据你输入数据分组情况分组情况(是按行分或按列分是按行分或按列分,本例点击本例点击“行行”)确定分组确定分组.n选定方差分析中选定方差分析中F检验的显著水平选定输出检验的显著水平选定输出结果的位置点击结果的位置点击“确定确定”.n 在你指定的区域中出现如下两张表在你指定的区域中出现如下两张表:40组组观测数观测数 求和求和平均平均方差方差行1行2行3行4758611.727.9913.199.371.6741.5981.6491.5620.00380.02100.00670.0026表一:摘要表一:摘要41方差方差来源来源平方和平方和 自由自由度度均方均方FP-valueF crit组间组间0.049230.01642.16590.1208 3.0491 组内组内0.1666220.0076总计总计0.215825表二:方差分析表表二:方差分析表42根据根据Excel给出的方差分析表给出的方差分析表,假设假设H0的判别有的判别有二种方法二种方法:434445方差分析的前提方差分析的前提进行方差分析必须具备三个基本的条件:进行方差分析必须具备三个基本的条件:(1)独立性独立性.数据是来自数据是来自r个独立总体的简单个独立总体的简单随机样本;随机样本;(2)正态性正态性. r个独立总体均为正态总体;个独立总体均为正态总体;(3) 方差齐性方差齐性.r个独立总体的方差相等个独立总体的方差相等.如何判断这些条件是否成立?这些条件如何判断这些条件是否成立?这些条件对于方差分析的结论影响又是如何?对于方差分析的结论影响又是如何?46n方差分析和其它统计推断一样方差分析和其它统计推断一样, 样本的独立样本的独立性对方差分析是非常重要的性对方差分析是非常重要的, 在实际应用中在实际应用中会经常遇到非随机样本的情况会经常遇到非随机样本的情况,n这时使用方差分析得出的结论不可靠这时使用方差分析得出的结论不可靠. 因此因此, 在安排试验或采集数据的过程中在安排试验或采集数据的过程中, 一定要注一定要注意样本的独立性问题意样本的独立性问题.47n在实际中在实际中, 没有一个总体真正服从正态分布的没有一个总体真正服从正态分布的, 而方差分析却依赖于正态性的假设而方差分析却依赖于正态性的假设. 不过由经不过由经验可知验可知, 方差分析方差分析F检验对正态性的假设并不检验对正态性的假设并不是非常敏感是非常敏感, n即即, 实际所得到的数据实际所得到的数据, 若没有异常值和偏性若没有异常值和偏性, 或者说或者说, 数据显示的分布比较对称的话数据显示的分布比较对称的话, 即使即使样本容量比较小样本容量比较小(如每个水平下的样本容量仅如每个水平下的样本容量仅为为5左右左右), 方差分析的结果仍是值得信赖的方差分析的结果仍是值得信赖的.48n方差齐性对于方差分析是非常重要的方差齐性对于方差分析是非常重要的, 因此因此在方差分析之前往往要进行方差齐性的诊在方差分析之前往往要进行方差齐性的诊断断, 检验方差齐性假设通常采用检验方差齐性假设通常采用Barlett检验检验.n不过,也可采用如下的经验准则不过,也可采用如下的经验准则:当最大样当最大样本标准差不超过最小样本标准差的两倍时本标准差不超过最小样本标准差的两倍时, 方差分析方差分析F检验结果近似正确检验结果近似正确.499.4 一元线性回归一元线性回归一、确定性关系:一、确定性关系: 当当自自变变量量给给定定一一个个值值时时,就就确确定定应应变变量量的的值值与与之之对对应应。
如如:在在自自由由落落体体中中,物物体体下下落落的的高度高度h h与下落时间与下落时间t t之间有函数关系:之间有函数关系: 变量与变量之间的关系变量与变量之间的关系 50二、相关性关系:二、相关性关系: 变变量量之之间间的的关关系系并并不不确确定定,而而是是表表现现为为具具有有随随机机性性的的一一种种“趋趋势势”即即对对自自变变量量x的的同同一一值值,在在不不同同的的观观测测中中,因因变变量量Y可可以以取取不不同同的的值值,而而且且取取值值是是随随机机的的,但但对对应应x在在一一定定范范围围的的不不同同值值,对对Y进进行行观观测测时时,可可以以观观察察到到Y随随x的变化而呈现有一定趋势的变化的变化而呈现有一定趋势的变化为统一记号,后面一律用为统一记号,后面一律用y表示因变量表示因变量.51n如:身高与体重,不存在这样的函数可以如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,由身高计算出体重,但从统计意义上来说,身高者,体也重身高者,体也重n如:父亲的身高与儿子的身高之间也有一如:父亲的身高与儿子的身高之间也有一定联系定联系, 通常父亲高,儿子。












