
方差分析解决的主要问题是什么单因素方差分析与双因素方.ppt
76页标题方差分析的基本问题,,文本,,,,*,第八章 方差分析,方差分析解决的主要问题是什么?,,单因素方差分析与双因素方差分析,,原理的相同点与不同点?,,正交实验设计的基本原理是什么?,,,1,,,,[,例题,],,某公司计划引进一条生产线,.,为了选择一条质量优良的生产线以减少日后的维修问题,,,他们对,6,种型号的生产线作了初步调查,,,每种型号调查,4,条,,,结果列于表,8-1,这些结果表示每个型号的生产线上个月维修的小时数试问由此结果能否判定由于生产线型号不同而造成它们在维修时间方面有显著差异,?,8.1,方差分析的基本问题,2,,,,表,8,-,1,对,6,种型号生产线维修时数的调查结果,,序号,,型号,1,2,3,4,A,型,9.5,8.8,11.4,7.8,B,型,4.3,7.8,3.2,6.5,C,型,6.5,8.3,8.6,8.2,D,型,6.1,7.3,4.2,4.1,E,型,10.0,4.8,5.4,9.6,F,型,9.3,8.7,7.2,10.1,8.1,方差分析的基本问题,3,,,,研究的指标,:,维修时间记作,Y,,,,控制因素是生产线的型号,,,分为,6,个水平即,A,B,C,D,E,F,,每个水平对应一个总体,Y,i,(i=1,2,…,6),。
6.1,方差分析的基本问题,4,,,,,现在的试验就是进行调查,,,每种型号调查,4,台,,,相当于每个总体中抽取一个容量为,4,的样本,,,得到的数据记作,y,ij,(i=1,2,…,6;j=1,2,3,4),,即为下表数据计算各样本平均数 如下,:,表,8,-,2,6.1,方差分析的基本问题,5,,,,,两个总体平均值比较的检验法,,把样本平均数两两组成对,:,,,与,,,与,,…,与,,,与,,…,,与,,,共有,( 15),对6.1,方差分析的基本问题,6,,即使每对都进行了比较,,,并且都以,0.95,的置信度得出每对均值都相等的结论,,,但是由此要得出这,6,个型号的维修时间的均值都相等这一结论的置信度仅是,,,上述方法存在的问题,工作量大,置信度低,将这,15,对平均数一一进行比较检验,,6.1,方差分析的基本问题,7,,方差分析的基本原理,:,,,(1),将数据总的偏差平方和按照产生的原因分解成:,,,(,总的偏差平方和,)=,,(,由因素水平引起的偏差平方和,)+(,试验误差平方和,),,,(2),上式右边两个平方和的相对大小可以说明因素的不同水平是否使得各型号的平均维修时间产生显著性差异,,,为此需要进行适当的统计假设检验,.,6.1,方差分析的基本问题,8,,数学模型和数据结构,,参数点估计,,分解定理 自由度,,显著性检验,,多重分布与区间估计,6.2,单因素方差分析,9,,,在单因素试验中,,,为了考察因素,A,的,k,个水平,A,1,,,,A,2,,…,A,k,对,Y,的影响,(,如,k,种型号对维修时间的影响,),,设想在固定的条件,A,i,下作试验,.,所有可能的试验结果组成一个总体,Y,i,,,它是一个随机变量,.,可以把它分解为两部分,,,,(,8-1,),6.2.1,数学模型和数据结构,10,,,其中:,,,纯属,A,i,作用的结果,,,称为在,A,i,条件下,Y,i,的真值,(,也称为在,A,i,条件下,Y,i,的理论平均,).,是实验误差,(,也称为随机误差,),。
8-2,),,,,其中,,,和 都是未知参数,(i=1,2,…,k).,6.2.1,数学模型和数据结构,11,,,假定在水平,A,i,下重复做,m,次试验,,,得到观测值,,,表,8,-,3,6.2.1,数学模型和数据结构,12,,,表中:,,(i=1,2,…,k) (8-3),,,Y,ij,表,示在,A,i,条件下第,j,次试验的结果,,,用式子表示就是,,,,(i=1,2,…,k j=1,2,…,m) (8-4),,,注意,:,,每次试验结果只能得到,Y,ij,,,而,(8-4),式中的 和 都不能直接观测到6.2.1,数学模型和数据结构,13,,,,为了便于比较和分析因素,A,的水平,A,i,对指标影响的大小,,,通常把 再分解为,,,(i=1,2,…,k) (8-5),,,,,其中,,,,称为一般平均,(Grand Mean),,它是比,,,较作用大小的一个基点;,,6.2.1,数学模型和数据结构,14,,,,并且称,,,,为第,i,个水平,A,i,的效应,.,它表示水平的真值比一般水平差多少满足约束条件,,(8-6),,,,可得,,,,,,,i=1,2,…,k ;j=1,2,…,m,6.2.1,数学模型和数据结构,15,,要解决的问题,找出参数,,和 的估计量,分析观测值的偏差,,检验各水平效应,,有无显著差异,6.2.1,数学模型和数据结构,16,,,,用最小二乘法求参数 的估计量,,,然后寻求 的无偏估计量,.,,,须使参数 的估计值能使在水平,A,i,下求得的观测值,Y,ij,与真值 之间的偏差尽可能小。
为满足此要求,,,一般考虑用最小偏差平方和原则,,,也就是使观测值与真值的偏差平方和达到最小,.,6.2.2,参数点估计,17,,由,(8-4),可知,,,上述偏差平方和,,,,,,令下列各偏导数为零,(i=1,2,…,k),6.2.2,参数点估计,18,,,由,,,,解得,(8-7),,,由,,,解得,(8-8),6.2.2,参数点估计,19,,,并由此得 的估计量,,,,,,至此,,,求得参数 的估计量,,,,(8-9),6.2.2,参数点估计,20,,,按照上述原则求参数估计量的方法称为最小二乘法,,,称为最小二乘估计量,.,,,我们还可以证明 分别是参数 的无偏估计量将 和 分别用它们的估计量代替,,,可以得到试验误差 的估计量,,,,,,(8-10),6.2.2,参数点估计,21,,,,,为了由观测值的偏差中分析出各水平的效应,,,我们研究三种偏差,: ,,和,.,,根据前面参数估计的讨论,,,它们分别表示,,,,,,,,,定理,,,,,(8-11),的估计,.,和,6.2.3,分解定理 自由度,22,,证明:,6.2.3,分解定理 自由度,23,,令,,,,,则分解定理,(8-11),可写成,,,(8-12),,,6.2.3,分解定理 自由度,24,,上式中,,,,,称为总偏差平方和,.,称为误差平方和,(,或组内平方和,);,称为因素,A,的效应平方和,(,或组间平方和,),,,,S,T,的自由度,f,T,=km-1,,,S,A,的自由度,f,A,=k-1,,,S,E,的自由度,f,E,=k(m-1),,容易看出,自由度之间也有类似于分解定理的关系,,,(8-13),6.2.3,分解定理 自由度,25,,参数假设检验的假设条件,,观测值,(i=1,2,…,k;j=1,2,…,m),,相互独立,在水平,A,i,条件下,,,Y,ij,(j=1,2,…m),,服从正态分布,N,,6.2.4,显著性检验,26,,,要判断在因素,A,的,k,个水平条件下真值之间是否有显著性差异,,,,即检验假设,,,H,0,: ,,H,1,:,不全相等,,,,相当于检验假设,,,H,0,: (i=1,2,…,k),,H,1,:,α,i,不全为零,,,6.2.4,显著性检验,27,,,可以证明当,H,0,为真时,,,,,, ,,(8-16),,,,并且 与 相互独立,.,,,,得,,,(8-17),,,,其中 和 称为均方,(Mean Square).,6.2.4,显著性检验,28,,,利用,(8-17),式来检验原假设,H,0,是否成立,.,对于给定的显著水平,,,可以从,F,分布表查出临界值 再根据样本观测值算出,F,A,的值,.,,,当 时,,,拒绝,H,0,,,,,,当 时,,,接受,H,0,。
6.2.4,显著性检验,29,,表,8,-,4,方差分析表,6.2.4,显著性检验,30,,,下面继续讨论前面,6,种型号的生产线的例子根据调查结果,在,=0.05,的显著水平时,检验这,6,种型号的生产线在平均维修时间方面有无显著差异?,,,根据实践经验,认为各种型号生产线的维修时间是近似服从正态分布的作统计假设:,6,种型号的生产线平均维修时数无显著差异,即,,,H,0,:,α,i,=0,(,i=1,2,…,6,),,H,1,:α,i,不全为零,6.2.4,显著性检验,31,,计算,S,A,及,S,E,,,,,,6.2.4,显著性检验,32,,表,8,-,5,计算列表,6.2.4,显著性检验,33,,,再将计算结果分别代入,S,A,与,S,E,两式中,得到,,,,,,,,第一自由度,,第二自由度,6.2.4,显著性检验,34,,,,,,,,,,查,F,分布表得,,由于 ,故拒绝,H,0,该结论说明,至少有一种生产线型号的效应不为零,这等价于至少有两种型号的生产线的平均维修时数是有显著差异的表,8,-,6,方差分析表,6.2.4,显著性检验,35,,q,检验法:,,计算任意两水平的差值 ,,,当 时,判断 与 差异显著;,,当 时,判断 与 差异显著。
查多重比较的,q,表得,,,,,(8-18),,6.2.5,多重分布与区间估计,36,,,区间估计,,,在置信度为 的情况下, 的置信区间为,,,,(,8-19,),,,,6.2.5,多重分布与区间估计,37,,双因素方差分析的类型,,数据结构,,离差平方和的分解,,应用实例,6.3,双因素方差分析,38,,在实际问题的研究中,有时需要考虑两个因素对实验结果的影响例如饮料销售,除了关心饮料颜色之外,我们还想了解销售地区是否影响销售量,如果在不同的地区,销售量存在显著的差异,就需要分析原因采用不同的销售策略,使该饮料品牌在市场占有率高的地区继续深入人心,保持领先地位;在市场占有率低的地区,进一步扩大宣传,让更多的消费者了解、接受该生产线6.3.1,双因素方差分析的类型,39,,,,,若把饮料的颜色看作影响销售量的因素,A,,饮料的销售地区则是影响因素,B,对因素,A,和因素,B,同时进行分析,就属于双因素方差分析双因素方差分析的内容,是对影响因素进行检验,究竟是一个因素在起作用,还是两个因素都起作用,或是两个因素的影响都不显著6.3.1,双因素方差分析的类型,40,,双因素方差分析的类型,,无交互作用的,,双因素方差分析,,有交互作用的,,双因素方差分析,,假定因素,A,和因素,B,的效应之间是相互独立的,不存在相互关系,,假定因素,A,和因素,B,的结合会产生出一种新的效应,,6.3.1,双因素方差分析的类型,41,,,,例如,,,若假定不同地区的消费者对某种颜色有与其他地区消费者不同的特殊偏爱,这就是两个因素结合后产生的新效应,属于有交互作用的背景;,,,否则,就是无交互作用的背景。
有交互作用的双因素方差分析已超出本书的范围,这里介绍无交互作用的双因素方差分析6.3.1,双因素方差分析的类型,42,,双因素方差分析的数据结构如表所示:,,,双因素方差分析数据结构,表,8,-,7,6.3.2,数据结构,43,,,表中,因素,A,位于列的位置,共有,r,个水平, 代表第,j,种水平的样本平均数;因素,B,位于行的位置,共有,k,个水平, 代表第,i,种水平的样本平均数 为样本总平均数,样本容量,n=r×k,每一个观察值,X,ij,看作由,A,因素的,r,个水平和,B,因素的,k,个水平所组合成的,r×k,个总体中抽取样本容量为,1,的独立随机样本这,r×k,个总体的每一个总体均服从正态分布,且有相同的方差这是进行双因素方差分析的假定条件6.3.2,数据结构,44,,6.3.3,离差平方和的分解,45,,,各离差平方和对应的自由度:,,,总离差平方和,SST,的自由度为,r×k-1=n-1,;,,,,因素,A,的离差平方和,SSA,的自由度为,r-1,;,,,因素,B,的离差平方和的自由度为,k-1,;,,,随机误差,SSE,的自由度为(,r-1,),×,(,k-1,),,8.3.3,离差平方和的分解,46,,,由离差平方和与自由度可以计算均方差:,,,,对因素,A,而言:,,,,对因素,B,而言:,,,,对随机变量而言:,6.3.3,离差平方和的分解,47,,,表,8,-,8,双因素方差分析表,误差来源,离差平方和,自由度,均方差,F,值,A,因素,SSA,r-1,MSA=SSA/(r-1),F,A,=MSA/MSE,B因素,SSB,k-1,MSB=SSB/(k-1),F,B,=MSB/MSE,误差,SSE,(r-1)(k-1),MSE=SSE/(r-1)(k-1),---,合计,SST,n-1,---,---,6.3.3,离差平方和的分解,48,,,某商品有五种不同的包装方式(因素,A,),在五个不同地区销售(因素,B,),现从每个地区随机抽取一个规模相同的超级市场,得到该商品不同包装的销售资料如下表,.,表,8,-,9,,,,,,,,,,,,,现欲检验包装方式和销售地区对该商品销售是否有显著性影响。
ɑ=0.05,),6.3.4,应用实例,49,,,解:,,,若五种包装方式的销售的均值相等,则表明不同的包装方式在销售上没有差别建立假设,,对因素,A,:,,H,0,:,,,包装方式之间无差别,,H,1,: 不全相等,,,包装方式之间有差别,,,对因素,B,:,,H,0,: 地区之间无差别,,H,1,: 不全相等 地区之间有差别,6.3.4,应用实例,50,,计算,F,值,,,因素,A,的列均值分别为:,,因素,B,的行均值分别为:,,总均值,=15.04,,故:,,SST=,(,20-15.04,),2 +…+(10-15.04)2=880.96,,SSA=5(21.6-15.04)2 +…+5(11.6-15.04)2=335.36,,SSB=5(15.2-15.04)2 +…+5(18.8-15.04)2=199.36,,SSE=880.96-335.36-199.36=346.24,,6.3.4,应用实例,51,,接下来:,,,,,,因此,6.3.4,应用实例,52,,统计决策,,,对于因素,A,,因为,,,F,A,=3.87>,F,crit,=3.01,,故拒绝,H,0,,接受,H,1,,,,说明不同的包装方式对该商品的销售产生影响。
对于因素,B,,因为,,,F,B,=2.30<,F,crit,=3.01,,故接受,H,0,,,,说明不同地区该商品的销售没有显著差异6.3.4,应用实例,53,,,,在工农业生产和科学研究中,经常会遇到多因素试验问题,在实际中不需要进行各种水平组合的全面试验,只需从各种不同搭配情况中,选取一小部分来进行就可以了那么,怎样选取以及如何分析试验结果,才能科学的回答如下问题:,,,各因素对指标的影响,哪个因素重要?哪个因素次之?,,每个因素中,哪个水平为好?,,各个因素和水平依哪种情况搭配可使试验结果最佳?,,,,解决这些问题正是正交试验设计的主要内容6.4,正交试验设计,54,,正交试验统计的基本思想,,正交表与直观分析法,,方差分析法,6.4,正交试验设计,55,,考虑进行一个三因素、每个因素有三个水平的试验如果作全面试验,需作,=27,次图,8-1,6.4.1,正交试验统计的基本思想,56,,,如果进行正交试验设计,利用正交表安排试验,对于三因素三水平的试验来说,需要作,9,次试验,用“,Δ”,表示,标在图中如果每个平面都表示一个水平,共有九个平面,可以看到每个平面上都有三个“,Δ”,点,立方体的每条直线上都有一个“,Δ”,点,并且这些“,Δ”,点是均衡地分布着。
6.4.1,正交试验统计的基本思想,57,,,正交表是正交试验设计的工具最简单的正交表是,L,4,(2,3,),,此外还有,L,8,(2,7,),,,,L,9,(3,4,),,,L,16,(4,5,),等等L,表示一张表,它的数字,有三层不同的含义,以,L,4,(2,3,),为例加以说明6.4.2,正交表与直观分析法,58,,L,4,(2,3,),表的结构,:,,包括,4,行,,3,列,表中只出现,1,、,2,两个反映水平的数字行数,水平数,列数,L,4,(2,3,),6.4.2,正交表与直观分析法,水平数,列数,59,,L,4,(2,3,),表的用法,,,作,4,次试验,可以最多安排,3,个二水平的因素(因子),,试验数,水平数,因子数,L,4,(2,3,),6.4.2,正交表与直观分析法,60,,L,4,(2,3,),表的效率,,,全因素全水平的实验做,8,次,,,正交实验做,4,次,.,理论上全部试验的次数,实际试验次数,L,4,(2,3,),6.4.2,正交表与直观分析法,61,,,,,,表,8,-,10 L,4,(2,3,),列号,,试验号,1,2,3,1,1,1,1,2,1,2,2,3,2,1,2,4,2,2,1,6.4.2,正交表与直观分析法,62,,正交表的特点,每一列中,,,不同的数字出现的次数相等,,,,如,L,4,(2,3,),表中的数,1,和,2,,它们各出现了两次,,任意两列中,,,将同一横行的两个数字看成有,,序数对时,,,每种数对出现的次数相等。
如,,L,4,(2,3,),表中共有的四种有序数对,(1,1),,,(1,2),(2,1),(2,2),,它们各出现一次由此保证了用正交表安排的试验计划是均衡搭配的6.4.2,正交表与直观分析法,63,,,,,[,例,],某化工厂生产一种试剂,产率较低,希望通过试验探索好的生产工艺以提高产率考察的因子与水平如下表,:,,表,8,-,11,因子,,水平,A,,反应温度,(,摄氏度,),B,,反应时间,(,小时,),C,,搅拌速度,一水平,30,1,快,二水平,40,1.5,中,三水平,50,2,慢,6.4.2,正交表与直观分析法,64,,,表,8,-,12,试验计划表,,,,,,,,,,,,,,,列号,,试验号,1,,反应温度,(,摄氏度,)A,2,,反应时间,(,小时,)B,3,,搅拌速度,C,1,1 30,1 1,1,快,2,1 30,2 1.5,2,中,3,1 30,3 2,3,慢,4,2 40,1 1,2,中,5,2 40,2 1.5,3,慢,6,2 40,3 2,1,快,7,3 50,1 1,3,慢,8,3 50,2 1.5,1,快,9,3 50,3 2,2,中,6.4.2,正交表与直观分析法,65,,表,8,-,13,计算表,6.4.2,正交表与直观分析法,66,,,,,,在,A,因子水平相同的三组试验中,,,极差 它表示反应温度,40,摄氏度与,50,摄氏度相比,,,试剂的产率平均提高,15.6%.,,用同样的方法可以比较,B,因子和,C,因子各水平的好与差,.,6.4.2,正交表与直观分析法,67,,结,,,论,反应温度对产率影响最大,,,其次,,是反应时间,,,再其次是搅拌速度,.,,反应温度是,40,度好,,,反应时间是,,1.5,小时好,,,搅拌速度是快速好,.,最好的生产工艺是,A,2,B,2,C,1,:,即,,反应温度,40,摄氏度,;,,反应时间,1.5,小时,;,,搅拌速度 快速,.,6.4.2,正交表与直观分析法,68,,利用方差分析法来分析试验结果时,由于要考虑随机因素对指标的影响,因此在选取正交表安排试验时,要使表中的因子数大于实际的因子数。
例如,试剂产率的试验是三因子三水平,我们仍然可以选用,L,9,(,3,4,)表安排试验,将三因素依次放在表的第,1,、,2,、,3,列后,还空出一列无因素可安排,这一列可视为随机试验误差把试验结果的所有数据都减去同一常数,不会影响结论,故常用此法简化数据6.4.3,方差分析法,69,,试,,验,,计,,划,,表,,和,,计,,算,,表,表,8,-,14,6.4.3,方差分析法,70,,按本章前面介绍的方差分析方法,将试验结果产率,y,的变动(或波动、差异)用总偏差平方和,S,T,来表示,则,,,,,其中,,,,,,,T=∑y,i,6.4.3,方差分析法,71,,总偏差平方和可以分解为各因子的偏差平方和与试验误差的偏差平方和,即,,,S,T,=S,A,+S,B,+S,C,+S,E,,,其中,,,,可化简为,,,,将具体数值代入得,S,A,=421.6,6.4.3,方差分析法,72,,类似地,,,可求出因子,B,、,C,和试验误差,E,的偏差平方和,S,B,,,S,C,和,S,E,的值,:,,,,,,,,,各因子与试验误差的自由度为,6.4.3,方差分析法,73,,,,,,,表,8,-,15,方差分析,6.4.3,方差分析法,74,,由,F,分布表查得,F,0.10,(,2,,,2,),=9,,,F,0.05,(,2,,,2,),=19,,,F,0.01,(,2,,,2,),=99,,比较,F,值与,F,0.10,、,F,0.05,、,F,0.01,的大小得出:,,,F,A,>F,0.05,,F,A,>F,0.01,,,故,A,因子非常显著;,,,F,0.10, 6.4.3,方差分析法,75,,,,,本例方差分析的结论与直观分析法的结论是一致的,,,即:,,反应温度对产率影响最大,搅拌速度影响最小;好的生产工艺条件仍然是,A,2,B,2,C,1,6.4.3,方差分析法,76,,。
