好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

SAS讲义第二十五课方差分析.docx

24页
  • 卖家[上传人]:hh****pk
  • 文档编号:342233386
  • 上传时间:2022-12-25
  • 文档格式:DOCX
  • 文档大小:67.72KB
  • 文本预览
  • 下载提示
  • 常见问题
    • 第二十五课方差分析当影响观察结果的影响因素(原因变量或分组变量)的水平数大于2或原因变量的个数 大于1个,一元时常用F检验(也称一元方差分析),多元时用多元方差分析(最常用Wilks' A检验)o一、方差分析概述方差分析(analysis of variance)又称变异数分析,可简记为ANOVA,主要用于检验计量 资料中的两个或两个以上均值间差别显著性的方法当欲比较几组均值时,理论上抽得的几 个样本,都假定来自正态总体,且有一个相同的方差,仅仅均值可以不相同还需假定每一 个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定 的含义,称之谓效应的可加性所谓的方差是离均差平方和除以自由度,在方差分析中常简 称为均方 MS (mean square)1. 方差分析的基本思想根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相 对应,总自由度也被分成相应的各个部分,各部分的离均差平方除以相应部分的自由度得出 各部分的均方,然后列出方差分析表算出F值,作出统计推断方差分析的关键是总离均差平方和的分解,分解越细致,各部分的含义就越明确,对各 种效应的作用就越了解,统计推断就越准确。

      方差分析表的一般形式见表25.1所示:表25.1方差分析表形式变异来源source离差平方和SS自由度df均方MSF统计量FP概率值P效应SiSS1dfxMSi= SS,弗Fi(df\g= MSi/MSePl效应s2ss2dhMS2= SS2/df2形(明,班)=MS2/MSeP2效应SmssmdfmMSm= SSm/dfm孩(伽,职)=MSm/MSePm误差seSSedfeMSe= SSJdfeSST= SS|+ SS,+- dfT=dJ\+ 必+…总变异 St - - MSt=SSt/裾r FT(clfT, dfe)= MST/ MSe PT+ SSm+ sse + dfm + dfe表中变异来源一栏,可分为总变异(total),误差(residual),各个效应(effect)相对应 的项效应项与试验设计或统计分析的目的有关,一般有:主效应(包括各种因素),交互影 响项(因素间的多级交互影响),协变量(来自回归的变异项),等等当分析和确定了各个效应项S后,根据原始观察资料可计算出各个离均差平方和SS,再 根据相应的自由度率,由公式MS=SS<,求出均方MS,最后由相应的均方,求出各个变异 项的F值,F值实际上是两个均方之比值,通常情况下,分母的均方是误差项的均方。

      根据F值的分子、分母均方的自由度和龙,在确定显著性水平为情况下,由FfJi’E)临界值 表查得单侧知界限值当Fa,不拒绝原假设Ho,说明不拒绝这个效应 项的效应为的原假设,也即这个效应项是可能对总变异没有实质影响的;如果F>Fa,则P

      当某个主要因素的各个水平间的主要因变量的均值呈现统计显 著性时,必要时可作两两水平间的比较,称为均值间的两两比较3) 因素间的交互影响多因素的试验设计,有时需要分析因素间的交互影响(interaction), 2个因素间的交互影 响称为一级交互影响,例如因素A与因素B的一级交互影响可记为AXB, 3个因素间的交互 影响称为二级交互影响,例如因素A与因素B与因素C的二级交互影响可记为AXBXG当 交互影响项呈现统计不显著时,表明各个因素独立,当呈现统计显著时,就需要列出这个交 互影响项的效应,以助于作出正确的统计推断二、单因素方差分析单因素方差分析(one factor ANOVA或ne-wayANOVA)或称为完全随机设计的方差分 析(completely random design AN0VA)试验设计时按受试对象的抽取或分组的随机程度不 同可细分为以下两类:• 完全随机设计一从符合条件的总体中完全随机地抽取所需数目的受试对象,再 将全部受试对象完全随机地分配到上组中去此时,受试对象与试验因素间无直接 联系• 组内完全随机设计一按试验因素的左个水平将全部受试对象划分成左个子总体, 再分别从上个子总体中完全随机地抽取所需数目的受试对象。

      此时,试验因素的各 水平决定了受试对象各自应该归属的组别设因素A有A个水平A,A2,---,A^在每一个水平下考察的指标可以看成一个总体,现有左个水平,故有左个总体,并假定:① 每一总体均服从正态分布;② 每一总体的方差相同;③ 从每一总体中抽取的样本相互独立我们要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第/'个总 体的均值为《,那么就是要检验如下原假设: 其备选假设为:H] : 不全相同设从第i个总体获得容量为的样本观察值为为,乂2,…,北",,'=12…,k ,各样本间 还是相互独立的样本观察值为可看成是来自均值为//,•的总体,这样为就是其均值旧与随 机误差勺迭加而产生的上面我们已经假定在A,.水平下的七服从睥,分布,则有 q~N(0,cr2)因此,我们有单因素方差分析的统计模型:为=ZA•+勺,i = 12,…,k, j = l,2,---,ni各相互独立,且都服从N(O,S) (25,1)I IJ为了能更仔细地描述数据,常在方差分析模型中引人一般平均与效应的概念称各个 的加权平均]k〃 = 一»,/, (25.2)n曰为总平均,其中"=文勺0称i=l缶=H, 1 = 1,2,••盘 (25.3)为因素A在第z,水平的主效应,也简称为片的效应,同时也表明第i个总体的均值是一般平 均与其效应的迭加。

      容易看出效应间有如下关系式:k»皿=0 (25.4)i=l此时,单因素方差分析的统计模型可改写成包含效应的形式:片="i + ai + 勺,'=1,2, / = 1,2,…,勺k£四=° (25.5)f=l各勺相互独立,且都服从N(O,S)所要检验的原假设也可改写成:H] = % =••• =《=0现在,我们知道造成各为间差异的原因可能有两个:一个可能是假设H不真,即各水 平下总体均值//,•(或水平效应%)不同,因此从各总体中获得的样本观察值也就有差异了;另一可能是丑0为真,差异是由于随机误差引起的为了进一步定量分析这些差异,我们需要把这些差异表达出来由(25.1)可推导出:V,. =^,+£,. (25.6)其中丸.=£ y.. /n., = £E.. /n.Q即组内样本观察值的平均值等于组内总体均值加上组内随机误差的平均值还可由(25.5)推导出:y=]H + E (25.7)k k其中亍= EZ yjn, £ = ££"即所有样本观察值的平均值等于总平均(各组均值的 i=l j=l i=l j=l加权平均)加上所有随机误差的平均值这样,每一个观察值为与总平均》的偏差可以分解成两部分:君一亍=(为一丸.)+顷.一力 (25.8)其中V,)- V/.称为组内偏差,由(25.1)和(25.6)代入得到:七一V,-. =(A, + £ij)_(A, + 弓.)=勺一弓. (3.2.9)说明组内偏差仅仅反映了随机误差。

      而义.一》称为组间偏差,由(25.6)、(25.7)和(25.3)代入得到:V.一亍=(A, + &) — (〃 + 歹)=0•+ - £ (25.9)说明第i组间偏差除了反映随机误差外还反映了第i个水平的效应at o各为间总的差异大小可用总偏差平方和表示:k %Sr =彦(君 -V)2 (25.10)i=l j=l由(25.9)随机误差引起的数据间的差异可以用组内偏差平方和表示,也称误差偏差平方和Se:k 眄S彦(为 -V/.)2 (25.11)i=l j=l由于组间偏差除了随机误差外,还反映了效应的差异,故由于效应不同引起的数据差异 可以用组间偏差平方和表示,也称因素A的偏差平方和Sa :Sa =!>,(而一力 2 (25.12)Z=1将表示总差异的平方和进行分解:k rii k 您S「= ⑴ 7)2 = ££(y,-y,-. + v,-y)(25.16) 因此可采用统计量/=1 j=l i=l j=ik nj k rij k «,■=££ (为-总尸+££(:•.-"+2££(君-丸.)顷..-亍),=1 >1 i=\ j=i z=i j=i g._M)=Z £ (为一总)2 + »,(总-力 2z=l j=l i=l=Se + Sa其中£(坊•一丸.)二 0。

      证明了:总的差异二组内差异+组间差异由于 7=11 勺 1 件—T S (为一V.)2 = / £ (勺一如)2 ~ /(4 T)j=l j=l又由/2分布的可加性可知c k a rii kY = £ —EU;-X-.)2 =~/2(£(巧.一1)) = /("_ 幻b i=l |_b ;=1 J i=l(25.14)(25.15)1)Sa /(S1)/(n-k)〜F(k-l,n- k)(25.17)还可证明,在H°为真时,即各组效应%都为0来假设检验三、多重比较当k组均值比较,如果经过F检验拒绝原假设,表明因素A是显著的,即化个水平对应 的指标均值不全相等,但不一定两两之间都有差异在一些实际问题中,当方差分析的结论 是因素A显著时,还需要我们进一步去确认哪些水平间是确有差异的,哪些水平间无显著差 异同时比较任意两个水平均值间有无显著性差异的问题称为多重比较,即要以显著性水平同时检验以下个假设::〃,=丹 i < j, z/ = l,2,••盘 (25.18)均值间的多重比较的方法从形式上可分为几类:临界值相对固定的两两比较、临界值不 固定的多级检验、全部处理组均值与一个对照组均值比较。

      每一种类型中,根据所控制误差 的类型和大小不同,又有许多不同的具体方法如T (成组比较,检验法)、Bon (Bonforroni t检验法)、Dunnett (与对照组均数比较)、SNK (Student-Newman-Keuls或称q检验法)、Tukey (学生化极差HSD或称最大显著差)、Duncan (新多极差检验法)、LSD (最小显著差)、SIDAK (Sidak不等式进行校正F检验法)、SCHEFFE (Scheffe的多重对比检验)、Waller-Duncan (k 比率t检验)、GT2或SMM (学生化最大模数和Sidak不等式进行校正t检验法)、REG。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.