
方差分析(一):单向课件.ppt
45页浙江大学医学院流行病与卫生统计学教研室 沈毅实验三要素:统计模型:效应值效应值= =总平均效应总平均效应+ +处理效应处理效应+ +随机误差效应随机误差效应效应值-总平均效应=处理效应+随机误差效应单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 第一节 方差分析的基本思想 方差分析的基本思想是将出现在所有测量值上的总变异按照其变异的来源分解为多个部分,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义 单向方差分析(one way analysis of variance)是指处理因素只有一个这个处理因素包含有多个离散的水平,分析在不同处理水平上应变量的平均值是否来自相同总体单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 例8-1 有3种解毒药:A、B及C,同时设一个空白对照D,共有4个组即解毒药这个处理因素包含有4个水平,或4个处理组,用i表示处理组号,i1,2,3,4分别代表A、B、C、D4个组受试大白鼠共24只,故动物总数或样本含量N=24按完全随机化方法将它们分成等数的4个组,每组有6只动物。
用ni表示第i组受试动物数(当每组受试动物数相等时用n代替 ni)用j(j=1,2,6)表示每组受试动物号应变量用Yij表示第 i组第j号大白鼠的血中胆碱酯酶含量(/ml)实验结果见表8l浙江大学医学院流行病与卫生统计学教研室 沈毅 表8-1 应用不同解毒药的大白鼠血中胆碱酯酶含量(Yij)(ml)组 号胆碱酯酶含量( Yij )ni1231218162814611118.52233.02283123242834616828.04790.03142417191622611218.72162.048122119141568914.81431.0合 计7379797886852448020.010616.0单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 各组平均值为 各组测定值的总和为 =111+89480样本总平均值为 4802420.0 在单向方差分析中,变异来源于两个方面,一方面是受试对象个体间的变异(称组内变异),另一方面是实验因素各水平间的变异(称组间变异)因此,总变异可按其变异来源进行分解总变异=处理间变异(组间)+误差(组内)观察值效应=总平均效应+处理效应+随机误差效应浙江大学医学院流行病与卫生统计学教研室 沈毅总平均单因素方差分析的基本思想(图示)单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 一、离均差平方和的分解个体测定值与总平均值之差可写为 上式等号右边第一项称为组内离均差,第二项是组平均值与总平均值之差,称为组间离均差。
将等式两边平方后求和得到单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅上式第二行中间的一项又可以写成下列等式:这是因为有之故最后得到公式(8-1)就是单向方差分析的总离均差平方和分解公式用文字表达为: 总离均差平方和组间离均差平方和十组内离均差平方和SS总SS组间+SS组内单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅二、F值与F分布 t检验是用t值进行假设检验的,方差分析则用F值进行假设检验每种来源的离均差平方和用相应的自由度去除,可得到平均的离均差平方和,简称均方(mean square,MS)各种均方表示为: 组间均方:MS组间SS组间v组间SS组间(al) 组内均方:MS组内SS组内v组内SS组内(Na) 组内均方表示各组内均方的平均值,它是随机误差项的方差的综合估计值其代表性优于每个组的组内均方它的分子和分母分别是各组内离均差平方和之和及各组内自由度之和单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 关系式为: 由于组间均方包含由随机误差及处理因素引起的误差,故其值比组内均方大。
理论上的组间均方的期望值可表示为: 式中为组内均方的期望值 E(MS组内),i及为分别对应于及 的期望值单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅F值的计算公式为F值的实际意义表现为如下的比值:H0:T=0 H1:T0单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 F统计量不可能是负值,因为分子及分母都是平方项分子中的SS组间是各组平均值与总平均值之差的加权平方和如果各处理组所代表的总体平均值彼此相等,则各组样本平均值也就彼此接近其结果是各组样本平均值很接近总平均值反之,如果各处理组所代表的总体平均值差别很大,则相应的各组样本平均值也就彼此差别很大;某些组平均值就明显不同于总平均值因此一个大的组间均方MS组间可使F值变大,它提供足够的把握来拒绝无效假设若MS组间很小,则缺乏证据来拒绝无效假设 单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 由于分析数据都是来自样本,故必须考虑资料的变异性组内均方MS组内是随机误差方差的估计值,它是衡量样本资料随机变异性大小的指标。
如果资料的随机变异性很大,则MS组内也大若资料的随机变异性很小,则MS组内也小当MS组间大,而MS组内小时,F值就大当MS组间大,MS组内也大时,则F值就不一定大那么F值要多大才能有把握拒绝无效假设呢?这就要由F统计量的分布来决定了当F统计量达到一个小的P值水平时,就可以拒绝无效假设单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 t分布只有一个自由度因为两组比较时,组间自由度恒为lF分布有两个自由度,即组间自由度v组间= a-l及组内自由度v组内=Na,又分别称为分子自由度v1和分母自由度v2F分布是一种偏态分布它的分布曲线由这两个自由度来决定分子自由度v1 4及分母自由度v2 10的F分布曲线见图8l 单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 F分布的随机变量没有负值 依据不同 水准下的F界值表例如当v1=10,v2=30时,0.05的临界F值F0.05(10,30)2.16,当计算出的统计量 F值等于或大于临界 值时,就在水准上拒绝无效假设,否则就不拒绝无效假设。
根据计算出的F统计量与临界F值 之间的关系有如下的统计学推断规则: 单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 第二节 方差分析的步骤 方差分析的步骤为: 一、整理和描述资料在第一节中已经介绍了方差分析所用的资料表格式(见表8-l)按格式整理后,计算出每组的测定值之和、组平均值,测定值平方和以及总平均值等 二、提出检验假设及规定类错误概率水准的大小 H0: 1 = 2= a ,各组所代表的总体平均值相等; H1: i h ,至少有一个不等式成立i,hl,2,a 0.05浙江大学医学院流行病与卫生统计学教研室 沈毅离均差平方和的简化计算公式:式中C为校正数单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 三、计算各种离均差平方和、自由度及均方例一资料用式(8-l)、式(8-2)与式(8-3)计算出的结果如下: l总离均差平方和 SS总10616(480)2241016.0总自由度v总24l23 2组间离均差平方和 组间自由度v14-l3,组间均方 MS组间568.33/3=189.44 3组内离均差平方和SS组内1016.0568.33447.67。
组内自由度v2=4(6l)20,组内均方MS组内447.67/20=22.38单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 四、计算F值应用式(8-4)计算得 F189.44/22.38=8.46 将以上计算结果列于方差分析表中(见表8-2) 五、确定P值并作出统计学推断查附表5:F界值表,得F0.05(3,20)3.10由于FF0.05(3,20),故有概率P0.05,根据式(8-5)的推断规则拒绝无效假设,接受备择假设处理因素的 4个水平中至少有一个组的总体平均值不同于其他各组从表8-l所示的各 值可见,不同解毒药物的效果是不同的解毒药物 A和 C与空白对照组 D相近B组血中胆碱酯酶含量较其他组为高浙江大学医学院流行病与卫生统计学教研室 沈毅表8-2大白鼠血中胆碱酯酶含量方差分析表变异来源SSVMSFP组间568.333189.448.460.05组内447.672022.38总1016.0023单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 第三节 平均值之间的多重比较 方差分析是对各观察组的平均值是否来自相同总体进行总的检验,不能对各组间的差别作深人分析。
这一点却往往是研究者最关心的对于一个实验,如果经方差分析后不拒绝无效假设,则表示各组平均值所代表的总体是相等的分析工作即可终止但若结果拒绝了无效假设,则需进行平均值之间的多重比较以进一步确定哪些组的平均值之间的差别,具有统计学意义这时就涉及到累积类错误概率的问题单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 当有a个平均值需作两两比较时,比较的次数共有c=a!/2!(a-2)!例如当a3时c3,a4时c6当比较的次数越多,在无效假设为真时,拒绝无效假设时的累积类错误概率也越大设每次检验所用类错误的概率水准为 ,累积类错误的概率为,则在对同一实验资料进行c次检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积类错误概率与c有下列关系: 例如,设=0.05,c=6,其累积类错误的概率为l-(1-0.05)6=1-(0.95)6=0.26目前有多种有效控制累积类错误概率的多重比较方法,下面介绍常用的Bonferroni法、SNK法和Tukey法 浙江大学医学院流行病与卫生统计学教研室 沈毅均数间多重(两两)比较的三种形式及比较的方法:1.各均数间全部比较(探索性研究) 方法:SNK法(q检验)、Bonferroni法、Tukey法等。
2.多个实验(处理)组与一个对照组比较 例:A B C三组分别与对照组比较 方法:Dunnett检验3.比较具有专业意义的组(确定性研究) 例:A、B、C、D四组,从专业意义认为只需比较 A与C和B与D,其余各组不需比较 方法:LSD法(最小显著差法 least significant difference)单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教研室 沈毅 一、Bonferroni法 Bonferroni提出,如果在水准上进行c次假设检验,当无效假设为真时,至少有一次拒绝无效假设的累积类错误概率不超过ca,即有不等式 ca 例如设0.05,c=3时运用概率乘法原理计算出的 0.143(30.05)因此可以重新选择类错误概率水准 ,以便使累积类错误概率0.05根据 Bonferroni不等式可得到要重新选择的水准为(/c) 例如设定0.05,进行 3次比较(c=3)时,重新选定的水准为 =(0.05/3)0.016 只有当t检验的类错误概率等于或小于0.016时才能拒绝无效假设这样当无效假设为真时,其累积类错误概率不超过0.05 单击此处编辑母版标题样式单击此处编辑母版副标题样式浙江大学医学院流行病与卫生统计学教。
