
线性回归与协方差.ppt
53页1,线性回归与协方差分析,第十章,2,方差分析:用于比较两组或者多组总体均数之间的差异,推论相应的处理效应间的差异自变量为分类变量回归分析:用于拟合变量间的关系,通过回归分析可以估计反应变量与一系列自变量之间的回归关系,同时建立具体的回归方程自变量为连续变量两者可统一于一般线性模型,3,第一节 协方差分析的基本思想和步骤,4,假定这样一个问题:已知某变量X对观察指标Y有影响(称X为协变量),由方差分析得到不同的处理组Y的总体均数之间有差别,那么这个差别是因为各组处理效应确有不同还是因为协变量X的影响所致?,如何鉴别? 需要通过一种方法,该方法可以消除X对Y的影响5,表13-3 三种饲料喂养猪的初始重量与增重(单位:kg),,,,,,,,编号,均值,6,方差分析表,,,,完全随机设计类型的方差分析,7,方差分析表 变异来源 自由度 SS MS F P总变异 23 720.50 组间 2 545.25 272.63 32.67 <0.01组内 21 175.25 8.35,,,,初始体重的组间比较,8,多个均数两两比较表,三组猪的初始重量两两比较均有差别,A组初始重量最低,C组最高。
9,,10名正常孕妇妊娠时间与血清载脂蛋白含量,,(g/L),10,,x,y,,原则:各实测点至直线纵向距离的平方和为最小,求解回归直线,11,直线回归方程的计算,12,,10名正常孕妇妊娠时间(周)与血清载脂蛋白含量,,(g/L),13,P,应变量 y 离均差平方和划分示意图,,,,,,,y,x,,14,总离均差平方和的分解:,即,对于所有观测点,都有:,15,协方差分析:把回归分析和方差分析结合起来的一种统计分析方法,综合了两种方法的优点,提供了一个比较组间处理效应更加有效的方法由Fisher(1932)最早提出16,表10-1 某城市学校和某乡村学校儿童身高及年龄,17,方差分析结果: 两组平均身高的差值:144.5-141.7=2.8cm,F=1.121,P=0.298,还不能认为城乡儿童的身高有差异另有:两组平均年龄的差值:133.1-126.8=6.3月,那么,如果城乡儿童年龄分布相同,结果会怎样?,18,利用协方差分析: 消除年龄的影响,对组间差异2.8cm进行校正,得到更为准确的一个差值结果:校正之后的组间差异为5.5cm,差异具有统计学意义(P<0.05),可以认为城乡儿童的身高有差异。
19,协方差分析:可以消除由于对比各组X值不同对Y所产生的影响,从而提高了方差分析结论的精确性20,将定量变量X(难以控制的因素)对Y的影响看作协变量,建立应变量Y随协变量X变化的线性回归关系,并利用这种回归关系把X值化为相等后再进行Y的校正(修正)均数间差别的假设检验一、基本思想,21,二、协方差分析的实质通过回归分析,从Y的总平方和中扣除协变量X对Y的回归平方和,对残差平方和作进一步分解后再进行方差分析,更好地评价各种处理的效应22,三、应用条件,1. 理论上要求观察变量服从正态分布,各观察变量相互独立,各样本方差齐性; 2. 各总体客观存性回归关系且斜率相同实例:比较城市和乡村儿童的身高,23,把各自的均数带入公式10-1得:,处理组 对照组,24,第二节 完全随机设计资料的协方差分析,25,例13-1 为研究A、B、C三种饲料对猪的催肥效果,用每种饲料喂养8头猪一段时间,测得每头猪的初始重量(X)和增重(Y)数据见表13-3上半部试分析三种饲料对猪的催肥效果是否相同?,26,表13-3 三种饲料喂养猪的初始重量与增重(单位:kg),,,,,,,,编号,均值,27,1.H0:各总体增重的修正均数相等H1:各总体增重的修正均数不全相等α= 0.05,协方差分析步骤:,2.列表并计算初步结果,28,表13-3 三种饲料喂养猪的初始重量与增重(单位:kg),,,,,,,合计,,,29,协方差分析计算表模式,,,,,ν,MS,F,,,30,3.计算相应的校正数、总的、组间及组内的离均差平方和、离均差积和及自由度,(1)校正数,31,(2)总的离均差平方和、离均差积和及自由度,32,(3)组间离均差平方和、离均差积和及自由度,33,(4)组内离均差平方和、离均差积和及自由度,34,4.计算总的、组内及修正均数的估计误差平方和、自由度,35,5.列协方差分析表,查F界值表,P<0.01,拒绝H0,接受H1,可以认为在扣除初始体重因素的影响后,三组猪的总体增重均数有差别。
协方差分析表,,,,,ν,MS,F,,,36,6.计算公共回归系数bc及各组修正均数,37,7.修正均数间差别进行两两比较 – q 检验,结果:A饲料与B饲料修正均数间无差别(P﹥0.05),但都高于C饲料(P﹤0.01),可以认为在扣除初始体重影响后,A饲料和B饲料喂养的平均增重均比C饲料多38,进行协方差分析之前应先检验各组Y与X是否为线性关系且各回归线是否平行,若Y与X为非线性关系;若各组回归系数不同,说明处理效应与协变量存在交互作用,此时都不能直接应用协方差分析第二节 协方差分析的推广,39,表10-1数据是否满足条件: (1)levene‘s方差齐性检验:F=0.045,P=0.833 (2)两回归方程的检验: b1=0.511,t=3.061,P=0.007 b0=0.112,t=0.418,P=0.684,(3)两回归线是否平行,F0.05(1,28)=4.20,方差分析表,40,1.Y与X为非线性关系,(1)Y与X是平行的非线性关系 办法:可只对X做变量变换 例如:对X做平方根转换,Y与 之间的为线性关系41,(2)Y与X是不平行的非线性关系 办法:可对Y和(或)X做变量变换。
例如:可对Y做对数变换,且分析完成之后应作逆变换以便解释处理效应42,举例:假设两对比组数据,对反应变量Y做对数变换后 ,进行协方差分析得到,43,那么:,说明处理组相对于对照组,由某因素X造成处理效应增加约20倍44,(3)Y与X是不平行的非线性关系,且没有合适的数据转换方法将其转换为线性关系45,2.两回归线不平行,Y=αi+βiX+e i=0,1,,图10-2 两组回归线不平行的情况,46,3.多个混杂因素的控制,同时对多个协变量进行校正,,,10-8,10-9,一些专家认为,应重点考虑一个或两个最重要的混杂因素,这样,既可消除大部分的偏倚又可避免因协变量太多而使问题复杂化这种做法在很多情况下是有效的,但有时也会出现“校枉过正”(不如不校)的情形47,第三节 交互作用与协同作用,48,比较四种方法对轴突通过率的影响,处理因素是缝合方法,有4个水平可以有以下几种设计:完全随机设计:n个家兔随机分为4组随机区组设计:将n个家兔按出生年龄相近的原则,4个一组配成区组后,每个区组随机分配处理拉丁方设计:在随机区组基础上增加了一个列区组,如家兔按甲、乙、丙、丁4个种系(行区组),每个种系的4只小鼠按年龄大小分Ⅰ、Ⅱ、Ⅲ、Ⅳ4个级别(列区组),A、B、C、D4个字母代表处理,例 研究两种神经缝合方法在不同时间点对神经进行缝合后的恢复效果,将20只家兔随机分为四组,49,比较4种缝合方法对家兔神经轴突通过率的影响,处理因素是缝合方法,有4个水平。
目的:比较4种方法的差别,分析缝合方法、缝合时间对神经轴突通过率的影响两因素试验,50,家兔神经缝合后的轴突通过率(%),,,,,,,比较不同缝合方法及缝合后时间对轴突通过率的影响51,1.单独效应 单独效应(simple effect)是指其他因素的水平固定时,同一因素不同水平间的差别2.主效应 主效应(main effect)指某一因素各水平间的平均差别52,B因素(2水平) 缝合后1月 缝合后2月,2因素2水平析因试验示意图,A因素(2水平)外膜缝合 束膜缝合,24 4428 52,53,3.交互作用 当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用(interaction)图11-2 两因素交互作用示意图,缝合1月,缝合2月,。












