好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

SAS学习系列方差分析ⅡANOVA,GLM过程步.docx

31页
  • 卖家[上传人]:豆浆
  • 文档编号:37538553
  • 上传时间:2018-04-18
  • 文档格式:DOCX
  • 文档大小:801.61KB
  • / 31 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 28. 方差分析方差分析ⅡⅡ——ANOVA,GLM 过程步过程步SAS 提供了 ANOVA 和 GLM 过程步进行方差分析ANOVA过程步主要处理均衡数据(分类变量的每个水平的观察数是相等) ,该过程考虑到均衡设计的特殊构造,处理起来速度更快更省内存,也可以处理拉丁方设计、若干不完全的均衡区组设计数据等若试验设计不均衡,也不是前面几种实验设计数据,则应该使用 GLM 过程一)(一)PROC ANOVA 过程步过程步一、基本语法一、基本语法PROC ANOVA data=数据集 ;CLASS 分类变量列表;MODEL 因变量=效应变量列表 ;;>E=效应变量列表;>说明:(1)CLASS 语句是必不可少的,必须放在 MODEL 语句之前,用来指定分类、区组变量(单因素方差分析只有一个变量) ;(2)MODEL 语句也是必不可少的,该语句用来规定因变量和自变量效应(单因素方差分析的自变量就是分类变量) 若没有规定自变量的效应,则只拟合截距,假设检验为因变量的均值是否为 0. Model 语句的主要形式有 4 种:① 主效应模型model y=a b c;② 含有交叉因素的模型model y=a b c a*b a*c b*c a*b*c;③ 嵌套模型model y=a b c(a b);④ 包含嵌套、交叉和主效应的模型model y=a b(a) c(a) b*c(a);(3)MEANS 语句必须出现在 MODEL 语句之后,用来计算在效应变量所对应的因变量均值,但这些均值没有针对模型中的效应进行修正。

      若要计算修正的均值需要用 GLM 过程步的 LSMEANS语句;(4)MEANS 语句的可选项主要有两个内容,一是选择多重比较的检验方法,二是设定这些检验的参数(只能用于主效应) ;bon——对所有主效应均值之差进行 Bonferroni 的 t 检验;duncan——对所有主效应均值进行 Duncan 的多重极差检验;smm|gt2——当样本量不等时,基于学生化最大模和 Sidak 不相关 t 不等式,等到 Hochberg 的 GT2 方法,对主效应均值进行两两对比检验;snk——对所有主效应均值进行 Student-Newman-Keuls 的多重极差检验;t|lsd——对所有主效应均值进行两两 t 检验,它相当于在单元观察数相等时 Fisher 的最小显著差检验;tukey——对所有主效应均值进行 Tukey 的学生化极差检验;waller——对所有主效应均值进行 Waller-Duncan 的 k 比率检验;……alpha=p——设置显著水平;clm——对变量的每个水平的均值按置信区间形式输出;e=效应变量——指定在多重对比检验中所使用的误差均方默认使用残差均方指定的效应变量必须是在 model 语句中出现过的;kratio=值——给出 Waller-Duncan 检验的类型 1/类型 2 的误差限制比例。

      Kratio 的合理值为 50、100(默认) 、500,大约相当于两水平时 alpha 值为 0.1、0.05、0.01.hovtest——要求输出组间方差齐性的 Levene 检验;……(5)TEST 语句指定效应变量(H=)和误差变量(E=)做 F检验,误差变量必须要指定且只能指定 1 个效应变量默认是用残差均方作为误差项对所有平方和(SS)计算 F 值例例 1 来自四个地区少女篮球队队员身高的数据,变量包括地区、身高(C:\MyRawData\GirlHeights.dat):读入数据,做单因素(身高)方差分析,判断她们的身高是否存在显著性地区差异代码:代码:data heights; infile 'c:\MyRawData\GirlHeights.dat'; input Region $ Height @@; run; * Use ANOVA to run one-way analysis of variance; proc anova data = heights; class Region; model Height = Region; means Region / SCHEFFE; title “Girls' Heights from Four Regions“; run;运行结果及说明:运行结果及说明:CLASS 语句中分类变量有 4 个不同的水平值,共 64 个观测值;因变量 Height 的方差分析表,因变量的总平方和(1030.000) 、属于模型部分的平方和(196.625) 、属于误差部分的平方和(833.375) ,自由度为(3,60,63) ,模型的均方 MS(65.541667) ,误差的均方 MSE(13.889583) ,F 值=MS/MSE=4.72, P 值=0.00510.05)表明:不能拒绝不同地区身高的方差是相等的原假设。

      MEANS 语句中的 SCHEFFE 选项,比较不同区域的平均身高,Scheffe 分组 A、B,在显著水平 α=0.05 下,认为同组内身高没有差异例例 2 接 例例 1 四个地区的 Height 均值不同,但可能存在某 2 个或某3 个或地区的身高均值相同除了用 SCHEFFE 选项,还可以对均值做多重比较和置信区间分析代码(部分):代码(部分):proc anova data = heights; class Region; model Height = Region; means Region / DUNCAN; means Region / LSD CLM CLDIFF;运行结果及说明:运行结果及说明:DUNCAN 选项,输出组间均值比较的多重极差检验,各组均值按从小到大排列,3 个均值间的比较,就看 3 个地区最大和最小均值之差是否大于临界值 2.773,North、East、West 均值之差 60.750-58.688=2.0622.6357,故有显著差异二)(二)PROC GLM 过程步过程步GLM 过程步分析符合一般线性模型(General Linear Models)的数据,因此取名 GLM。

      可用在简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、偏相关分析、多元方差分析等GLM 过程步的语法与 ANOVA 过程步基本相同区别是 GLM过程多了些 MODEL 模型,并可以多三条语句:contrast、estimate和 lsmeans.1. MODEL 模型(a、b、c 表示分类变量;y1、y2、x1、x2 代表连续变量):Model y=x1; ——线性回归Model y=x1 x2; ——多元线性回归Model y=x1 x1*x1; ——多项式回归Model y1 y2=x1 x2; ——多元回归Model y=a; ——单因素方差分析Model y=a b c; ——主效应模型Model y=a b a*b; ——交叉因素模型Model y=a b(a) c(b a); ——嵌套模型Model y1 y2=a b; ——多元方差分析模型Model y=a x1——协方差分析模型……e1/e2/e3/e4——输出模型中每一效应的类型 1/类型 2/类型 3/类型 4 的可估函数,并计算相应的平方和;ss1/ss2/ss3/ss4——对每个效应,输出与类型 1/类型 2/类型 3/类型 4 的可估函数相关的平方和;cli/clm——打印每一观察的预测值/预测均值的置信限,两者不能同时使用;p——打印自变量没有缺失值的每一观察值、预测值、残差值,以及 Durbin-Waston 统计量;2. contrast 语句用来检验均值的线性组合关系的原假设。

      有三个基本参数,一是标签,二是分类变量名,三是效应均值线性组合的系数表(系数的次序是匹配分类变量按字母数字次序的水平值) 示例:contrast 'US vs NON-U.S.' brand 2 2 2 -3 -3;检验 H0:2μ1+2μ2+2μ3-3μ4-3μ5=03. estimate 语句用来估计效应均值的线性组合的值,格式同 contrast 语句示例:(分数系数的表示)estimate '1/3(a+b)-2/3c' Man 1 1 -2 /divisor=3;4. lsmeans 语句用来计算效应变量修正后的均值,最小二乘均值(LSM) ,这是针对非均衡数据设计的可选参数:stderr——输出 LSM 的标准差和 H0:LSM=0 的概率值;tdiff——输出假设检验 H0:LSM(i)=LSM(j) 的 t 值和相应的概率值;slice=效应变量——通过规定的这个效应来分开交叉的 LSM 效应例如,假定交叉项 A*B 是显著的,如果想对 B 的每个效应检验A 的效应,使用下面语句:lsmeans A*B /slice=B;例例 3 考虑在 5 种不同品牌的人工合成胶合板材料上进行磨损时间测试,每种品牌的材料做四次试验,且都是采用的同一种磨损措施,所有的试验都是在完全随机的顺序下在相同的机器上完成的。

      品牌 ACMX、AXAX 和 CHAMP 来自美国制造商,而品牌TUFFY 和 XTRA 来自非美国制造商我们想要比较美国品牌的均值与非美国品牌的均值是否有差异代码:代码:data veneer; input brand $ wear @@; datalines; ACME 2.3 ACME 2.1 ACME 2.4 ACME 2.5 CHAMP 2.2 CHAMP 2.3 CHAMP 2.4 CHAMP 2.6 AJAX 2.2 AJAX 2.0 AJAX 1.9 AJAX 2.1 TUFFY 2.4 TUFFY 2.7 TUFFY 2.6 TUFFY 2.7 XTRA 2.3 XTRA 2.5 XTRA 2.3 XTRA 2.4 ;run; proc glm data = veneer; class brand; model wear=brand; contrast 'US vs NON-U.S.' brand 2 2 2 -3 -3; estimate 'US vs NON-U.S.' brand 2 2 2 -3 -3; title 'Wear Tests for five brands'; run;运行结果:运行结果:程序说明:程序说明:(1)根据题意,原假设H0: (μACME+μAJAX+μCHAMP)/3=(μTUFFY+μXTRA)/2等价于 H0: 2(μACME+μAJAX+μCHAMP)-3(μTUFFY+μXTRA)=0, 故 contrast 语句的系数表为 2,2,2,-3,-3. (注意到均值对应关系是按字母顺序排列);(2)美国品牌均值与非美国品牌均值比较的平方和为0.27075,F 值为 13=0.27075/0.020833,P 值=0.0026α=0.05,不具有显著意义,说明食品在 3 家不同商店进行销售时,销售量的均值没有显著差异;分组变量 treat 的方差分析结果 p=0.025610.992537,有显著差异。

      结论: A4 包装的销售量均值最高,其他三种包装销售量基本相同另外,区组观察数的调和均数为 2.4=4/(1/2+1/3+1/3+1/2)DUNNETT (‘1’) 选项,要求所有分组均值分别与对照组均值进行比较,采用 dunnett 的双尾 t 检验;也可用 dunnetl(单尾 t 检验,分组的均值是否显著地小于对照组的均值)或 dunnetu(单尾 t 检验,分组的均值是否显著地大于对照组的均值) 对照组在括号内规定为‘1’,即分组变量的第 1 个水平分组,第 1 家商店和 A1 包装用 Dunnett 双侧检验的 t 临界值为 3.33563,A2 组与 A1 组均值之差为 20.05,0.2546>0.05) ,而在 c 上有显著性(0.04140.05) 而受试者之间的。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.