
SAS中多元线性回归.ppt
37页用SAS进行回归分析SAS中用于回归分析的过程SAS中用于回归分析的过程reg过程 •一般格式为:•proc reg 选项;•model 因变量=自变量/选项;•weight 变量;•print 选项;•plot 纵轴变量*横轴变量=“符号”; proc reg data=forest;model y1-y5=x1-x7;run;reg过程的选项• proc reg语句的选项有data=输入数据集,simple给出简单统计数,corr给出简单相关系数等• Model语句设定线性数学模型• Weight语句给出权系数变量• Print语句打印分析结果• Plot语句作散点图REG过程的语法格式如下:PROC REG [DATA=<数据集名> [选项] ] ; MODEL 因变量名=自变量名列/ [选项] ; [VAR 变量名列; FREQ 变量名; WEIGHT 变量名; BY 变量名列; OUTPUT
proc reg data=forest OUTEST=result1 SIMPLE CORR;model y1-y5=x1-x7/selection=stepwise;Plot y1*x1run;程序中全部语句中只有第一行和MODEL语句是必需的,其他都可以省略MODEL语句,必需语句,定义回归分析模型 VAR语句为可选的,指定用于计算交叉积的变量 PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线 【过程选项(【过程选项(reg语句的选项)】语句的选项)】OUTEST=数据集名 指定统计量和参数估计输出的新数据集名 NOPRINT 禁止统计结果在OUTPUT视窗中输出 SIMPLE 输出REG过程中所用的每个变量的基本统计量 CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵 ALL 等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果 【【MODELMODEL语句】语句】MODELMODEL语句定义模型中的因变量、自变量、模型选项及语句定义模型中的因变量、自变量、模型选项及结果输出选项语句中的变量只能是数据集中的变量,结果输出选项语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分任何形式的变换都必须先产生一个新变量,然后用于分析。
如析如X X1 1的二次项,不能在模型中直接指定的二次项,不能在模型中直接指定X X1 1*X*X1 1,而要,而要产生另一个新变量代表产生另一个新变量代表X X1 1*X*X1 1,方可引入模型方可引入模型MODELMODEL语句中常用的选项有:语句中常用的选项有:•NOINT NOINT 在模型中不拟合常数项在模型中不拟合常数项 •STB STB 输出标准化回归系数输出标准化回归系数 •CLI CLI 输出个体预测值输出个体预测值 的的95%95%可信区间上下限可信区间上下限 •CLM CLM 输出因变量期望值输出因变量期望值( (均值均值) )的的95%95%可信区间上下限可信区间上下限 •R R 输出个体预测值、残差及其标准误输出个体预测值、残差及其标准误 •P P 输出实际值输出实际值Y Yi i、预测值、预测值 和残差等如已选择了和残差等如已选择了CLICLI、、CLMCLM和和R R,则无需选择,则无需选择P P •SELECTION=nameSELECTION=name来选择逐步回归的方法来选择逐步回归的方法【OUTPUT关键字】REG过程中OUTPUT语句的用法和means过程中的用法相同,只是会用到另一些关键字。
关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:PREDICTED因变量预测值(简写为P)RESIDUAL残差(简写为R)L95M、U95M均数95%可信区间上下限L95、U95个 体 预 测 值95%可信区间上下限STDP期望值的标准误STDR残差的标准误STDI预测值的标准误STUDENT学生化残差(即残差与标准误之比)【【PLOT语句】语句】PLOT语句用于输出变量间的散点图,其用法和语句用于输出变量间的散点图,其用法和GPLOT过程中过程中的的PLOT语句非常相似语句非常相似PLOT语句定义的两变量可为语句定义的两变量可为MODEL语句或语句或VAR语句中定义的任何变量语句中定义的任何变量SYMBOL选项可定义散选项可定义散点图中点的标记,如点图中点的标记,如SYMBOL=’*’,则每个点以,则每个点以“*”表示proc reg data=forest SIMPLE CORR;model y1-y5=x1-x7/selection=stepwise;Plot y1*x1=‘*’run;逐步回归分析 在进行逐步回归分析时,应用MODEL语句中的SELECTION=name选择项,来选择用于进行逐步回归分析时模型;其中name可以是FORWARD(或F); BACKWARD(或B); STEPWISE ;MAXR; MINR; RSQUARE; ADJRSQ; CP; NONE(使用全回归模型)。
缺省时使用NONE参考书p123~p124,逐步回归的统计量使用SELECTION=FORWARD(或F)变量增加法、变量增加法、BACKWARD(或B)变量减少法变量减少法、、、、STEPWISE变量增减变量增减法法,会用到参数slentry与slstay它们也可以简写为sle与slsSLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 最大R2增量法(MAXR) 首先找到具有最大决定系数R2的单变量回归模型,其次引入产生最大R2增量的另一变量然后对于该两变量的回归模型,用其他变量逐次替换,并计算其 R2,如果换后的模型能产生最大R2增量,即为两变量最优回归模型,如此再找下去,直到入选变量数太多,使设计矩阵不再满秩时为止最小R2增量法(MINR) 首先找到具有最小决定系数R2的单变量回归模型,然后从其余变量中选出一个变量,使它构成的模型其他变量所产生的R2增量最小,不断用新变量进行替换老变量,依次类推,这样就会顺次列出全部单变量回归模型,最后一个为单变量最佳模型;两变量最小R2增量的筛选类似最大R2增量法(MAXR) ,但引入的是产生最小R2 增量的另一变量。
对该两变量的回归模型,再用其他变量替换,换成产生最小R2增量者,直至R2不能再增加,即为两变量最优回归模型依次类推,继续找含3个或更多变量的最优回归模型等等,变量有进有出 它与R2增量法选的结果不一定相同,但它在寻找最优模型过程中所考虑的中间模型要比本节第4种方法多R2选择法(RSQUARE) 从模型语句中的各自变量所有可能子集中选出规定数目的子集,使该子集所构成的模型的决定系数R2最大要注意∶当观测点少、且模型语句中变量数目过多时, 程序不能运行,因为过多变量使误差项无自由度,设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点数减1个变量放入模型本法和修正R2选择法(ADJRSQ)以及Mallow‘s Cp选择法(CP)分别是按不同标准选出回归模型自变量的最优子集,这类选变量法不是从所有可能形成的变量中,而仅仅从模袖量中穷举 本法的局限性在于∶其一,当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么增加观测,要么反复给出不同模型;其二,选最优子集的标准是R2,完全没考虑其他标准修正R2选择法(ADJRSQ)以及Mallow‘s Cp选择法(CP)与R2选择法(RSQUARE)类似,只不过使用的统计量不同。
1、变量x和y的观测值如下,X0.10 0.30 0.40 0.55 0.70 0.80 0.95y1518192122.6 23.8 26绘制x和y的散点图做直线回归data a1;input x y@@;cards;0.10 15 0.30 18 0.40 19 0.55 21 0.70 22.6 0.80 23.8 0.95 26;run;输入数据集:@@表示数据不换行,连续输入绘制散点图:proc plot data=a1;plot y*x;run;做直线回归:proc reg data=a1;model y=x;run;quit;如果不加quit语句,有时候SAS会一直保持reg过程的执行状态,而且让cpu占用率为100%Sum of Squares:离差平方和Mean Squares:均方Pr > F:统计量F的值位于F分布的什么概率位置Df:自由度Intercept:回归方程的常数项3. 3. 显著性检验显著性检验显著性检验显著性检验Syy::样本离差平方和样本离差平方和样本离差平方和样本离差平方和U::回归平方和(回归和)回归平方和(回归和)回归平方和(回归和)回归平方和(回归和)Q::剩余平方和(余和)剩余平方和(余和)剩余平方和(余和)剩余平方和(余和)一元线性回归一元线性回归2、变量x和y的观测值以及频数如下,1.5 4.531.6 4.552 1.8 4.8242.5 5.513.2 6.182试作直线回归。
data a3;input x y w@@;cards;1.5 4.5 31.6 4.55 21.8 4.82 42.5 5.5 13.2 6.18 2proc reg; model y=x;freq w;run;程序中freq表示这个点重复的次数也可以用weight代替,表示权系数变量但freq会自动取整,而weight接受小数部分 5、下列数据是1957年美国旧轿车价格的调查资料,x表示轿车使用年数,y表示相应的平均价格,求y关于x的回归方程提示:先绘制散点图)X12345678910Y2651 1943 1494 1087 765538484290226204先绘制散点图,data a5;input x y@@;cards;1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290 9 226 10 204;proc plot;plot y*x;run; 得到x和y之间的散点图如下:从上图可以看出,y和x之间呈现出指数关系,于是我们可以采用指数回归模型令,则化成了线性回归问题。
Data a52;Input x y@@;X1=x;Y1=log(y);Cards;1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290 9 226 10 204;proc reg;model y1=x1;run;quit;可以看出,模型是显著的Intercept和X1的系数也都是显著的得到y1和x1的回归方程为:y1=8.164585-0.29768x1,而且知道回归效果是高度显著的Y和x之间的回归方程为:Y=exp(y1)=3514.26exp(-0.29768x) 例3 现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L))及生长素(X2,μg/L)的测量数据列于中,试进行多元线性回归分析 病例号i血 糖 y胰岛素X1生长素X2112.2115.209.51214.5416.7011.43312.2711.907.53412.0414.0012.1757.8819.802.33611.1016.2013.52710.4317.0010.07813.3210.3018.89919.595.9013.14109.0518.709.63116.4425.105.10129.4916.404.531310.1622.002.16148.3823.104.26158.4923.203.42167.7125.007.341711.3816.8012.751810.8211.2010.881912.4913.7011.06209.2124.409.16平均值10.8517.778.94假设上表的资料已建立文本文件c:\user\li4_1,调用REG过程拟合多元回归方程,程序如下:Libname a ‘c:\user’;data a.bk4_1; infile ‘c:\user\li4_1’; input id y x1 x2@@;proc reg data=a.bk4_1 outest=result1; model y=x1 x2/stb; model y=x1 x2/ selection=stepwise stb;run;quit;MODEL语句中加上STB选项将会给出标准偏回归―通径系数,进而可以了解自变数的相对重要性 REG过程中MODEL语句可以交互使用,本例我们建立了两个模型,第一个model没有作变量筛选,建立一个含有两个自变量的方程,并输出标准化偏回归系数。
第二个model指定逐步回归法筛选变量程序运行的主要结果如下: REG过程拟合带截距项的直线回归方程,用最小二乘法估计模型的参数,并给出模型及参数的方差分析和t检验本例的两个模型检验P值都小于0.05,模型有统计学意义 模型1含有两个自变量,其截距项和X1检验有统计学意义,X2的检验无统计学意义 模型2为逐步回归法,只纳入了X1比较两个模型的决定系数,模型1因含有两个自变量,决定系数比模型2要大,但因为模型纳入了不显著的自变量X2,导致它的调整决定系数反而较小,所以我们选择模型2,回归方程:Y=18.796-0.459X1使用SELECTION=FORWARD(或F)变量增加法、变量增加法、BACKWARD(或B)变量减少法变量减少法、、、、STEPWISE变量增减变量增减法法,会用到参数slentry与slstay它们也可以简写为sle与slsSLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 如果要改变变量引入和剔除的标准proc reg data=a.bk4_1; model y=x1 x2/ selection=stepwise sle=0.2 sls=0.2 stb;run;quit;练习一、槲寄生是一种寄生在大树上部树支上的寄生植物。
它喜欢寄生在年轻的大树上下面给出了在一定条件下完成的试验中采集的数据,试分析大树年龄和每株大树上槲寄生株数的关系(提示:先绘制散点图)大树年龄X 3 3 3 4 4 4 9 9 9 15 15 15 40 40槲寄生株数Y 28 33 22 10 36 24 15 22 10 6 14 9 1 1序号序号 1 174.374.3 91. 91.0 0 5.7 5.76 61.31.3108108666617.417.451.251.2 9. 9.5 515.3915.3912.612.61 1 2 270.470.4157.0157.0 8.0 8.04 42.22.2126126686817.217.252.552.524.224.210.8410.84 8.4 8.40 0 3 378.778.7 77. 77.0 0 7.9 7.94 42.02.0114114636317.017.062.962.922.822.813.5713.57 9.8 9.80 0 4 478.978.9 67. 67.0 0 6.8 6.86 61.51.5110110555517.017.064.364.325.125.134.5734.5714.014.03 3 5 549.149.1 91. 91.0 0 4.9 4.92 21.51.5 92 92494916.516.539.339.310.710.7 7.41 7.41 5.6 5.62 2 6 657.657.6219.0219.0 5.5 5.56 62.52.5 91 91484816.816.837.337.337.337.3 9.12 9.12 2.8 2.80 0 7 753.153.1221.0221.0 7.4 7.42 23.93.9 90 90454516.816.830.030.027.027.0 8.64 8.64 2.8 2.84 4 8 870.170.1123.0123.0 5.3 5.38 83.13.1123123595917.017.047.847.834.634.681.6481.6411.211.25 5 9 986.686.6 45. 45.0 012.5412.541.21.2105105575714.814.869.069.037.337.323.9523.9511.211.20 0101082.282.2 81. 81.0 013.2413.241.61.6131131616115.915.962.362.316.516.533.6033.6016.816.80 0111176.876.8 90. 90.0 010.7010.701.51.5131131696915.815.867.667.622.222.2 8.93 8.93 9.8 9.80 0121288.988.9 83. 83.0 0 1.9 1.98 81.81.8107107656514.514.579.379.342.142.158.9758.97 3.5 3.50 0练习二 为了分析某地区自然经济条件对森林覆盖面积消长的影响而抽取12个村作为样本, 共测了12个因子, 各因子数据列于下表。
做因变量y1-y5对自变量x1-x7的逐步回归,取sle=sls=0.2其中: : 山地比例(%); : 人口密度(人/ ); : 人均收入增长率(元/年); : 公路密度(100m/ha); : 前汛期降水量(cm/年); : 后汛期降水量(cm/年); : 月平均最低温度(℃); : 森林覆盖率(%); : 针叶林比例(%); : 造林面积(千亩/年); : 年采伐面积(千亩/年); : 火灾频数(次/年)。












