
《用sas作回归分析》ppt课件.ppt
21页1,回归分析中SAS的使用,2,1、回归分析计算,PROC REG DATA=数据集名; MODEL 应变量=自变量; RUN;,PROC REG DATA=数据集名; MODEL 应变量=自变量名列/ p cli clm RUN;,3,2、回归线作图,PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项; RUN;,利用plot语句 可以绘制与拟合数据有关散点图、回归线 和置信曲线、预测区间曲线,,4,回归线作图,PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项; RUN;,y变量和x变量可以是应变量、 自变量和其它与回归分析有关 的变量: p.(predicted) 预测值 r. (residual) 余差 U95., L95. 预测值置信限 U95M.,L95M.预测均值置信限,选项: conf 95 作预测均值置信曲线 pred95 作预测值置信曲线 overlay 将语句中规定的图 迭置在一幅图上 AIC CP MSE SSE 在图上显示相应的统 计量,5,3、逐步回归分析计算--变量选择,PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r selection=stepwise slentry=0.05 slstay=0.05 details; RUN;,6,4、回归诊断,例外值(outliers)或异常作用点的检查 从已拟合回归的数据中分析线性模型的假定是否被破坏: 应变量的均值是否是独立变量的线性函数,是否 需要对变量进行变换或拟合曲线回归 余差(residuals)是否同方差,不相关,正态分布 独立变量间是否存性关系(仅多元有) 考察余差散点图是进行回归诊断的必要步骤,7,回归诊断,8,回归诊断,回归分析的余差值是回归诊断的重要工具,利用余差可以考察余差和预测值的散点图 也可以检验余差分布的正态性,9,回归诊断,模型合适,应改曲线模型,不等方差,观测值不独立,10,回归诊断 生成余差,在PROC REG的model语句加上选项 p,就会 输出预测值和相应的余差,PROC REG DATA=数据集名; MODEL 应变量=自变量/p; PLOT y变量*x变量/选项; RUN;,利用plot语句 plot r.*p. ; 就可得到余差- 预测散点图,其中可以把p值换成自变量x, 就得到相应的散点图。
11,回归诊断 识别异常观测值,在PROC REG的model语句加上选项 r,就会 输出与预测值和余差有关的一些统计量他 们可用于识别异常数据(outlier)及其影响,PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r; RUN;,Predict Value 预测值 Std Err Predict 预测值标准差 Residual 余差 Std Err Predict 余差标准差 Student Residual student化的余差 -2 -1 0 1 2 余差显著性图 Cook‘s D Cook’s D统计量 其中D是距离的缩写12,回归诊断 余差分布正态性,有了余差的数据,就可对其运用图形方法 或正式的分布正态性的检验 在INSIGHT中可直接对数据表中的预测余 差变量进行分析 在PROC REG可利用下列语句用图形分析 余差分布正态性,PROC REG DATA=数据集名 graphics ; MODEL 应变量=自变量; PLOT n.*student.(n.*r.); RUN;,13,回归诊断 识别有影响的观测,Cook D统计量度量一个观测从分析中剔除 时参数估计值的变化 对一个观测值其 Cook D 统计量的值超 过 4/n 时(n为样本容量),这个观测存在 反常效应, 其中4/n只是经验,没有统一的标准。
14,回归诊断 识别有影响的观测,Dffitsi 度量第i 个观测对预测值的影响,第i个观测的预测值,用排除第i个观测的回归对第i个观测的预测值,第i个观测的预测值的标准差, 是为了把数据标准化其中Dffits越大越好, D是different和fit的缩写说明,,p 为模型中参数的个数, n 为样本容量,其中,,15,回归诊断 识别有影响的观测,Proc REG 的 Model语句加选项 r 可获得 Cook D 统计量,Proc REG 的 Model语句加选项 influence 可获得 Dffits 等反映观测值影响的统计量,PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r influence; RUN;,16,选项 influence 生成的统计量,,,Hat diag:帽子矩阵,可以把杠杆点找出来,用的较多 Dbet:表示某个点删除前后统计量的变化17,五、影响点诊断,proc reg data=e4; model y1=x1-x4/influence r; run; 其中选项influence 同上一页R主要给出Cook-distance.前面已有。
18,六、共线性诊断,共线性(collinearity, multicollinearity)问题是指 独立变量间存性关系 1.变量间的线性关系会隐蔽变量的显著性 2.也会增加参数估计的方差 3.产生不稳定的模型 只有拟合多元回归才会发生这一问题 共线性的诊断可使用方差膨胀因子、条件指数和方差比例,19,回归诊断 共线性诊断-VIF,方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度 量,Rr2 是Xr关于模型中其它独立变量回归的R2,一般采用 VIF 10 表明存在共线性问题,Proc REG 的Model语句加选项 VIF,20,回归诊断 共线性诊断-条件指数和方差比例,条件指数(condition index)和方差比例 (variance proportion)联合使用可确认存在 线性关系的变量组 条件指数(hi=(lmax/li)1/2) 在10-30间为弱相关 在30-100间为中度相关 大于100表明有强相关 大的条件指数伴随方差比例 0.5 可确认有 共线性的独立变量子集,Proc REG: Model语句 加选项collin 或 collinoint,21,回归分析计算,PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r vif influence collin; PLOT y变量*x变量/选项 . . .; RUN;,作图变量:r., student., n., .,。
