SAS讲义第四章回归与回归诊断.doc
38页第四章 回归与回归诊断教学目标:回归分析是基于观测数据建立变量间的依赖关系,并可用于预报、控制等问题不仅要熟练掌握线性回归模型的建模理论与方法,而且要能够利用回归分析的SAS过程解决有关实际应用问题为学生将来从事科研和应用打下坚实的基础重难点:各种回归模型的建模理论与方法,参数估计、模型与参数的检验;利用回归分析的SAS过程解决有关实际应用问题第一节 多元线性回归一.多元线性回归模型假设是一个可观测的随机变量,非随机因素和随机误差对有影响,并且它们之间具有线性关系 (1)其中是均值为零、方差为的误差项,它表示除了之外其它因素对的影响以及试验或测量误差,是未知参数.本章假定该模型称为线性回归模型,且称为因变量,为自变量假定我们有了因变量和自变量的组独立的观测值,它们满足(1)式,即 (2)其中误差项相互独立,且服从分布二.参数估计方法——最小二乘准则获得参数向量的估计的一个最重要方法是最小二乘法,该法是找的估计,使得偏差向量的长度之平方和达到最小,即其中分别对的每一分量求偏导数,并令其为零,可以得到方程组它称为正规方程.这个线性方程组有唯一解的充要条件是的秩为.等价地,的秩为.以后性回归模型的讨论中,我们总假定这个条件满足.于是我们得到的最小二乘估计为根据微积分的极值理论,只是函数的一个驻点.可以证明确实使达到最小.记并将其代入(1),去掉误差项,得到回归方程性回归模型(1)中还有一个重要参数,它是模型误差项的方差,因而有时简称为误差方差. 反映了模型误差以及观察误差的大小,在回归分析中起着重要作用.现在我们讨论的估计问题.误差向量是一个不可观测的随机向量,用最小二乘估计代替其中的,得到称为残差向量,其中为对称幂等矩阵。
称数为残差平方和,它的大小反映了实际数据与理论模型(1)的偏离程度或者说拟合程度.可以证明为的无偏估计三.假设检验问题1. 回归方程的显著性检验和之间是否存在显著的线性关系,还需要对回归方程进行检验1)方差分析表方差来源自由度平方和均方比回归误差总和(2)线性回归关系的显著性检验检验假设:构造统计量可以证明当为真时,当不真时,又偏大的趋势如观测值,则接受;否则拒绝3)检验的值在SAS及其他一些数据分析软件中,对显著性检验问题,其输出结果通常是检验的值在上述线性回归关系的显著性检验问题,其检验的值为,对于给定的显著水平,任何检验准则均为2. 回归系数的显著性检验回归关系显著并不意味着每个自变量对因变量的影响都显著,可能其中的某个或某些对的影响不显著希望从回归方程中剔除那些对的影响不显著得自变量,从而建立一个简单有效的回归方程,以便于实际应用检验的影响是否显著等价于检验假设:由于的一个估计为可以证明其中为的主对角线上的第个元素的平方根由此得到检验准则为对上述统计量,其值为,于是若,则接受,反之就拒绝四.使用REG过程进行多元线性回归计算PROC REG过程PROC REG过程是SAS系统中回归分析的一种,它可拟合线性回归模型,可提供多种选取最优模型的方法及模型诊断检查方法,其基本语句形式为:PROC REG options(数据集);Model dependent(因变量)=regressors(自变量)/options;Output Out=SAS data set keyword=name …;例4.1.1 建立用电量KWH与空调每天使用的小时数AC和烘干器每天使用的次数DRYER的经验公式。
解 data kilowatt;input kwh ac dryer;cards;35 1.5 163 4.5 266 5.0 217 2.0 094 8.5 379 6.0 393 13.5 166 8.0 194 12.5 182 7.5 278 6.5 365 8.0 177 7.5 275 8.0 262 7.5 185 12.0 143 6.0 057 2.5 333 5.0 065 7.5 133 6.0 0;proc plot data=kilowatt;plot kwh*ac='*';run;proc reg data=kilowatt;model kwh=ac dryer;run;print cli; %计算的预测值和95%置信限run; Plot of kwh*ac. Symbol used is '*'. kwh ‚ ‚ 95 ˆ * * 93 ˆ * 91 ˆ 89 ˆ 87 ˆ 85 ˆ * 83 ˆ * 81 ˆ 79 ˆ * * 77 ˆ * 75 ˆ * 73 ˆ 71 ˆ 69 ˆ 67 ˆ * * 65 ˆ * * 63 ˆ * * 61 ˆ 59 ˆ 57 ˆ * 55 ˆ 53 ˆ 51 ˆ 49 ˆ 47 ˆ 45 ˆ 43 ˆ * 41 ˆ 39 ˆ 37 ˆ 35 ˆ * 33 ˆ * * 31 ˆ 29 ˆ 27 ˆ 25 ˆ 23 ˆ 21 ˆ 19 ˆ 17 ˆ * ‚ 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 ac Dependent Variable: kwh Analysis of Variance (方差分析) Source DF Sum of Squares Mean Square F Value Pr > F Model 2 9299.80154 4649.90077 300.24 <.0001与的线性回归关系是高度显著 Error 18 278.76989 15.48722误差方差的估计 Corrected Total 20 9578.57143 Root MSE 3.93538 R-Square复相关系数 0.9709 Dependent Mean 64.85714 Adj R-Sq修正的复相关系数 0.9677 Coeff Var 6.06777 Parameter Estimates(参数估计) Variable DF Parameter Estimate Standard Error t Value Pr > |t值| Intercept 1 8.10539 2.48085 3.27 0.0043 ac 1 5.46590 0.28076 19.47 <.0001 dryer 1 13.21660 0.85622 15.44 <.0001 Obs Dep Var kwh Predicted Value Std Error Mean Predict 95% CL Predict Residual 1 35.0000 29.5208 1.7965 20.4322 38.6095 5.4792 2 63.0000 59.1351 1.1927 50.4958 67.7745 3.8649 3 66.0000 61.8681 1.1202 53.2718 70.4644 4.1319 4 17.0000 19.0372 2.0605 9.7045 28.3699 -2.0372 5 94.0000 94.2154 。





