
实验11-多元及岭回归分析.doc
16页重庆工商大学数学与统计学院《统计专业实验》课程实验报告实验课程: 统计专业实验 __ 指导教师: __ 叶勇____ 专业班级: _ 统计三班_____ 学生姓名: _ 黄坤龙__ 学生学号: 2012101328____实 验 报 告实验项目实验11 多元及岭回归分析实验日期2015-6-10实验地点81010实验目的掌握多元回归模型的变量选择,岭回归分析的思想和操作方法实验内容1.根据数据文件估计北京市人均住房面积的影响模型并进行相应分析2.建立重庆市人均住房面积的影响模型,根据统计年鉴收集整理指标数据,并进行模型估计和分析实验思考题解答:1.方差膨胀因子VIF的用途和计算公式是什么,其判断标准?答:方差膨胀因子是用来诊断一个序列是否存在多重共线性自变量xj的方差膨胀因子记为VIF,它的计算方法为:VIF=1/1-Rj2Rj2为以xj为因变量时对其他自变量回归的复测定系数 VIF越大,表明多重共线性越严重当0 实验运行程序、基本步骤及运行结果:1.根据数据文件估计北京市人均住房面积的影响模型,并进行相应分析 (1).首先,要确定因变量和自变量,根据题目,因变量为:人均住房面积y自变量为:人均全年收入x1人均可支配收入x2城镇储蓄存款余额x3人均储蓄余额x4国内生产总值x5人均生产总值x6基本投资额x7人均基本投资额x8 (2).然后利用SPSS进行多元线性回归分析,得到结果为:模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.994a.988.981.246341.681a. 预测变量: (常量), x8, x7, x3, x6, x1, x2, x4b. 因变量: y分析:根据拟合出来的模型可以知道,可决系数为0.988,调整后的可决系数为0.981.说明解释变量解释了被解释变量变异程度的98.1%,进而可以说明模型的拟合效果好Anovab模型平方和df均方FSig.1回归59.60878.515140.325.000a残差.72812.061总计60.33619a. 预测变量: (常量), x8, x7, x3, x6, x1, x2, x4b. 因变量: y分析:这是对于模型的整体显著性检验(F检验),根据结果可以看出F检验统计量为140.325,概率P值为0.000<0.05,说明模型通过了显著性检验,模型的拟合是有效的。 已排除的变量b模型Beta IntSig.偏相关共线性统计量容差VIF最小容差1x510.462a1.469.170.4051.809E-555278.7791.780E-5a. 模型中的预测变量: (常量), x8, x7, x3, x6, x1, x2, x4b. 因变量: y分析:根据多元线性回归模型的建立,将变量x5排除,它与模型中的其他解释变量存在很严重的多重共线性系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)3.964.24116.477.000x1.000.001-.956-.817.430.0011361.278x2-.001.001-2.180-2.195.049.001980.463x3.001.002.749.627.542.0011418.704x4.000.000-2.480-2.067.061.0011431.296x6.001.0005.1556.301.000.002665.397x73.285E-7.000.3492.505.028.05219.316x8.000.000.330.972.350.009114.391a. 因变量: y分析:这是对于模型的系数显著性检验(t检验),根据结果可以看出,常数项的P值为0.000<0.05,即是通过了显著性检验;x1的P值为0.43>0.05,没有通过显著性检验;x2的P照顾为0.049<0.05,通过了显著性检验;x3的P值为0.542>0.05,即是没有通过显著性检验;x4的P值为0.061>0.05,没有通过显著性检验;x6的P值为0.000<0.05,通过了显著性检验;x7的P值为0.052>0.05,没有通过显著性检验;x8的P值为0.009<0.05,通过了显著性检验。 再根据方差扩大因子可以看出x1,x2,x3,x4,x6,x8存在多重共线性,只有x7不存在多重共线性共线性诊断a模型维数特征值条件索引方差比例(常量)x1x2x3x4x6x7x8117.4441.000.00.00.00.00.00.00.00.002.4843.923.09.00.00.00.00.00.00.003.04512.870.00.00.00.00.00.00.45.004.02318.096.21.00.00.00.00.00.01.085.00348.783.30.01.01.02.02.06.37.196.00199.386.00.14.00.07.17.17.10.037.000144.498.09.04.95.02.00.29.05.128.000239.240.31.80.04.89.81.48.02.58a. 因变量: y残差统计量a极小值极大值均值标准 偏差N预测值5.314111.12147.86201.7712320残差-.41181.38168.00000.1957720标准 预测值-1.4381.840.0001.00020标准 残差-1.6721.549.000.79520a. 因变量: y(3).利用岭回归法对模型进行修正 岭回归法就是用过增加一个偏倚量c,使得模型估计更加稳定和显著。 在SPSS中岭回归的实现:新建一个syntax窗口,调入岭回归语句(引号内为该文件实际所在路径):Include "d:\Ridge regression.sps".岭回归命令格式:ridgereg enter=自变量列表 /dep = 因变量 /start=c初始值,默认为0 /stop=c终止值,默认为1 /inc=渐进步长,默认0.05) /k=c 指定偏倚系数,输出详细回归结果 .最后一定要有一个点.输入 ridgereg enter=x1 x2 x3 x4 x6 x7 x8 /dep = y /inc=0.01.点运行按钮 run 得到结果为:R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ x1 x2 x3 x4 x6 x7 x8______ ______ ________ ________ ________ ________ ________ ________ ________.00000 .98793 -.955631 -2.18005 .748792 -2.47981 5.154638 .349141 .329859.01000 .94831 .378142 .176599 -.612495 -.498101 1.173739 .185817 .140657.02000 .93217 .308957 .200793 -.400480 -.301644 .779982 .112638 .242594.03000 .92303 .270773 .197581 -.290430 -.203683 .608333 .085146 .273692.04000 .91693 .246958 .192037 -.221381 -.143939 .510876 .073335 .282129.05000 .91246 .230606 .186853 -.173260 -.103246 .447625 .068238 .281821.06000 .90897 .218606 .182354 -.137464 -.073540 .403059 .066384 .277872.07000 .90614 .209373 .178488 -.109634 -.050802 .369855 .066208 .272429.08000 .90378 .202011 .175147 -.087294 -.032788 .344093 .066928 .266472.09000 .90176 .195980 .172235 -.068922 -.018140 .323481 .068126 .260469.10000 .90001 .190929 .169671 -.053524 -.005982 .306587 .069571 .254643.11000 .89847 .186626 .167394 -.040419 .004278 .292467 。
