
基于SPSS的多元统计分析三种算法的实例研究.doc
15页个人收集整理 勿做商业用途基于SPSS的多元统计分析三种算法的实例研究摘 要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离.本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型.1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型文中取因变量Y为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X1(单位:元)、商品零售价格定基指数X2(1978年的为100)、消费价格定基指数X3(1978年的为100)、家庭恩格尔系数X4(%)、人均住宅建筑面积X5(单位:m2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中.1.3 模型建立1.3.1 理论背景多元线性回归模型如下: Y表示因变量,Xi(i=1,…,p)表示自变量,ε表示随机误差项对于n组观测值,其方程组形式为 即模型假设:⑴零均值假设: i=1,2,…,n⑵同方差: ⑶无自相关: ⑷误差与自变量不相关: i=1,2,…,n, k=0,1,…,p⑸自变量之间无多重共线性 1.32模型建立及SPSS运算结果分析假设因变量Y(农村居民年人均生活消费支出)与自变量X1(农村居民人均纯收入)、X2(商品零售价格定基指数)、X3(消费价格定基指数)、X4(家庭恩格尔系数)、X5(人均住宅建筑面积)满足下述等式:强行回归:在SPSS中进行强行回归,会得到如下表格:⑴输入变量从表1—1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数表1-1 输入的变量输入/移去的变量模型输入的变量移去的变量方法1X5, X2, X4, X1, X3a。
输入a 已输入所有请求的变量描述性统计量均值标准 偏差NY1847.25859830383720X12391.8901292887420X2335.25559981520X3298.05069.430020X4509526340720X5249434.876220⑵拟合优度检验表1—2 拟合优度检验模型汇总b模型RR 方调整 R 方标准 估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.999a.998.99756.89386.99811316725140001.197a 预测变量: (常量), X5, X2, X4, X1, X3 因变量: Y表1-2是对回归方程的拟合优度检验的说明样本决定系数,说明自变量可以解释因变量998%的变化,而调整后的样本决定系数,这两个值非常接近1,所以拟合程度比较高.⑶方程显著性检验表1-3 方程显著性检验Anovab模型平方和df均方FSig1回归1.832E753663121.5341131.672.000a残差45316766143236.912总计1.836E719a. 预测变量: (常量), X5, X2, X4, X1, X3。
b 因变量: Y表1-3是对回归方程显著性检验的说明统计量,对应的概率值,说明回归方程显著成立(我们给定显著水平为005).⑷参数求解及其显著性检验表1-4 参数求解及显著性检验系数a模型非标准化系数标准系数tSig.相关性共线性统计量B标准 误差试用版零阶偏部分容差VIF1(常量)—1457.646936744-1142X1.836.065110012808.000.998.960170.02441819X234173837.209388.755.232.012.003310892X3—5.2934780—.374-1.107.287.888-284—.015.002646.608X416.65711.904.1071184—350.019.03033.443X535611241771165.969.365019.01282.463a. 因变量: Y表1—4是对参数的求解及显著性检验的说明我们可以从上表看出系数向量的估计值,其中,,,,,则拟合的回归方程为另外,由上表中的t检验(我们给定显著水平为010)知:只有自变量X1(其对应的概率p=0000)与因变量Y在总体上存在比较显著的线性关系,其余自变量与因变量的线性关系不显著。
⑸多重共线性检验表1-5 共线性检验共线性诊断a模型维数特征值条件索引方差比例(常量)X1X2X3X4X5115.7821.000.00.00.00.00.00.0022015357.0000.00.00003.01420.626004.00344.80000.36.00.00.04.065.000218.27029.01.01.498763.947E-5382.72029.9999.4706a. 因变量: Y关于多重共线性的检测,我们采用计算条件索引或方差膨胀因子的方式.当条件索引小于30的时候,说明共线性不明显从表1-5中可以看出,X3、X4、X5所对应的条件索引都大于30,说明有一定的共线性另外从表1-4中可以看出方差膨胀因子VIFi(一般认为该值小于10时,说明不存在共线性)都大于10,说明变量之间存在严重的共线性⑹自相关检验从表1—2的Durbin-Watson列我们得到回归模型的,在(0,2)区间范围内,属于部分正自相关.1.4 模型修正再运算与结果分析虽然上述的强行回归建立的线性回归方程具有很好的拟合度,并且方程的显著性也很高,但是部分参数的显著性并不高且具有比较严重的多重共线性关系。
所以本文又分别用逐步回归、向前回归、向后回归、岭回归对模型进行一定的修正,所得结果如下㈠逐步回归所谓逐步回归就是在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,然后从两端分别将影响显著的自变量选入和将影响不显著的变量剔除通过SPSS对附表一中的数据做逐步回归分析,得到下列数据表格:表1-6输入/移去的变量a模型输入的变量移去的变量方法1X1.步进(准则: F-to—enter 的概率 〈= .050,F-to—remove 的概率 〉= 100)2X4.步进(准则: F—to-enter 的概率 <= .050,F-to—remove 的概率 >= 100)3X3.步进(准则: F-to—enter 的概率 <= .050,F-to-remove 的概率 〉= .100).a 因变量: Y表1—7模型汇总d模型RR 方调整 R 方标准 估计的误差Durbin-Watson1998a99570.621792998b.99699663.892823999c997.99757490271045a 预测变量: (常量), X1 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3.d. 因变量: Y表1-8Anovad模型平方和df均方FSig.1回归1.827E711827E73663.434.000a残差89773881184987.438总计1836E7192回归1829E729145762.7302240.350000b残差69398.978174082293总计1836E7193回归1.831E736102680.7801846.426.000c残差52882.098163305.131总计1836E719a 预测变量: (常量), X1b. 预测变量: (常量), X1, X4 预测变量: (常量), X1, X4, X3.d. 因变量: Y表1—9系数a模型非标准化系数标准系数tSig.相关性共线性统计量B标准 误差试用版零阶偏部分容差VIF1(常量)3305333342X1013.99860.526.000998.998.9981.00010002(常量)—741.801348.188—2048X1028107129.525998.990.440.1695923X412.56950812.234。
039—.896.476.0331695.9233(常量)—605。
