
信息与计算科学-多元线性回归模型及其应用论文.docx
16页多元线性回归模型及其应用摘要 本文介绍了多元线性回归模型,其过程分为模型构建、模型参数估计、模型检验和模型预测等几个方面通过对与我国物价指数CPI相关的几个因素建立初始多元线性回归模型,分析CPI的影响因素,之后对该模型进行各种统计检验,在模型检验中发现初始模型中有部分变量的系数不能通过检验,可能存在多重共线性的问题,最后采用逐步回归分析法来进行去除显著性不高的变量,并且建立新的模型,最终找出了影响CPI的关键要素是农业生产资料价格和人均GDP,通过最终确定的CPI与其影响因素之间的线性回归方程可以清晰地得到各个指标对CPI的影响大小,进而为我国控制CPI提供方向性的建议指导关键词 多元线性回归 CPI影响因素 逐步回归 Multiple linear regression model and its applicationAbstract This article introduces the multiple linear regression model, and its process is divided into several aspects: model construction, model parameter estimation, model testing and model prediction. By establishing an initial multiple linear regression model on several factors related to China's price index CPI, analyzing the influencing factors of CPI, and then carrying out various statistical tests on the model, it is found in the model test that the coefficients of some variables in the initial model cannot pass Test, there may be a problem of multicollinearity, and finally use a stepwise regression analysis method to remove less significant variables, and establish a new model, and finally find out that the key factors affecting CPI are agricultural production materials prices and GDP per capita, Through the final linear regression equation between the CPI and its influencing factors, we can clearly get the impact of various indicators on the CPI, and then provide directional recommendations for the control of CPI in China.Key words Multiple linear regression CPI influencing factors stepwise regression目 录引 言 11. 多元线性回归分析基本理论 21.1 多元线性回归模型的一般形式 21.2 多元线性回归模型的基本假设 21.3 参数估计 21.3.1 回归系数的估计 21.3.2 样本方差的估计 31.4 模型检验 31.4.1 回归方程的显著性检验 41.4.2 回归系数的显著性检验 41.4.3 回归方程的拟合优度检验 41.5 模型预测 51.6 自变量的筛选方法 52. 多元线性回归在CPI影响因素中的应用 62.1 数据筛选 62.1.1 指标选取 62.1.2 数据收集 62.2实证分析 72.1.3 建立模型 72.1.4 参数估计 82.1.5 模型检验 82.1.6 模型优化 92.1.7 残差检验 11结论与建议 13参考文献 14致 谢 15引 言在大学课程的学习中我们接触到了应用数理统计方法,比较常用的方法有方差分析、回归分析、聚类分析等,然而,多元统计分析Error! Reference source not found.p64-65中的重要方法之一就是多元线性回归分析Error! Reference source not found.,在人文科学和自然科学的许多领域都有应用。
多元线性回归模型是研究一个随机变量与两个或两个以上一般变量之间相依关系的模型,它的基本步骤大致分为模型的建立、模型求解、模型的检验与模型的预测 我们对居民消费价格指数(CPI) Error! Reference source not found.波动的理解是基于商品价格浮动的直观认识,但在现实生活中商品价格的变化也会受到各类商品的市场供求关系、产业发展、收入变化、人民生活水平以及经济发展水平等诸多因素的影响为了能够进一步解释研究影响CPI的主要因素,通过翻阅相关文献可以看出,国内有关CPI影响因素的研究较多,为了分析辽宁省的CPI,刘茹玉选取了固定资产投资、CPI的构成、工业的产出量以及农业生产资料价格这几个指标作为自变量Error! Reference source not found.p23-24;董荣花从生产者价格指数、实际产出、货币供应量这几个方面研究了与CPI的相干关系Error! Reference source not found.p34-35;刘懿枞、李明洋、王虹博选取了货币和准货币供应量(M2)社会商品消费零售总额、固定资产投资(FAI)、国内生产总值(GDP)和进出口总额作为相关指标,研究了这些指标对我国CPI的影响Error! Reference source not found.。
从分析上述研究文献可以发现,虽然研究指标选取范围很广,但是没有用不同方法地对我国CPI影响因素进行多元线性回归研究因此,本文将用不同的回归方法来研究我国CPI的主要影响因素本文在此背景下,分析借鉴了前人的研究和经验,依据多元线性回归模型的构建,初步筛选了6项与CPI有关的宏观经济指标作为影响变量,并在多元线性回归分析中采用不同的回归方法进行比较分析,以此来构建CPI及其影响因素之间的线性回归方程,我们可以清晰地看到各个指标对CPI的影响,从而找出了影响CPI的关键要素是农业生产资料价格和人均GDP,进而为我国经济发展提供方向性的建议指导1. 多元线性回归分析基本理论一个被解释变量与多个解释变量形成的线性关系模型就是多元线性回归模型1.1 多元线性回归模型的一般形式设随机被解释变量与一般解释变量线性回归模型的标准形式如下:式中,是被解释变量的第个观测值;是第个解释变量的第个观测值;表示模型的回归系数;为随机误差项1.2 多元线性回归模型的基本假设为了能够在统计学上很好地描述参数估计的特性,模型必须符合下面几个假设:1. 解释变量非随机或固定,且各之间不存在严格线性关系2. 样本中获得的每个解释变量都具有差异性,并且每个的均约等于一个不等于零的常数。
3. 期望为0的,相等并且没有序列相关性4. 与之间没有关联1.3 参数估计1.3.1 回归系数的估计在确定回归理论模型后,将基于收集的样本数据估算模型中的未知参数回归系数和总体方差属于该模型的未知参数目前应用最广泛的方法是普通最小二乘法,也就是经典的估计方法 求多元线性回归模型中的回归系数,最小二乘法是目前应用最广泛的估计方法,不过这个方法必须是基于模型的基本假定之上的,因为有一些因此方法而导致模型不符合基本假设,所以一些新的方法就被人们所提出来了,比如偏最小二乘估计、主成分回归、岭回归Error! Reference source not found.p66-67等,但是这一切都基于普通最小二乘法这一估计方法 最小二乘法就是使残差平方和取得最小值因为是的非负二次式,所以最小值一定存在依据数学分析的极值原理,应满足下述方程:称为标准回归方程组,将代入式中整理得:由此可求得的值1.3.2 样本方差的估计多元线性回归模型中随机误差项的样本方差计算公式如下:其中,为样本观测值的个数,为回归系数的个数,为残差平方和,为总体方差的无偏估计又被称为回归估计的标准误差,越小说明回归方程的代表性越强。
1.4 模型检验回归方程被建立之后,还必须进行各类统计检验,回归方程的R2检验、回归方程的F检验、回归系数的t检验都包含在模型的检验之中1.4.1 回归方程的显著性检验模型假设为:检验统计量:是解释变量的个数,统计量服从自由度的分布用统计软件会自动计算出检验统计量的观测值及相应的概率值,假如,则应拒绝原假定,认为回归系数不全为0,表明回归方程具有显著意义;若,则反之1.4.2 回归系数的显著性检验模型假设为:构造检验统计量:服从自由度为的分布假如,则拒绝原假定,认为某一个回归系数不为0;若,则反之1.4.3 回归方程的拟合优度检验性回归模型中,用判定系数表示拟合程度, 记为:其中表示总离差平方和,表示回归平方和, 表示残差平方和为了避免由于添加自变量而导致高估通常也采用调整过的多重判定系数来进行拟合优度检验,其中:或的值越接近1,说明拟合度越高,相反或越接近0,拟合效果越差1.5 模型预测如果回归模型顺利通过了前面的各种统计检验,那么还可以利用模型对被解释变量进行预测在当期各解释变量的样本量被提供之后,则可以通过最优回归模型来求解解释变量基本公式如下:其中,是给定的在预测期的具体数值,为已经估计出来的样本回归系数,为给定时的预测值。
标准误差的计算方法如下:在给定显著性水平之下的置信区间如下:是显著性水平的分布双侧临界值1.6 自变量的筛选方法在多元线性回归模型中,引入自变量的选择直接影响到模型的质量在模型中,重要的自变量不能被忽略,而且还要避免太多变量引起的诸多负面影响,例如,一方面加大计算量,进而增加了误差,另一方面,还有可能会出现多重共线性的问题,因此我们要对变量进行筛选处理利用SPSS软件Error! Reference source not found.p27-29可以通过以下几种方法选择自变量进入回归方程:逐步回归法、向后剔除法和向前引入法向前引入法(Forward),它是一种只选不剔、自变量从无到有的筛选方法首先,将每个自变量与因变量进行线性回归,并分析其相关性,将相关性最强或者P值最小的自变量放入回归模型中,接下来就是在此基础上,再检验剩余自变量与因变量之间的相关性,继续选择相关性最强或者P值最小的自变量进入模型中,并重复执行这个过程,直至模型外自变量的P>0.05为止向后剔除法(Backward),它是一种只剔不选的自变量筛选方法首先将自变量框中的所有自变量选入方程,之后将P值最大的自变量剔除,然后使用剩余的自变量建立新的回归方程,重复此过程,直到无法剔除方程中不显著的自变量。
逐步回归法(Stepwise),它是一种先选后剔、双向筛选的方法这个方法首先用向前引入法的方法引入自变量,在每引入一个自变量之后,。












