
多元线性回归中多重共线问题的解决方法综述.docx
7页多元线性回归中多重共线问题的解决方法综述摘要在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大 模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要 环节如今常用的解决多元线性回归中多重共线性的回归模型有岭回归〔Ridge Regression), 主成分回归(Principal Component Regression 简记为 PCR)和偏最小二乘回归(Partial Least Square Regression 简记为 PLS)关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归引言在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并 破坏模型的稳健性由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法 消除多重性的不良影响无疑具有宏大的价值常用的解决多元线性回归中多重共线问题的回 归模型主要有主成分回归岭回归以及偏最小二乘回归1、多元线性回归模型 1.1回归模型的建立设Y是一个可观测的随机变量,它受m个非随机因素X1,X2,^,Xp1和随机因素8的影响,假 设有如下线性关系Y = P +P X +P X +・.・+0 X +80 11 2 2 p-1 p-1我们对变量进展了 n次观察,得到n组观察数据(如下),对回归系数P0,P],…,P(1 )进展 估计 ° "”Y, X 1 X 2,…,X ( , i = 1,…,n一般要求n>P。
于是回归关系可写为Y 1Y2• • •=P 0=P0+ P1+ P1X11X21+ p X+ • • • + P X +8+ . . . + P X + 82+p212X22Yn=P0+ P1Xn1+p2Xn2+ . . . + P X + 8n采用矩阵形式来表示「Y 1「1XX•••X ■111121,( p-1)Y1XXV • • • X:2,x =…21• • •222,( p-1)YL1XX…X —nnx1n1n 2n,(p-1)」nx pp0p1£l£2nxlp Ip T pxlY称为观测向量,X称为设计矩阵,8称为误差向量,P称为回归参数那么误差的平方和s (p ) = |£ I|2= Y - xp\ |2 = (Y - xp )T (Y - xp ) = YTY-P TXTY - YTXP + P T XT XP 求参数 b 的估计 B=(B0,8「• ••, B(1 - p))使得 S( p) = min S( p)用最小二乘法估计^p) = § [(Y - Xp )t (Y - Xp )] = % (YtY-2YtXp + p tXtXp ) a .^ — (-2YtXp + p tXtXp ) = -YtX + 2 XtXp = 0得正规方程: (XtX ) p = XtY由于X为列满秩,所以X TX可逆,由此解得p = ( XtX ) -1 XtY1.2多重共线性的产生当Rank (X ) < P时,说明在数据矩阵X中,至少有一个列向量可以用其余的列向量 线性表示,那么说明存在完全的多重共线性。
即|X TX| = 0,(XTX )】不存在,而p =(XtX)-1 X TY导致p无法估计多重共线性的产生的原因1l]经济变量之间往往存在同方向的变化趋势当他们被引入同一个模型成为解释变量时, 会出现多重共线性〔2〕模型中包含滞后变量,变量各期值之间有可能高度相关〔3〕利用截面数据建立模型也可能出现多重共线性〔4〕经济变量之间往往存在着亲密的内在关联度,要素之间互相制约,互相依存〔5〕样本数据自身的原因,数据搜集的范围过窄,造成某些解释变量之间似乎有一样或相 反变化趋势的假象〔6〕在建模过程中由于解释变量选择不当,引起变量之间的多重共线性2处理多重共线性的方法2. 1处理多重共线性的经历式方法2. 1.1删除不重要的共线性变量最常见的一种思路是设法去掉不太重要的共线性变量有些应用人员认为,可以采用多 元回归分析中的向前选择变量、向后删除变量法或逐步回归法来进展变量的挑选然而,在 理论上,这些变量挑选方法都是针对无共线性的数据而言的在多重共线性非常严重的情况 下,结论的可靠性都要受到一定的影响由于变量间多重共线性的形式非常复杂,而且还缺 乏非常可靠的检验方法,所以,删除部分多重共线性变量的做法常导致增大模型的解释误差, 将本应保存的系统信息舍弃,使得承受一个错误结论的可能和做出错误决策的风险都不断增 大。
另外,在一些模型中,从理论上要求一些重要的解释变量必须被包括在模型中,而这 些变量又存在多重共线性这时采用删除部分共线性变量的做法就不符合实际工作的要求 2.1.2增加样本容量增加样本的容量在某种程度上会减轻多重共线性对模型估计的影响,而且对某些样本数 据来说,变量间的多重共线性可能正是由于样本容量过小而造成的然而,在实际工作中, 由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的2.1.3变量转换的方式在少数情况下,当基于理论背景认为所有的变量都极其重要,但互相之间存在严重的多 重共线性时,对方程的变量进展变换有时至少能在一定程度上消除共线性两种最常用的变 换方法为:(1) 构造一个多重共线性变量的组合此方法就是构造一个新的变量,这一新变量是多重 共线性变量的函数,进而以这一新变量来替代回归方程中的具有多重共线性的那些旧变量 但要注意的是,只有当新变量本身有意义时,才可以考虑采用组合变量这一方法2) 把方程的函数形式转换为一阶差分形式假设把一个方程〔或一个方程中的几个变量〕 从它的常规设定形式转换为一阶差分的设定形式,就很有可能会大大降低多重共线性的程度 由于一阶差分方法损失了一个观测值〔即样本数据少了一个〕,这在小样本的情况下是极不 可取的。
岭回归根据高斯-马尔科夫定理,性回归模型的根本假设满足时,用最小二乘法得到的回 归系数估计量是无偏的且具有最小方差可以证明,即使在高度多重相关的情况下,最小二 乘法的回归系数估计量仍然是线性无偏的,且具有最小方差也就是说,多重共线性并不影 响最小二乘估计量的无偏性和最小方差性因此在所有的线性无偏估计中,最小二乘估计仍 具有比较小的方差,这并不意味着最小二乘估计量的方差一定是最小的,因为,虽然它在所 有的线性无偏估计量中是方差较小,但是这个方差却不一定小于是就启发我们,是否可以找到某一个有偏估计,这个有偏估计虽然有微小的偏向,但 它的精度却可以大大高于无偏的估计量在许多情况下,我们更愿意选用这个估计量,因为 它接近真实参数值的可能性更大岭回归就是一种基于放弃回归系数一般最小二乘估计的无 偏估计性要求的方法根本思想:当出现多重共线性时,|XrXg 0,从而使参数的P = (XtX)TXtY很不稳定,出现不符合含义的估计值,给|XtX|加上一个正常数矩阵KI(K>0),那么|XtX + KI|等于0的可能性就比|XtX|的可能性要小得多,再用p =(XtX)_!XtY来估计,比用普通最小二乘估计的要稳定得多。
主成分回归根本思想:假设观察了 n个样本点,得到因变量y和p个自变量x1,x2,...,xp为后续分析 方便起见,并且不失一般性,可假设它们都是标准化变量 (均值为零方差为1)自变量 x0=(X],x2". ,xp)间的相关数矩阵记为R用主成分回归方法的第1步,是完全撇开因变量y,单独考虑对自变量集合做主成分提取 其过程是:⑴求R的前m个非零特征值人1 >人2 >,,,>% > 0,以及相应的特征向量%刀2,... ,um⑵求 m 个主成分:Fh=X0uh h=1,2,... ,m可以证明,这m个主成分有如下性质:① 均值为零:E(Fh)=0,h=1,2,…,m;② 假设方差算子用var(-)表示,var(Fh)=人h h=1,2,.,m 所以有 var(F) > var(F) > ••- > var(F )是由于它携带了原自变量系统中最多的从这个性质可知,F1之所以被称为第1主成分,变异信息也就是说,假设要以一个综合变量来概括原来所有的自变量,并希望数据变异信息 损失最小,那么第1主成分是最好的选择它对原变异信息的反映精度为八 人 人Q = 1 = 1切 var(X) Pjj=1③第1主成分与所有原变量的相关度可到达最大。
即最优化问题max 2r 2( xu, x)0 j ueRP *其中r (•,•)为相关系数算子它的解是u* = u1,而x0u1=F1O因此,假设要寻找一个综合变量,它能和原来所有的自变量最相关,这个变量就是第1 主成分F1④主成分F],F2,…,Fm是彼此无关的变量,即协方差为cov(Fj,Fk)=0 j丰k由于主成分之间不再存在自相关现象,这就对解决多重相关性下的回归建模问题给出了 某种希望这种成分提取的思路是非常可取的问题在于,在上述成分提取过程中,完全没有考虑与 因变量y的联络这样所得到的第1 (或前几个)主成分可能会对自变量系统有很强的概括才 能,而对y的解释才能却变得非常微弱偏最小二乘回归根本思想:⑴假设记t1=X0w1,那么上述的数学原那么可表达成优化问题:max Er (y, X W) • var( X W)20 0u^RP j=1⑵分别施行X和y在t1上的回归:X°=t1P1'+X1其中P1为回归系数,p1=X ' t — 40 1; X是残差矩阵叶1,,t y t t而v=r1t1+v1,其中「1=『(;y1是残差向量⑶以残差矩阵X1和"替代X0和V,采用类似于提取t1的方法,可以进展第2个综合变量t2 的提取,然后施以回归:乂弟也牧注V1=r2t2+V2如此循环往复,直到提取了 A个综合变量",械…志(阶数A确实定目前流行采用“交差 有效性〃)。
做v对成分t,侦忑的普通多元线性回归,得到y =a t +a t +••• + a t + y *12 A 11 2 2 AAA而由于每一个th均为X],x2, ,xp的线性组合(X0=X],x2,…七),因此可以最终写出PLS1回归 模型:y — P X +X +•..+X + y1 1 2 2 P P A从PLSR回归的工作过程看,它采取的是一种循环式的信息分解与提取方法它在多变量 集合中逐次提取成分Jt, ,tA,它们对v的解释才能最强,同时又最能概括X0中的信息而同 时,对V没有解释意义的信息那么自动地被排除掉了3. 结论岭回归估计量的质量取决于k值的选取,但是k值确实定存在一定的人为因素,所以在 确定k值的时候要把定性分析和定量分析有机的结合起来一般认为:在通过岭迹图和方差膨 胀因子来选择k值时,其判断方法是选择一个尽可能小的k值,在这个较小的k值上,岭迹 图中回归系数已变得比较稳定,并且方差膨胀因子也变得足够小利用主成分进展的回归结果往往不够理想,原因是在对系统中的信息做综合提取的时候,只 注重尽可能多地概括自变量系统中的信息而对因变量的解释性不加考虑偏最小二乘回归也采用成分提取的方式进展回归建模,但其思路却有很大的不同它在对自变量进展信息 综合时,不但考虑要最。












