1、4.3 多重共线性,一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例,一、多重共线性的概念,对于模型: Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量之间是互不相关的。 如果某两个或多个解释变量之间出现了相关性,则称为存 在多重共线性(Multicollinearity)。,如果存在不全为0的数c1、c2、ck,使 c1X1i+c2X2i+ckXki=0 i=1,2,n 即:某个解释变量完全可以由其它解释变量的线性组合来表示 则称为解释变量间存在完全共线性(perfect multicollinearity)。, 完全共线性与近似共线性,如果存在不全为0的数c1、c2、ck,使 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 即:某个解释变量近似地可以由其它解释变量的线性组合来表示 则称为解释变量间存在近似共线性(approximate multicollinearity) 。, 共线性示例,X2=5X1 完全共线性 X3=5X1+V 近似共线性,完全
2、共线性下,X中至少有一列向量可由其他列向量(不包括第一列)线性表出,这意味着:秩(X)k+1。即:设计矩阵X是非列满秩的! 近似共线性下,X依然满足列满秩的条件, 共线性下的设计矩阵X,在矩阵表示的线性回归模型:Y=X+ 中:,这里定义的多重共线性仅对解释变量X之间的线性相关而言。对于解释变量之间存在非线性相关的模型,并不视为存在多重共线性问题。如:, 对多重共线性的说明,实际问题中,完全的多重共线性并不多见,但是近似共线性却是一个普遍的现象。基于此,我们关注的多重共线性并不是一个“有无”的问题,而是一个“强弱”的问题。当各X之间的线性相关程度较弱时,我们将认为模型并不存在多重共线性问题。,二、实际经济问题中的多重共线性,一般地,产生多重共线性的主要原因有以下三个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,(2)滞后变量的引入,在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系
3、例如:消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。,(3)样本资料的限制,由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。 多重共线性本质上是一种样本现象。换言之,即使在总体中诸X之间没有线性关系,但在具体获得的样本中仍可能有线性关系。,三、多重共线性的后果,1、完全共线性下参数估计量不存在,完全共线性 X非列满秩 (XX)不满秩 (XX)-1 不存在 无法得到参数的估计量。,的OLS估计量为:,例:对离差形式的二元回归模型,如果两个解释变量完全相关,如x2= x1,则,这时,只能确定综合参数1+2的估计值:,这一后果的实际意义是:无法得到回归系数的唯一解,但可以得到这些系数的线性组合的唯一解,Y=0+1X1+2X2+,Y=0+(1+2) X1+,2、近似共线性下解释变量的单独作用无法区分,实际问题中的直接表现是:模型的回归系数经常表现出反常的现象! 例如1本来应该是正的,结果却是负的。 经验表明,如果存在这种反常情形,应该首先怀疑多重共线性。,经典假设下,回归系数j表达了在其它解释变量不变的情形下,Xj对Y的单独作用(净影
4、响) 如果模型中两个解释变量具有线性相关性,例如X2=X1 ,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响 从而解释变量的单独作用无法无区分,1、2失去了应有的经济含义,3、近似共线性下OLS估计量的方差变大,近似共线性下,可以得到OLS参数估计量,并且可以证明,此时参数估计量依然满足线性、无偏和有效性,即OLS依然是BLUE 但是,此时参数估计量的方差会增大。参数估计量方差的表达式为,由于|XX|0,引起(XX) -1主对角线元素较大,使参数估计值的方差增大,这意味着: (1)无法精确的估计参数(以较高的精度估计参数) (2)基于参数估计量的标准差的变量显著性检验失效,以二元线性模型 Y=0+1X1+2X2+ 为例:,恰为X1与X2的线性相关系数的平方r2,由于 0 r2 1,故 1/(1- r2 )1,方差膨胀因子 (Variance Inflation Factor, VIF),显然:多重共线性的存在使得参数估计值的方差增大,其增加的倍数可以采用1/(1-r2)衡量,当完全不共线时, r2 =0,当近似共线时, 0 r2
5、 1,当完全共线时, r2=1,定义:1/(1-r2)称为方差膨胀因子(Variance Inflation Factor, VIF) 1-r21/VIF称为容忍度(Tolerance, TOL),更一般地,对于K元回归模型 Y=0+1X1+2X2+ kXk +,j的VIF定义为:,有:,方差膨胀因子的一般性定义,其中:Rj2为下述回归的可决系数:,注意:,除非是完全共线性,多重共线性并不意味着任何基本假设的违背; 因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。 问题在于:即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。,多重共线性的检验可以从两个角度进行: (1)共线性的定义变量的线性相关性 (2)共线性的后果方差变大、系数反常等 对多重共线性的检验需要完成两个基本任务: (1)检验多重共线性是否“存在”是否严重到需要重视的程度 (2)估计多重共线性的范围判断哪些变量之间存在共线性。,三、多重共线性的检验,1、相关系数法,计算解释变量两两之间的简单相关系数,进行判断 (1)对两个解释变量简单相关系数 (2)
6、对多个解释变量相关系数矩阵 若|r|接近1,则说明两变量存在较强的多重共线性。 注意: 相关系数多大才算是严重的共线性,并无统一标准,只能凭经验判断。 经验认为,如果rij0.8,比较严重 0.9,非常严重,若在OLS法下,出现以下现象,则可能意味着共线性的存在: a、系数估计值的符号不合常理; b、R2与F值较大,方程具有显著性,但各参数估计值的t检验值均较小,多个解释变量并不显著 说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。,2、经验判断法,将每个解释变量Xi对其它解释变量Xj进行回归, 观察其拟合优度R2和F检验值,如果某个Ri2接近1,Fi显著超出临界值,则表明该Xi与其它解释变量存在多重共线性。,3、辅助回归检验法,计算每个回归系数的VIF或TOL 方差膨胀因子越大(或容忍度越小),表明模型的多重共线性越强。 当VIF5或VIF10时,认为存在较严重的多重共线性。,4、方差膨胀因子和容忍度(VIF&TOL),模型存在较严重的多重共线性时, |XX| 0,由线性代数,若1,k1为矩阵XX的特征值,则: |XX|
7、= 1k1 0 表明,特征值中至少有一个接近于0。因此可利用矩阵XX的特征值检验多重共线性。 条件指数(病态数)CN(Conditional Number) CN=最大特征值/最小特征值 max/ min 病态指数CI(Conditional Index):CI=SQRT(CN) CN和CI均反映了特征值的离散程度,数值越大表明多重共线性越严重,5、特征值检验法,在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。,6、剔除检验法,以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计,根据拟合优度的变化决定新引入的变量是否独立。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。,7、引入检验法,找出引起多重共线性的解释变量,将它排除出去。 以逐步回归法得到最广泛的应用。 注意: 这时,剩余解释变量参数的经济含义和数值都发生了变化,如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。,四、克服多重
8、共线性的方法,1、第一类方法:排除引起共线性的变量,2、第二类方法:差分法,时间序列数据、线性模型:将原模型变换为差分模型: Yi=1 X1i+2 X2i+k Xki+ i 可以有效地消除原模型中的多重共线性。,一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。,由表中的比值可以直观地看到: 增量的线性关系弱于总量之间的线性关系。,进一步分析: Y与C(-1)之间的判定系数为0.9988, Y与C(-1)之间的判定系数为0.9567,3、第三类方法:减小参数估计量的方差,多重共线性的主要后果是参数估计量具有较大的方差 所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 岭回归法是其中的代表,# 岭回归法(Ridge Regression),70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵D,使参数估计量为,其中矩阵D一般选择为主对角阵,即 D=aI (a0),(*),显然,与未含D的参数B的估计量相比,(*)式的估计量有较小的方差。,# 对多重共线性处理的说明,多重共线性在本质
9、上是一种样本现象,因此增大样本容量可以视为一个根本性的解决方法 多重共线性的主要后果是增大估计量的方差,从而导致无法精确的估计参数,而参数估计量的性质并未因此改变 因此,只要是参数估计量的方差较小,t统计量较大,就没有必要过度关注多重共线性的问题 特别地,如果模型的主要目的在于预测,那么即便存在严重的多重共线性,也并不会过度妨碍模型的预测性,六、案例 (中国粮食生产函数),根据理论和经验分析,影响粮食生产(Y)的主要因素有: 农业化肥施用量(X1); 粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5),已知中国粮食生产的相关数据,建立中国粮食生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +,1、用OLS法估计上述模型:,R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 15.19, 故认上述粮食生产的总体线性关系显著成立。 但X4 、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),2、检验简单相关系数,发现: X1与X4间存在高度相关性。,列出X1,X2,X3,X4,X5的相关系数矩阵:,3、找出最简单的回归形式,可见,应选第1个式子为初始的回归模型。,分别作Y与X1,X2,X4,X5间的回归:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064
《计量经济学第四章-3-多重共线性》由会员F****n分享,可在线阅读,更多相关《计量经济学第四章-3-多重共线性》请在金锄头文库上搜索。