第四部分多重共线.ppt
61页第四章 多重共线性问题的提出n在前述基本假定下OLS估计具有BLUE的优良性n然而实际问题中,这些基本假定往往不能满足,使OLS方法失效不再具有BLUE特性n估计参数时,必须检验基本假定是否满足,并针对基本假定不满足的情况,采取相应的补救措施或者新的方法n检验基本假定是否满足的检验称为计量经济学检验回顾6项基本假定n(1)解释变量间不相关(无多重共线性)n(2)E(ui)=0 (随机项均值为零) n(3)Var(ui)=2 (同方差) n(4)Cov(ui, uj)=0(随机项无自相关) n(5)Cov(X, ui)=0(随机项与解释变量X不相关)n(6)随机扰动服从正态分布不满足基本假定的情形(1)n1、通常不会发生随机扰动项均值不等于0的情形若发生也不会影响解释变量的系数,只会影响截距项n2、随机扰动项正态性假设一般能够成立,就算不成立,在大样本下也会近似成立的所以不讨论此假定是否违背不满足基本假定的情形(2)n3、解释变量之间相关=>多重共线n4、随机扰动项相关=>序列自相关n时间序列数据经常出现序列相关n5、随机扰动项方差不等于常数=>异方差n截面数据时,经常出现异方差解决问题的思路n1、定义违反各个基本假定的基本概念n2、违反基本假定的原因、背景n3、诊断基本假定的违反n4、违反基本假定的补救措施(修正)本章主要介绍4.1 多重共线性的实例、定义、产生背景;4.2 多重共线性产生的后果;4.3 多重共线性的检验;4.4 多重共线性的修正。
4.5 违反三个假定的总结4.6 案例4.1 多重共线性的实例、定义、产生背景n4.1.1 实例n 例一 消费与收入、家庭财富 例二 汽车保养费与汽车行驶里程、拥有汽车时间4.1.2 多重共线性的定义n多重共线性:在多元线性回归模型中,解释变量之间存在着完全的线性关系或近似的线性关系完全多重共线性近似多重共线性4.1.2 多重共线性的定义--矩阵形式多重共线性分类的矩阵形式4.1.3 产生多重共线性的背景(1)时间序列数据中经济变量在时间上常有共同的变动趋势;时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降2)经济变量之间本身具有内在联系(常在截面数据中出现);横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小4.1.3 产生多重共线性的背景(3)由于某种决定性因素的影响可能使各个变量向着同方向变化;(4)滞后变量引入模型,同一变量的滞后值一般都存在相互关系;在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
有的学者认为多重共线性是一个数据样本的问题n一般经验一般经验 对于采用对于采用时间序列数据时间序列数据作样本、以简单线性作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线形式建立的计量经济学模型,往往存在多重共线性 以以截面数据截面数据作样本时,问题不那么严重,但作样本时,问题不那么严重,但多重共线性仍然是存在的多重共线性仍然是存在的back4.2 多重共线性的后果4.2.1 完全多重共线性下的后果(1)参数估计值不确定; (2)参数估计值的方差无限大;4.2.2 不完全多重共线性下的后果(1)参数估计仍是无偏估计,但不稳定;估计量及其标准差非常敏感,观测值稍微变化,估计量就会产生较大的变动2)参数估计式的方差随着共线性程度的增大而增大3)t检验失效,区间估计失去意义;估计量的方差很大,相应标准差增大,进行t检验时,接受零假设的可能性增大(4)严重多重共线性时,甚至参数估计式的符号与其经济意义相反得出完全错误的结论4.2.24.2.2 一般共线性下普通最小二乘法参数一般共线性下普通最小二乘法参数估计量非有效估计量非有效 在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为 可见,由于此时|X’X|0,引起(X’X) -1主对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量非有效。
仍以二元模型中1ˆb为例,1ˆb的方差为å ååååååå-=-=¢=-2221221212221222122211121)(1/)()()ˆvar(iiiiiiiiiixxxxxxxxxxXXsssb即:多重共线性使参数估计值的方差增大,多重共线性使参数估计值的方差增大,方差方差扩大因子扩大因子(Variance Inflation Factor)为为1/(1-r2),,其增大趋势见下表:4.2.2 4.2.2 参数估计量经济含义不合理参数估计量经济含义不合理 如如果果模模型型中中两两个个解解释释变变量量具具有有线线性性相相关关性性,,例例如如X1和和X2,,那那么么它它们们中中的的一一个个变变量量可可以以由由另另一一个个变量表征变量表征 这这时时,,X1和和X2前前的的参参数数并并不不反反映映各各自自与与被被解解释释变变量量之之间间的的结结构构关关系系,,而而是是反反映映它它们们对对被被解解释释变变量的共同影响量的共同影响 所所以以各各自自的的参参数数已已经经失失去去了了应应有有的的经经济济含含义义,,于于是是经经常常表表现现出出似似乎乎反反常常的的现现象象,,例例如如本本来来应应该该是是正的,结果恰是负的。
正的,结果恰是负的举例A:B:C:Housing:动工的住房数量Intrate:新房抵押利率POP:人口GNP:收入举例变量模型A模型B模型C估计值 t值估计值 t值估计值 t值C-3812.93-2.40687.901.80-1315.75-0.27Intrate-198.40-3.87-169.66-3.87-184.75-3.18POP33.823.6114.900.41GNP0.913.640.520.544.3 多重共线性的检验(1)简单相关系数矩阵法(辅助手段)n此法简单易行;但要注意两变量的简单相关系数包含了其他变量的影响,并非它们真实的线性相关程度的反映;一般在0.8以上可初步判定它俩之间有线性相关2)变量显著性与方程显著性综合判断;n拟合优度R2很高,F值显著大于临界值,而t值不显著;那么可认为存在多重共线性3)辅助回归:将每个解释变量对其余变量回归,若某个回归方程显著成立,则该解释变量和其余变量有多重共线性即看判定系数较大4)判断参数估计值的符号,如果不符合经济理论或实际情况,可能存在多重共线性4.4.1 多重共线性的修正方法(一):增加样本容量n 增加后,样本向量有可能不再线性相关。
这也可以降低观察误差,减小估计量的方差,有助于提高估计精度n 但是,增加样本是比较困难的,也不能根本解决它n适用于:样本引起的多重共线性——测量误差、偶然因素,解释变量总体不存在多重共线性n增加样本容量,如把时间序列数据和截面数据合并成平行数据 4.4.2 多重共线性的修正方法:(二)利用先验信息改变约束形式n先验信息:在此之前的研究成果所提供的信息n利用某些先验信息,可以把有共线性的变量组合成新的变量,从而消除共线性n如 其中Y=消费,X2=收入X3=财富因为收入与财富有高度共线的趋势,如果先验认为 则代入消去4.4.2 多重共线性的修正方法:(二)利用先验信息改变约束形式高度相关已知α+ β =1,即规模报酬不变,则将 β =1- α代入 4.4.3 多重共线性的修正方法:(三)截面数据和时序数据结合n有时在时间序列数据中多重共线性严重的变量,在截面数据中不一定有严重的共线性n在假定截面数据估计出的参数在时间序列数据中变化不大的前提下,可先用截面数据估计出一些变量的参数,再代入原模型估计另一些变量的参数。
n例:销量与商品价格、消费者收入 4.4.4 多重共线性的修正方法:(四)变换模型形式(差分法)差分法差分法n 对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 Yi=1 X1i+2 X2i++k Xki+ i可以有效地消除存在于原模型中的多重共线性 n 一般讲,增量之间的线性关系远比总量之间的一般讲,增量之间的线性关系远比总量之间的线性关系弱得多线性关系弱得多例如例如:在中国:在中国消费模型中的消费模型中的2个变量个变量:• 由表中的比值可以直观地看到,由表中的比值可以直观地看到,两变量增量的两变量增量的线性关系弱于总量之间的线性关系线性关系弱于总量之间的线性关系n 进一步分析:进一步分析: Y与C(-1)之间的相关系数为0.9845, △Y与△C(-1)之间的相关系数为0.7456 一般认为:两个变量之间的相关系数大于0.8时,二者之间存性关系 所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。
4.4.4 多重共线性的修正方法:(五)逐步回归法n基本思想: 用逐步回归法发现产生共线性的解释变量,将其剔除,从而减少共线性的影响n这既是判断是否存在多重共线性的方法,也是解决多重共线性的方法n具体方法:见流程图(word文档:多重共线性—逐步回归法流程图)多重共线性—逐步回归法流程图4.4.4 多重共线性的修正方法:(六)剔除不重要的解释变量n如果多重共线性由不重要的解释变量引起,可以从模型中除去该解释变量,减弱多重共线性n该解释变量被纳入随机误差项中,可能使随机误差项不能满足零均值假设4.4.4 多重共线性的修正方法:(六)剔除变量与设定偏误n面对严重多重共线性,最简单的做法之一是剔除共线性诸变量之一,但是从模型中删除一个变量,可能导致设定偏误或设定误差也就是说在分析中使用了不正确设定的模型n由上面的讨论可见,从模型中除掉一个变量以缓解多重共线性的问题会导致设定上的偏误,因此在某些情形中,医治也许比疾病更糟糕,多重共线性虽然有碍于对模型参数的准确估计,但是剔除变量,则对参数的真值有严重的误导,应该记得,在近似共线性情形下,OLS估计量仍是BLUE4.4.4 多重共线性的修正方法:(七)变量变换n偶尔地,通过对模型中变量的变换能够降低共线性程度。
如有的总量变成人均量,名义量变成实际量但不能保证一定有效!n参看课本P2144.4.4 多重共线性的修正方法:(七)变量变换销量出厂价格 市场价格高度相关市场总供应量相对价格数据中心化4.4.4 多重共线性的修正方法:(八)用被解释变量的滞后值代替解释变量的滞后值个人消费现期收入 前期收入高度相关线性关系较弱4.5 违反三个假定的总结对于模型对于模型Y Yi i= = 0 0+ + 1 1X X1i1i+ + 2 2X X2i2i+ ++ + k kX Xkiki+ + i i i=1,2,…,ni=1,2,…,n 其基本假设之一其基本假设之一是解释变量是互是解释变量是互相独立的相独立的如果如果某两个或多个解某两个或多个解释变量之间出现释变量之间出现了相关性了相关性,,则称则称为为多重共线性多重共线性。
定义要点多重共线性多重共线性序列相关性序列相关性异方差性异方差性后果多重共线性多重共线性序列相关性序列相关性异方差性异方差性检验思路n1判定系数检验法n2逐步回归法检验方法多重共线性多重共线性序列相关性序列相关性异方差性异方差性解决方法4.6.1 案例一:服装市场需求函数案例一:服装市场需求函数1 1、建立模型、建立模型n 根据理论和经验分析,影响居民服装类支出的主要因素有:可支配收入、居民流动资产拥有量、服装价格指数、物价总指数n 已知某地区的有关资料,根据散点图判断,建立线性服装消费支出模型: Y=0+1X+2K+3P1+4P0+2 2、样本数据、样本数据 由于R2较大且接近于1,而且 F=638.4,大于临界值:F 0.05(4,5)=15.19,故认为服装支出与上述解释变量间总体线性关系显著 但由于参数K的估计值的t检验值较小(未能通过检验),故解释变量间存在多重共线性解释变量间存在多重共线性3 3、估计模型、估计模型((2)检验简单相关系数)检验简单相关系数n各各解解释释变变量量间间存存在在高高度度相相关关性性,,其其中中尤尤其其以以P1,,P0间的相关系数为最高。
间的相关系数为最高((3)找出最简单的回归形式)找出最简单的回归形式n可见,应选可见,应选①①为初始的回归模型为初始的回归模型((4 4)逐步回归)逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程4 4、讨论:、讨论: ①①在在初初始始模模型型中中引引入入P1,,模模型型拟拟合合优优度度提提高高,,且且参数符号合理,但参数符号合理,但P1的的t检验未通过;检验未通过; ②②再再引引入入K,,拟拟合合优优度度虽虽有有提提高高,,但但K与与P1的的t检检验验未未能能通通过过,,且且X与与P1的的t检检验验值值及及F检检验验值值有有所所下下降降,,表表明明引引入入K并并未未对对回回归归模模型型带带来来明明显显的的“好好处处”,,K可能是多余的;可能是多余的; ③③去去掉掉K K,,加加入入P P0 0,,拟拟合合优优度度有有所所提提高高,,且且各各解解释释变量的变量的t t检验全部通过,检验全部通过,F F值也增大了值也增大了 ④④将将4 4个个解解释释变变量量全全部部包包括括进进模模型型,,拟拟合合优优度度未未有有明显改观,明显改观,K K的的t t检验未能通过,检验未能通过,K K显然是多余的。
显然是多余的 5 5、结论、结论回归方程以回归方程以Y=f(X,P1,P0)Y=f(X,P1,P0)为最优:为最优: Y=-12.45+0.10X-0.19P1+0.31P0Y=-12.45+0.10X-0.19P1+0.31P0back4.6.2 案例二:中国消费函数模型案例二:中国消费函数模型1 1、、OLSOLS估计结果估计结果2 2、差分法估计结果、差分法估计结果3 3、比较、比较β1:0.48095→0.49672β2:0.19854→0.15850在消除了共线性后,在消除了共线性后,GDP对对CONS的的影响增大,影响增大,CONS1对对CONS的影响减少的影响减少n当模型存在共线性,将某个共线性变量去掉,当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,而且经剩余变量的参数估计结果将发生变化,而且经济含义发生变化;济含义发生变化;n严格地说,实际模型由于总存在一定程度的共严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不真正反映对应线性,所以每个参数估计量并不真正反映对应变量与被解释变量之间的结构关系变量与被解释变量之间的结构关系。
一点说明n当模型仅用于预测,而对参数估计值没有过高的要求,只要回归系数是显著的,符号和大小有意义,多重共线性问题可以忽略。





