
第四章 回归分析在实际应用中会遇到的问题培训教材.ppt
119页第四章 回归分析在实际应用中会遇到的问题,基本假定违背:不满足基本假定的情况主要 包括: (1)随机误差项序列存在异方差性; (2)随机误差项序列存在序列相关性; (3)解释变量之间存在多重共线性; (4)解释变量是随机变量且与随机误差项相关 (随机解释变量);,计量经济检验:对模型基本假定的检验,4.1 异方差性,一、异方差的概念 二、异方差的类型 三、异方差性的后果 四、异方差性的检验 五、异方差的修正 六、案例,二、异方差的类型,同方差性假定:i2 = 常数 f(Xi) 异方差时: i2 = f(Xi),异方差一般可归结为三种类型: (1)单调递增型: i2随X的增大而增大 (2)单调递减型: i2随X的增大而减小 (3)复 杂 型: i2与X的变化呈复杂形式,,三、异方差性的后果,计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:,1、参数估计量非有效,2、变量的显著性检验失去意义,3、模型的预测失效,四、异方差性的检验,检验思路:,由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差那么: 检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。
问题在于用什么来表示随机误差项的方差,一般的处理方法:,几种异方差的检验方法:,1、图示法,,(1)用X-Y的散点图进行判断 看是否存在明显的散点扩大、缩小或复杂型趋势(即不在一个固定的带型域中),看是否形成一斜率为零的直线,2、帕克(Park)检验与戈里瑟(Gleiser)检验,基本思想: 偿试建立方程:,或,如: 帕克检验常用的函数形式:,或,若在统计上是显著的,表明存在异方差性3、戈德菲尔德-匡特(Goldfeld-Quandt)检验,G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况G-Q检验的思想: 先将样本一分为二,对子样和子样分别作回归,然后利用两个子样的残差平方和之比构造统计量进行异方差检验 由于该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;反之就会等于1(同方差)、或小于1(递减方差)G-Q检验的步骤:,将n对样本观察值(Xi,Yi)按观察值Xi的大小排队 将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2 对每个子样分别进行OLS回归,并计算各自的残差平方和,在同方差性假定下,构造如下满足F分布的统计量,给定显著性水平,确定临界值F(v1,v2), 若F F(v1,v2), 则拒绝同方差性假设,表明存在异方差。
当然,还可根据两个残差平方和对应的子样的顺序判断是递增型异方差还是递减异型方差3、怀特(White)检验,怀特检验不需要排序,且适合任何形式的异方差 怀特检验的基本思想与步骤(以二元为例):,然后做如下辅助回归,可以证明,在同方差假设下:,(*),R2为(*)的可决系数,h为(*)式解释变量的个数,,表示渐近服从某分布注意:,辅助回归仍是检验与解释变量可能的组合的显著性,因此,辅助回归方程中还可引入解释变量的更高次方 如果存在异方差性,则表明确与解释变量的某种组合有显著的相关性,这时往往显示出有较高的可决系数以及某一参数的t检验值较大 当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项五、异方差的修正,模型检验出存在异方差性,可用加权最小二乘法(Weighted Least Squares, WLS)进行估计加权最小二乘法的基本思想: 加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS估计其参数在采用OLS方法时: 对较小的残差平方ei2赋予较大的权数, 对较大的残差平方ei2赋予较小的权数一般情况下:,对于模型 Y=X+,存在,即存在异方差性。
W是一对称正定矩阵,存在一可逆矩阵D使得 W=DD,用D-1左乘 Y=X+ 两边,得到一个新的模型:,该模型具有同方差性因为,这就是原模型 Y=X+ 的加权最小二乘估计量,是无偏、有效的估计量这里权矩阵为D-1,它来自于原模型残差项的方差-协方差矩阵2W 如何得到2W ?,从前面的推导过程看,它来自于原模型残差项的方差-协方差矩阵因此 仍对原模型进行OLS估计,得到随机误差项的近似估计量i,以此构成权矩阵的估计量,即,这时可直接以,作为权矩阵注意:,在实际操作中人们通常采用如下的经验方法: 不对原模型进行异方差性检验,而是直接选择加权最小二乘法,尤其是采用截面数据作样本时 如果确实存在异方差,则被有效地消除了; 如果不存在异方差性,则加权最小二乘法等价于普通最小二乘法,七、案例--中国农村居民人均消费函数,例4.1.4 中国农村居民人均消费支出主要由人均纯收入来决定 农村人均纯收入包括(1)从事农业经营的收入,(2)包括从事其他产业的经营性收入(3)工资性收入、(4)财产收入(4)转移支付收入 考察从事农业经营的收入(X1)和其他收入(X2)对中国农村居民消费支出(Y)增长的影响:,普通最小二乘法的估计结果:,异方差检验,,进一步的统计检验,(1)G-Q检验,将原始数据按X2排成升序,去掉中间的7个数据,得两个容量为12的子样本。
对两个子样本分别作OLS回归,求各自的残差平方和RSS1和RSS2:,子样本1:,(3.18) (4.13) (0.94) R2=0.7068, RSS1=0.0648,子样本2:,(0.43) (0.73) (6.53) R2=0.8339, RSS2=0.2729,计算F统计量: F= RSS2/RSS1=0.2792/0.0648=4.31,查表 给定=5%,查得临界值 F0.05(9,9)=2.97 判断 F F0.05(9,9) 否定两组子样方差相同的假设,从而该总体随机项存在递增异方差性2)怀特检验,作辅助回归:,(-0.04)(0.10) (0.21) (-0.12) (1.47),(-1.11) R2 =0.4638,似乎没有哪个参数的t检验是显著的 但 n R2 =31*0.4638=14.38 =5%下,临界值 20.05(5)=11.07,拒绝同方差性,去掉交叉项后的辅助回归结果,(1.36) (-0.64) (064) (-2.76) (2.90) R2 =0.4374,X2项与X2的平方项的参数的t检验是显著的,且 n R2 =31 0.4374=13.56,=5%下,临界值 20.05(4)=9.49 拒绝同方差的原假设,原模型的加权最小二乘回归,对原模型进行OLS估计,得到随机误差项的近似估计量i,以此构成权矩阵2W的估计量; 再以1/| i|为权重进行WLS估计,得,各项统计检验指标全面改善,,一、序列相关性概念 二、序列相关性的后果 三、序列相关性的检验 四、具有序列相关性模型的估计 五、案例,4.2 序列相关性,一、序列相关性概念,如果对于不同的样本点,随机误差项之间不再是不相关的,而是存在某种相关性,则认为出现了序列相关性。
对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2, ,n,随机项互不相关的基本假设表现为 Cov(i , j)=0 ij, i,j=1,2, ,n,或,称为一阶列相关,或自相关(autocorrelation),其中:被称为自协方差系数(coefficient of autocovariance)或一阶自相关系数(first-order coefficient of autocorrelation) i是满足以下标准的OLS假定的随机干扰项:,如果仅存在 E(i i+1)0 i=1,2, ,n,自相关往往可写成如下形式: i=i-1+i -1<<1,由于序列相关性经常出现在以时间序列为样本的模型中,因此,本节将用下标t代表i计量经济学模型一旦出现序列相关性,如果仍采用OLS法估计模型参数,会产生下列不良后果:,二、序列相关性的后果,1、参数估计量非有效,3、模型的预测失效,2、变量的显著性检验失去意义,然后,通过分析这些“近似估计量”之间的相关性,以判断随机误差项是否具有序列相关性序列相关性检验方法有多种,但基本思路相同:,基本思路:,三、序列相关性的检验,1、图示法,2、回归检验法,,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在序列相关性。
回归检验法的优点是:(1)能够确定序列相关的形式,(2)适用于任何类型序列相关性问题的检验3、杜宾-瓦森(Durbin-Watson)检验法,D-W检验是杜宾(J.Durbin)和瓦森(G.S. Watson)于1951年提出的一种检验序列自相关的方法,该方法的假定条件是:,(1)解释变量X非随机; (2)随机误差项i为一阶自回归形式: i=i-1+i (3)回归模型中不应含有滞后应变量作为解释变量,即不应出现下列形式: Yi=0+1X1i+kXki+Yi-1+i (4)回归含有截距项,,杜宾和瓦森针对原假设:H0: =0, 即不存在一阶自回归,构如下造统计量:,D.W. 统计量:,D.W检验步骤:,(1)计算DW值 (2)给定,由n和k的大小查DW分布表,得临界值dL和dU (3)比较、判断,若 0 它是由布劳殊(Breusch)与戈弗雷(Godfrey)于1978年提出的,也被称为GB检验对于模型,如果怀疑随机扰动项存在p阶序列相关:,GB检验可用来检验如下受约束回归方程,约束条件为: H0: 1=2==p =0,约束条件H0为真时,大样本下,其中,n为样本容量,R2为如下辅助回归的可决系数:,给定,查临界值2(p),与LM值比较,做出判断, 实际检验中,可从1阶、2阶、逐次向更高阶检验如果模型被检验证明存在序列相关性,则需要发展新的方法估计模型最常用的方法是广义最小二乘法(GLS: Generalized least squares)和广义差分法(Generalized Difference)四、序列相关的补救,1、广义最小二乘法,对于模型 Y=X+ 如果存在序列相关,同时存在异方差,即有,是一对称正定矩阵,存在一可逆矩阵D,使得 =DD,变换原模型: D-1Y=D-1X +D-1 即 Y*=X* + * (*),(*)式的OLS估计:,这就是原模型的广义最小二乘估计量(GLS estimators),是无偏的、有效的估计量。 该模型具有同方差性和随机误差项互相独立性:,如何得到矩阵?,对的形式进行特殊设定后,才可得到其估计值如设定随机扰动项为一阶序列相关形式 i=i-1+i 则,2、广义差分法,广义差分法是将原模型变换为满足OLS法的差分模型,再进行OLS估计如果原模型,存在,可以将原模型变换为:,该模型为广义差分模型,不存在序列相关问题可进行OLS估计注意:,广义差分法就是上述广义最小二乘法,但是却损失了部分样本观测值 如:一阶序列相关的情况下,广义差分是估计,这相当于,去掉第一行后左乘原模型Y=X+ 。
