
统计前沿--虚假回归教学文稿.ppt
20页虚假回归虚假回归Spurious RegressionSpurious Regression 性回归模型中,我们总性回归模型中,我们总是以样本决定系数是以样本决定系数R R2 2作为回归方作为回归方程对解释变量与被解释变量样本程对解释变量与被解释变量样本变化关系的拟合程度的度量然变化关系的拟合程度的度量然而变量之间的样本相关与总体相而变量之间的样本相关与总体相关是两个概念,虽然经济变量的关是两个概念,虽然经济变量的样本之间的关系在一定程度上可样本之间的关系在一定程度上可以说明变量总体之间的关系,但以说明变量总体之间的关系,但也有例外,这也有例外,这主要取决于经济变主要取决于经济变 量量总体分布的性质有研究表明总体分布的性质有研究表明,当用两个相互独立的非平稳时,当用两个相互独立的非平稳时间序列建立回归模型时,常常会间序列建立回归模型时,常常会得到一个在统计意义上显著的回得到一个在统计意义上显著的回归方程我们称之为归方程我们称之为虚假回归虚假回归( (Spurious RegressionSpurious Regression) )或伪回归或伪回归称不相关的随机变量之间的这称不相关的随机变量之间的这种统计相关关系为种统计相关关系为虚假相关虚假相关。
但是但是DWDW统计量却极低的例子比统计量却极低的例子比如,作如,作19501950年至年至20032003年的美国个年的美国个人消费支出(人消费支出(Y Y)关于个人可支关于个人可支配收入(配收入(X X)的线性回归估计,的线性回归估计,得:得: R R2 2 = 0.997 , DW = 0.172 = 0.997 , DW = 0.172 从从DWDW检验的角度考虑,这样检验的角度考虑,这样的回归方程不可信,而本章进一的回归方程不可信,而本章进一步讨论问题的症结所在步讨论问题的症结所在,即时间,即时间序列的非平稳性所至序列的非平稳性所至 格兰杰格兰杰纽博尔德曾经提出纽博尔德曾经提出一个较好的经验规则:当一个较好的经验规则:当R R2 2 DWDW时,所估计的回归方程就有虚假时,所估计的回归方程就有虚假回归之嫌回归之嫌 为说明虚假回归的可能性,为说明虚假回归的可能性,研究者采用反复生成相互独立的研究者采用反复生成相互独立的时间序列的方法考察其相关系数时间序列的方法考察其相关系数的变化分别考察三组时间序列的变化分别考察三组时间序列:第一组第一组为两个相互独立的平稳为两个相互独立的平稳时间序列;时间序列;第二组第二组为两个相互为两个相互 独立的一阶单整非平稳时间序列独立的一阶单整非平稳时间序列;第三组第三组为两个为两个相互独立的二阶相互独立的二阶单整非平稳时间序列。
研究方法单整非平稳时间序列研究方法为采用蒙特卡罗(为采用蒙特卡罗(Monte CarloMonte Carlo)模拟计算的方法,生成两个相互模拟计算的方法,生成两个相互独立的白噪声随机序列独立的白噪声随机序列 t t、 t t,且且 t t、 t t为标准正态分布,即为标准正态分布,即E(E(t t) ) = E (= E (t t) = 0) = 0,Var (Var (t t) = Var () = Var (t t) = ) = 1 1设样本容量设样本容量n = 100n = 100,生成随生成随机序列机序列t t、t t各各 1000010000次,计算每次所生成随机次,计算每次所生成随机序列序列t t、t t的样本相关系数,的样本相关系数,考察这考察这1000010000个样本相关系数的个样本相关系数的分布;对分布;对t t、t t分别进行分别进行累加累加可得两个随机游动序列可得两个随机游动序列X Xt t、Y Yt t,即即X X t t、Y Yt t为两个为两个I I (1) (1) 序列,对相序列,对相应的应的X X t t、Y Yt t的的1000010000个随机样本个随机样本计算样本相关系数,观察其分布计算样本相关系数,观察其分布规律;对规律;对 t t、 t t分别累加两次,分别累加两次,即对即对X X t t、Y Yt t分别分别 进行累加得两个进行累加得两个I I (2) (2) 序列序列Z Z t t、WWt t,计算计算Z Z t t、WWt t的样本相关系的样本相关系数,观察其分布规律。
三组不数,观察其分布规律三组不同的随机时间序列的样本相关同的随机时间序列的样本相关系数研究结果如下:系数研究结果如下: 1 1两个相互独立的标准正态平两个相互独立的标准正态平稳时间序列的相关系数的分布特征稳时间序列的相关系数的分布特征 用蒙特卡罗方法随机生成两个相用蒙特卡罗方法随机生成两个相互独立的标准正态白噪声随机序列互独立的标准正态白噪声随机序列 t t、 t t,样本容量样本容量n n = = 100100,各生成各生成1000010000次对于随机生成的两个相互次对于随机生成的两个相互独立的正态白噪声随机序列独立的正态白噪声随机序列 t t、 t t,其样本相关系数其样本相关系数R R的分布变化如图的分布变化如图13-13-1 1,显然,这时相关系数,显然,这时相关系数R R的均值为的均值为0 0,且相关系数为,且相关系数为0 0的概率较大的概率较大图图13-113-1 2 2两个相互独立的一阶单两个相互独立的一阶单整时间序列的相关系数的分布整时间序列的相关系数的分布 可以证明,由相互独立的正态可以证明,由相互独立的正态白噪声白噪声 t t、 t t累加所生成的两个累加所生成的两个随机游动序列随机游动序列X X t t、Y Yt t为两个相互为两个相互独立的独立的I (1) I (1) 序列,其中,序列,其中, 序列序列X X t t、Y Yt t的一阶差分的一阶差分为正态白噪声序列。
然而用为正态白噪声序列然而用蒙特卡罗方法随机生成蒙特卡罗方法随机生成1000010000次的序列次的序列X X t t、Y Yt t的样本相关的样本相关系数系数R R的分布如图的分布如图13-213-2,类似,类似于半椭圆形,虽然其均值仍于半椭圆形,虽然其均值仍为为0 0,但是样本相关系数,但是样本相关系数R R为为0 0的概率大大降低的概率大大降低图图13-213-2 3 3两个相互独立的二阶单整时间序列两个相互独立的二阶单整时间序列的相关系数的分布的相关系数的分布 由相互独立的正态白噪声由相互独立的正态白噪声 t t、 t t分别累分别累加两次所生成的两个随机序列加两次所生成的两个随机序列Z Z t t、WWt t为为相互独立的相互独立的I I (2) (2) 序列,其二阶差分为两个序列,其二阶差分为两个相互独立的正态白噪声序列但序列相互独立的正态白噪声序列但序列Z Z t t、WWt t的的1000010000次随机生成的样本的相关系数次随机生成的样本的相关系数R R的分布如图的分布如图13-313-3,这时,两个原本是相,这时,两个原本是相互独立的随机变量互独立的随机变量Z Z t t、WWt t的最可能的相的最可能的相关系数关系数R R却是却是11。
而只有当两个时间序列而只有当两个时间序列高度相关时才应该出现这种情况高度相关时才应该出现这种情况图图13-313-3 研究表明,作平稳时间序列变研究表明,作平稳时间序列变量之间的线性回归模型,样本的特量之间的线性回归模型,样本的特性与总体性质是相一致的,而作非性与总体性质是相一致的,而作非平稳时间序列变量之间的线性回归平稳时间序列变量之间的线性回归模型,错误地判断解释变量为显著模型,错误地判断解释变量为显著的概率很高当解释与被解释变量的概率很高当解释与被解释变量均为均为I(1)I(1)序列时,错误地拒绝解释序列时,错误地拒绝解释变量为不显著的原假设变量为不显著的原假设 1 1 = = 0 0之概之概率接近率接近76%76%,即虚假回归的可能性,即虚假回归的可能性为为76%76%;当两个变量为;当两个变量为I(2)I(2)时,这时,这一概率竟高达一概率竟高达94% 94% 以上,以上, 有研究证实,这种结果对于两有研究证实,这种结果对于两个变量的单整阶数不同的情况也同个变量的单整阶数不同的情况也同样成立由此可见,只要解释变量样成立由此可见,只要解释变量或被解释变量为非平稳的,虚假回或被解释变量为非平稳的,虚假回归的可能性就存在。
归的可能性就存在 比如在应用经济研究中作中国比如在应用经济研究中作中国人口数与美国国民生产总值之间的人口数与美国国民生产总值之间的回归分析,回归估计的拟合优度会回归分析,回归估计的拟合优度会很高,此二指标均为很高,此二指标均为I(1)I(1)时间序列时间序列,显然,中国人口数与美国国民生,显然,中国人口数与美国国民生产总值之间是产总值之间是 毫不相干的,这是一个典型的虚假毫不相干的,这是一个典型的虚假回归之例子因此,我们在经济分回归之例子因此,我们在经济分析中不能盲目依赖于析中不能盲目依赖于R R2 2及及t- t-检验的检验的结果,要正视由变量的非平稳性给结果,要正视由变量的非平稳性给我们带来的虚假回归问题我们带来的虚假回归问题 此外,在虚假回归的情况下,回此外,在虚假回归的情况下,回归的归的DWDW统计量值随着样本容量的统计量值随着样本容量的增大而收敛于增大而收敛于0 0而当回归式不是虚而当回归式不是虚假回归时,假回归时,DWDW统计量值则不收敛统计量值则不收敛于于0 0这说明DWDW检验可以帮助我们检验可以帮助我们区分真实回归与虚假回归区分真实回归与虚假回归 本节内容结束,谢谢观看!本节内容结束,谢谢观看! 。












