好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第9章模型设定与数据问题.doc

41页
  • 卖家[上传人]:人***
  • 文档编号:505402873
  • 上传时间:2024-02-22
  • 文档格式:DOC
  • 文档大小:154KB
  • / 41 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第9章模型设定与数据问题9.1遗漏变量假设真实模型为,% =玮01 + 兀;02 + 习(9.1)其中,心兀2可以是向量,且与扰动项&不相关而实际估计的模型为,X = xiA + ui (9.2)遗漏变量€202进入新扰动项坷=X:卩2 +勺o考虑两种情形1 )遗漏变量西2与解释变量兀il不相关,即Cov(兀•], xi2) = 0 , 则,OLS依然一致2)遗漏变量西2与解释变量兀订相关,即Cov(Xji,兀?)工° , 则,OLS不再是一致估计,其偏差被称为“遗漏变量偏差”解决遗漏变量偏差的主要方法有,(i) 加入尽可能多的控制变量(ii) 使用“代理变量”(iii) 工具变量法(第10章)(iv) 使用面板数据(第11, 12章)(V)随机实验与自然实验(第15章)当控制变量不可得时,可以考虑第(ii)种方法“代理变 量法”比如,在教育投资回归中,可以使用智商(IQ) 来作为个人能力的代理变量理想的代理变量应满足,(1)多余性:即代理变量仅通过影响遗漏变量而作用于 被解释变量比如,“智商”仅通过对“能力”的作用来 影响工资收入假如有“能力”的数据,再引入“智商” 作为解释变量就是多余。

      2)遗漏变量中不受代理变量影响的剩余部分与所有解 释变量均不相关命题如果上述两个条件满足,则使用代理变量能获得一 致估计9.2无关变量假设真实模型为,% = #]0i+S (9.3)其中,Cov(x/P6)= 0而实际估计的模型为,y 兀i0i十兀2伙+(◎ 芒鱼)(9 4)=0其中,加入了无关变量站由于真实参数伙=0,故可将 模型写为X =€101十X202 +6,即扰动项仍是原来的6由于无2与y无关,x2也与j的扰动项&无关,即Cov(x/2, = 0 故扰动项&与所有解释变量均无关,OLS仍然一致,即/\ Aplim0| = A, plim02 =^2=°o7?—>OO "TOO9.3建模的策略:“由小到大”还是“由大到小”"由小到大”(specific to general)的建模方式首先从最简 单的小模型开始,然后逐渐增加解释变量此方法的缺点 是,小模型很可能存在遗漏变量,系数估计量不一致,t 检验、F检验失效,很难确定该如何取舍变量与此相反,"由大到小”(general to specific)的建模方式从 一个尽可能大的模型开始,收集所有可能的解释变量,然 后再逐步剔除不显著的解释变量。

      这样可能包含无关变 量,但其危害性没有遗漏变量严重在实证研究中,常采 用以上两种策略的折衷方案9.4解释变量个数的选择需要在模型的解释力与简洁性之间找到一个最佳平衡可 供选择的权衡标准包括,(1) 校正可决系数/ :选择解释变量个数K以最大化R2 o"赤池信息准则” (Akaike Information Criterion, AIC):#选择解释变量的个数K,使得以下目标函数最小化,2(9.5)min AIC 三 In (eze/“) + — K(2) "贝叶斯信息准则”(Bayesian Information Criterion, BIC)或"施瓦兹信息准则(Schwarz Information Criterion, SIC):选择解释变量的个数K,使得以下目标函数最小化, min BIC 三 In (eze/“) + K (9 6)(3) “汉南-昆准则?,(Hannan-Quinn Information Criterion,HQIC):选择解释变量的个数K,使以下目标函数最小化,min HQIC 三 In(e'e/町 +卩K (9.7)9.5对函数形式的检验可使用 “Ramsey's RESET 检验”(Regression EquationSpecification Error Test),即把非线性项引入方程,并检验II其系数是否显著。

      假设线性回归模型为^^P + £o回归后可得拟合值 9 = x'b是解释变量X的一个线性组合,尸包含了各 解释变量二次项(含平方项与交叉项)的信息,齐包含了 各解释变量三次项的信息,以此类推考虑以下回归方程, y — X,P + $2 尸 +3尸 + $4夕4 + £ (9.8)对原假设“ : $2 = $3 = §4 = 0 ”做F检验o9.6多重共线性严格的多重共线性在现实数据中很少出现,较常见的是近■似(非严格)的多重共线性其表现为,如果将第力个解■释变量乙对其余的解释变量匕,…,仏,和],…,*}进行回 归,所得到的可绝系数(记为用)较高由于存在多重共线性,矩阵(X'X)变得几乎不可逆,(X^)-1 变得很“大”,致使方差V巩bix)= /(x/x)j增大,使得系 数估计变得不准确协方差矩阵主对角线上的第k个元素为,2VaT(仇丨X)= —— zn小Q-R;)Skk (9-9)其中,Skk三52/=1 (心—瓦)2定义第k个解释变量习的“方差膨胀因子”(Variance Inflation Factor, VIF),VI耳三匸” (9.10)则V巩加X) = VIF(2/s) VIF越大则说明多重共线性问 题越严重。

      一个经验规则是,最大的VIF,即 max{VIFi,…,VIF/,不超过 10如果存在多重共线性,可采取以下处理方法,(1) 如果你不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则可不必理会多重共线性2) 如果你关心具体的回归系数,但多重共线性并不影 响你所关心变量的显著性,也可以不理会如果多重共线性影响到你所关心变量的显著性,则 需要增大样本容量,剔除导致严重共线性的变量,或对模 型设定进行修改9.7极端数据如果样本数据中的少数观测值离大多数观测值很远,可能 对OLS的回归系数产生很大影响,被称为“极端观测值”图9.1、极端值对回归系数的影响第i个观测数据对回归系数的“影响力” (leverage)可通过投影矩阵P三x(x,x)jx/的第i个主对角线元素来表示,lev,三乂(X'X)一(9.ii)所有观测数据的影响力1門满足:(i) 0

      其次,对出现极端值的个体进行背景调查,看是否由与研 究课题无关的特殊现象所致最后,比较稳健的做法是在论文中同时汇报全样本与删除 极端数据后子样本的回归结果9.8虚拟变量如果使用“定性数据”或“分类数据”,通常需要引入“虚 拟变量”,即取值为0或1的变量1 male比如,性别分男女,可定义D= 0 female °对于全球的五大洲,则需要四个虚拟变量,即Asiaother,1 AmericaD2 =0 other 夕D fl Europe3 [0 other ,1 Africa0 other如果D1 = D2 = A = D4 = 0 ,则表明为大洋洲在有常数项的模型中,如果定性指标共分M类,则最多只能有(M-1)个虚拟变量考虑一个有关中国的时间序列模型,yt — 19780 otherwise (9.14)考虑以下两种情况1)仅仅引入虚拟变量本身该模型等价于,& + 0兀 +» if t < 1978 yt = \(9.15)(9」6)儿(& + 7)+ 0 兀+呂,if r> 1978#@+7)+0旺1978图9.2、仅引入虚拟变量的效果(2)引入虚拟变量,以及虚拟变量与解释变量的“互动项”yt =0兀 +7卩 內 +吕(9.17) 该模型等价于,ci + (3xt + Ep if f < 197 8y = 1978 (9.18)图9・3、引入虚拟变量及其互动项的效果#9.9经济结构变动的检验1.结构变动日期已知首先考虑结构变动日期已知的情形(a break at a known date)o检验中国经济是否在1978年有结构变动。

      定义第1 个时期为19501978,第2个时期为1978

      在异方差的情况下,仍可使用虚拟变 量法,只需要在对方程(9.23)进行回归时,使用异方差稳健 的标准差即可2.结构变动日期未知可能不知道结构变动的具体时间(a break at an unknown break date)给定一个区间匚[1,门,其中卩为样本容量,可以按照 以上方法计算在此区间中的每一年份t (t0

      否则,变量 GDP的取值将是通货膨胀率的很多倍,即数据矩阵X中某 列的数值是另一列的很多倍,这可能使计算机在对(X'x尸 进行数值计算时出现较大误差。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.