
面板数据回归(PanelData).ppt
61页面板数据分析面板数据分析(Panel Data Analysis)20132013年商学院暑期微观计量培训年商学院暑期微观计量培训陈华帅2013年年7月月9日下午日下午变量遗漏问题变量遗漏问题• 被解释变量:y• 解释变量:x• 不可观察的效果:c• 我们感兴趣的是:E(y∣x,c),不是E(y∣x)• 假设:E(y∣x,c)=β₀+xβ +c– x与c无关,仍然可以得到β 的无偏估计量– x与c相关,无法得到β 的一致估计量解决办法解决办法• 寻找c的代理变量p– p直接影响因变量y– 当给定p时,c对y没有影响– p与随机扰动项无关• 寻找一个IV– Z与c相关,但与随机扰动项无关•Panel Data的方法– 当遗漏变量不随时间而变化,如国家的初始技 术效率,城市的历史,或个人的一些特征等– 问题的解决得益于对同一个个体的重复观测一个简单的例子一个简单的例子•yt,xt , t=1,2• c不随时间而改变,但是随个体变化而改变• 考虑教育回报问题:yt=β0+βxt+c+ut• 外生性假设:E(ut| xt, c)=0 ⇒E(xt’ut)=0• 讨论:讨论:– 如果E(xt’c)=0,则可以进行Pooled OLS估计– 如果:E(xt’c)≠0,则Pooled OLS不一致• 解决办法:一阶差分(时间上相减)△y=β△x+△u△c=0不见了• 考察古典假设:– 要求E(△x’△u)=0,即△x与△u不相关E(△x’△u)=E[(x2-x1)'(u2-u1)]=E(x2’u2)-E(x1’u2)-E(x2’u1)+E(x1’u1)=0 -E(x1’u2)-E(x2’u1)则E(x1’u2)+E(x2’u1)=0– 要求△x’△x满列秩,则没有一个△x=0,即每 个x在t=1,2中随时间有变化什么是什么是 Panel Data• 定义– 对固定单位、个人、企业、家庭或其他经济体 重复观测所形成的数据– 典型的Panel在时间上进行重复观察• 跟踪同样的个体(如个人、家庭、企业、城市、国家等)而得到的跨时间数据•例– 单位:i={1,2,⋯,N}– 观察时点:t={1,2,⋯, Ti}•一般而言,N≫Ti 是Panel Data, Ti ≫N是多元时间序列数据• 如果Ti对于每个单位都相同,叫平衡面板(Balanced Panel)• 如果Ti对于每个单位不都相同,叫不平衡面 板(Unbalanced Panel)– 对于非平衡面板数据,我们关心非平衡是否是内生的• 比如,yit是收入,随着时间流逝富人更容易退出样本,因为他们的时间成本比较高,此时数据的非平衡就是内生引起的• 此时,即使最初的模型是线性模型,yit的条件期望是xit 的线性函数,我们需要非线性的样本选择方法更多例子更多例子• 双胞胎数据yij– 老大、老二: i={1,2}– 不同的家庭: j={1,2,⋯,J}• 教师的教学评估成绩yijt– 不同的教师:i={1,2,⋯,N}– 所授的课程:j={1,2,⋯,Ji}– 不同学年:t={1,2,⋯,Ti}• 都是对固定单位进行重复观察面板数据的优势面板数据的优势• 面板数据模型提供了更多的数据信息,增加了自由度,并减少了解释变量的共线性,从而得到更为有效的估计量• 面板数据模型可以分析单纯截面数据和时间序列数据无法分析的重要经济问题• 当遗漏变量是不随时间而变化的表示个体异质性的一些变量时,面板数据可以用来处理某些遗漏变量问题面板数据模型面板数据模型• 广义的面板数据模型:随机参数模型– 参数太多,不可估计– 需要对 αit,βt,uit 进行更多的假设限定•静态面板数据模型vs.动态面板数据模型– 如果xit不包含滞后因变量,上述模型为静态线性面板数据模型,否则就是动态线性面板数据模型= αit + xit ' βt + uit , i = 1,2,...,n, t = 1,...,Tiyit• 双向效应模型:引入个人和时间dummy• 个人效应模型• 固定效应与随机效应模型:ci是否和xit相关– 固定效应: E(ci | xit ) ≠ 0– 随机效应: E(ci | xit ) = 0• 混合模型(总体均值模型)= αi + δt + xit ' β + uityit= ci + xit ' β + uityit= αi + xit ' β + uityit= α + xit ' β + uityit面板数据模型的假设面板数据模型的假设• 以未观测效应模型为例–ci+ uit称为合成误差 (composite error)–ci称为个体效应 (individual effect)、个体异质性 (individual heterogeneity),或不可观测的异质性– uit是随时间和个体变化的特异性误差 (idiosyncratic error)= xit ' β + ci + uityit• 假设特异性误差uit和解释变量xit是不相关的– 如果个体异质性ci和解释变量xit也不相关,则可 以用混合最小二乘(pooled OLS,POLS)来 得到一致估计– 所谓的POLS方法,是指对所有跨i和t的观测值 进行OLS回归,对模型进行POLS回归– 但是个体异质性往往和解释变量相关,此时用 POLS估计得到的估计量是有偏且不一致的, 此偏差称为异质性偏差(heterogeneity bias),这是遗漏(不随时间变化的)变量引起的偏差严格外生性假设严格外生性假设• 假设–E(u∣x, ci)=0–即E(uit∣xi1, xi2,…,xis,…,xiT, ci)=0–等价于E(yit∣xi1, xi2,…,xis,…,xiT, ci)=xitβ+ci–可以得到E(xituis)=0• 解释– 当ci和xit被控制,对任意的s≠t,xis对yit没有偏效应(patial effect),即解释变量给定条件ci下是 严格外生的• 严格外生性假设是一个比较强烈的假设• 在严格外生性假设下,滞后因变量不能出 现在解释变量中• 严格外生性假设也禁止了t期随机扰动项uit 对t+1期解释变量xit+1的影响• 如果解释变量中包含有政策变量,而政策 变量经常会对前期的冲击进行调整,即为 冲击的反馈效应(feedback effect),此时uit 和xit+1相关,严格外生性假设被违反面板数据模型的估计量面板数据模型的估计量•Pooled OLS 估计量估计量::– 前面介绍过– 如果解释变量xit与ci和uit都不相关,POLS一致– 但是方差的估计结果有问题• 总的随机扰动项存在序列相关•Cov(ci+uit, ci+uit+1) ≠0,且很高– 如果固定效应面板模型是正确的话,POLS不一致•Cov(xit, ci) ≠0 => Cov(xit, ci+uit+1) ≠0•组间组间(between) 估计量估计量::– POLS运用时间和截面上的变化估计β– 组间估计量运用不同个人间的变化估计β–– 如果 与 、ci不相关,则对上式的POLS估计一致– 不是最有效的•组内组内(within) 估计量估计量::– 也称为固定效应(FE)估计量– POLS运用时间和截面上的变化估计β– 组间估计量运用不同个人间的变化估计β– 组内估计量运用同一个个人的变化估计β–– 无法识别时间固定的解释变量的影响• 一阶差分一阶差分(FD)估计量估计量::– 面板数据模型滞后一期并相减得到: Δyit = Δxit ' β + Δuit– 对上式进行POLS估计– 满足严格外生性假设时,FD估计量一致 E(Δuit | Δxi 2 ,Δxi 3 ,...,ΔxiT ) = 0– 当uit服从随机游走时(random walk),FD估计 量最有效 E(Δui Δui ’ | xi ,αi ) = σu 2IT −1– 在T=2而且平衡面板的条件下,FD估计量和FE 估计量是一样的随机效应面板模型随机效应面板模型Random-Effect Panel Model• 如果总体很大,抽取的样本单位具有较大 的随机性,那么与个体有关的效应将被视 为具有随机分布的性质idyearyx1x2x3x41001120002540024007.7810012240026300054008.5910013027000.0010021038000.0010022200039400060008.7010023360040036008.19100317001807006.5510032100019010006.911003302030303.43基本假设• 假设• (a) 严格外生性E(uit|xi,ci)=0, xi=xi1,xi2,⋯,xiTt=1,2,⋯,T•(b) ci独立于xit,即 E[ci|xi]=E[ci]=0假设 (a)同方差假设: E(u u ' | x ) =σ2 I (b) E(c2 | x ) =σ2 i i iu Ti i c• 假设• 具体表述:• 这种结构表明误差项是同方差且存在序列 相关的• 在成立时,如果我们用Pooled OLS来估计模型,估计量是一致的• 但是POLS估计量忽略了随机误差项的结构 信息,所以不是有效的• 而且其方差-协方差矩阵不会等于 σ2 (X ' X )−1• 因此可以考虑GLS的方法和假设保证后面的GLS估计结果 是一致的,保证v具有同方差结构,从 而假设保证FGLS估计结果是最有效的v•RE估计:GLS• 在成立时,如果我们用Pooled OLS来估计模型,估计量是一致的• 但是POLS估计量忽略了随机误差项的结构 信息,所以不是有效的• 而且其方差-协方差矩阵不会等于 σ2 (X ' X )−1• 因此可以考虑GLS的方法和假设保证后面的GLS估计结果 是一致的,保证v具有同方差结构,从 而假设保证FGLS估计结果是最有效的v• 随机效应估计量实际上是通过准去除时间均值(quasi time demeaning)而得到的• 随机效应并不是在每个时间t去掉因变量和 自变量的时间均值,而是在每个时间t去掉 时间均值的一部分• 对Q个多重假设 H0 : Rβ=r 进行假设检验• 在成立时,可用F检验• 不论是否成立,都可以用Wald检验:成立与否,决定对 Σ 的估计方法随机效应模型的参数检验随机效应模型的参数检验对对Unobserved EffectUnobserved Effect存在性的检验存在性的检验•如果不存在Unobserved Effect,直接用 Pooled OLS估计就可以了•对Unobserved Effect存在性的检验也可以 看成是模型设定检验 – 在Pooled Model和RE Model之间进行选择• 检验假设:H0: σ2c = 0,即vit不存在序列相关•Breusch and Pagan (1980) 检验– 拉格朗日乘数检验(LM)– 依赖于对uit的正态假设• 具体检验统计量为• 原假设成立下,LM统计量卡方分布,自由 度为1•Wooldridge (2002)检验统计量BPW• 在原假设成立下,vit序列不相关,BPW的渐进分 布是标准正态分布• 该统计量能够探察vit中的许多种序列相关• 但是拒绝原假设并不意味着RE的误差结构就是正 确的– 如果xit中没有包括滞后的被解释变量,vit即使满足Random Effect的误差结构,原假设仍然会被拒绝固定效应模型固定效应模型Fixed-Effect Panel Model固定效应模型的基本假设固定效应模型的基本假设• 与RE模型最大的不同在于,FE模型假设ci可以与uit相关,即对ci⊥uit是否成立不做假定。
由于少了RE中的独立性假定,FE比RE的结果更加稳健• X中不能包含不随时间改变的变量– 解释变量如果包含不随时间变化的变量,我们无法识别这些变量对的影响– 不随时间变化的变量指的是对所有的样本单位都不随时间而变化如果该变量对部分样本单位随时间变化,就可以包含进来固定效应转换估计固定效应转换估计• 固定效应模型的估计策略是转换方程消去不可观测的效应ci• 我们可以采用一阶差分的方法,也可以采用固定效应转换 (fixed effects transformation)• 固定效应转换也叫做组内转换 (within transformation)β β的固定效应估计量的固定效应估计量•β FE是对组内模型进行的POLS估计,所以也 称为组内估计量^• 在固定效应模型假设下,是无偏且一致的严格外生性假设中中假定E(uit|xi,ci)=0– 可以推出• 但是如果在随机效应模型假设下,仅仅用 了组内的信息,因此它不是有效估计量• 在固定效应模型假设下,是无偏且一致的严格外生性假设中中假定E(uit|xi,ci)=0– 可以推出• 但是如果在随机效应模型假设下,仅仅用 了组内的信息,因此它不是有效估计量虚拟变量回归虚拟变量回归(LSDV)• 虚拟变量回归是传统的固定效应估计方法• 把ci看成参数,和β一起进行估计• 对此,可以采用最小二乘虚拟变量回归• 定义 •有 yit=xit ' β+di 'c +uit估计结果估计结果• 可以证明:• 最小二乘虚拟变量回归得到的的估计量和 固定效应估计量是一样的•Wooldridge (2002)认为这里 βLSDV和 βFE 相等 仅仅是一种巧合• 很多情况下,尤其在非线性面板数据模型 中,把c看成参数和β一起进行估计得到的 估计量是不一致的^^^^非主要参数问题非主要参数问题• 当截面观测增加时,ci的个数也增加了• 当n趋于无穷大,ci并没有截面信息的积累,而时间长度T是固定的,随着截面长度 n趋于无穷大,非主要参数ci的个数也趋于无穷大• 加上非线性模型的复杂性很难先行消去ci ,参数的估计也被污染(contaminated),从而在一般情况下也无法得到一致估计量虚拟变量回归估计量性质虚拟变量回归估计量性质•β FE是β的一个无偏估计量,当T固定而n趋 于无穷时,β FE 是β的一个一致估计量;而 cˆi 仅仅是ci 的无偏估计量,在T固定时 ci 不是 一致估计量• 计量软件一般不汇报固定效应ci的估计值, 不过经常会汇报整体截距项的值μ^^^随机效应和固定效应估计量的比较随机效应和固定效应估计量的比较• 可以证明:– RE估计量是组间回归估计量和FE估计量的加权平均• FE模型对ci与xi的关系不作假定,因此比RE更Robust,其代价是:– FE中由于包含了一个均值 x ,自由度自动减少了一个,并且β 的精度降低;– 解释变量过多,易引起多重共线性(LSDV);– FE观察不出不随时间改变的变量的影响FE^随机效应和固定效应估计量的比较随机效应和固定效应估计量的比较或E(ci | Xi ) =E(ci ) =0Cov(ci , xit ) =0RE还是还是FE::Hausman检验检验• 仅仅从估计量的性质来说,我们可能认为,随机效应估计量要好于固定效应• 在对两个估计量进行比较时,我们发现当个体效应方差非常大的情况或T非常大时,FE估计量是RE估计量的一个极限• 但是,随机效应模型有一个非常强的假设:• FE是无论原假设成立与否都是一致的,但 在原假设下不是有效的• RE在原假设下是一致的,并且渐进有效(样本越大越有效),但如果原假设被拒 绝,则RE不是一致的• 不论在原假设还是备择假设下,我们都保 持严格外生假设。
如果严格外生假设被违 反,则固定效应和随机效应估计量都是不 一致的RE还是还是FE:应用考虑:应用考虑• 数据– 当数据为省份、国家、单位资料时,即为非随 机抽取的资料时用FE较合适;为随机抽取的资 料时,用RE较合适• 研究问题:政策分析– 政策变量通常会与观察不到的个体特征ci与观 察到的xi相关– ci与xi存在相关性– FE模型更合适StataStata程序应用实例程序应用实例假设有假设有3期的跟踪数据,变量及数据如下:期的跟踪数据,变量及数据如下:idyabcd100120002540024007.781002038000.0010037001807006.55idyabcd1001240026300054008.591002200039400060008.701003100019010006.91idyabcd1001027000.001002360040036008.191003100019010006.91截面截面1::截面截面2::截面截面3::use "D:\cross1.dta"foreach aaa of varlist y-d {ren `aaa' `aaa'1}sort idsave "D:\ff1.dta", replace use "D:\cross2.dta"foreach bbb of varlist y-d {ren `bbb' `bbb'2}sort idsave "D:\ff2.dta", replace use "D:\cross3.dta"foreach ccc of varlist y-d {ren `ccc' `ccc'3}sort idsave "D:\ff3.dta", replace1. 创建建panel data::调整过后,各截面的变量名修正为(数值不变):调整过后,各截面的变量名修正为(数值不变):idy1a1b1c1d1100120002540024007.781002038000.0010037001807006.55idy2a2b2c2d21001240026300054008.591002200039400060008.701003100019010006.91idy3a3b3c3d31001027000.001002360040036008.191003100019010006.91截面截面1::截面截面2::截面截面3::2. 截面合并截面合并:use "D:\ff1.dta"merge id using "D:\ff2.dta"drop _mergesort idmerge id using "D:\ff3.dta"drop _mergesave "D:\total.dta", replaceidy1a1b1c1d1y2a2b2c2d2y3a3b3c3d31001 2000254002400 7.78 2400263000 5400 8.59027000.001002038000.00 2000394000 6000 8.70 36004003600 8.1910037001807006.55 10001901000 6.91 10001901000 6.91合并后的合并后的文件文件”total”中中,数据格式如下:,数据格式如下:3.转化为面板数据:转化为面板数据:use "D:\total.dta"xtset idreshape long y a b c d, i(id) j(year)save "D:\sample.dta", replaceidyearyabcd1001120002540024007.7810012240026300054008.5910013027000.0010021038000.0010022200039400060008.7010023360040036008.19100317001807006.5510032100019010006.911003302030303.43转化后的面板化后的面板数据格式:数据格式:如果仍将如果仍将转化回化回宽数据格式,命令行如下数据格式,命令行如下:idy1a1b1c1d1y2a2b2c2d2y3a3b3c3d31001 2000254002400 7.78 2400263000 5400 8.59027000.001002038000.00 2000394000 6000 8.70 36004003600 8.1910037001807006.55 10001901000 6.91 10001901000 6.91use "D:\sample.dta"reshape wide y-d, i(id) j(year)save "D:\sample.dta", replace面板数据回归指令:面板数据回归指令: GLS random-effects (RE) model xtreg depvar [indepvars] [if] [in] [, re RE_options] Between-effects (BE) model xtreg depvar [indepvars] [if] [in] , be [BE_options] Fixed-effects (FE) model xtreg depvar [indepvars] [if] [in] [weight] , fe [FE_options] ML random-effects (MLE) model xtreg depvar [indepvars] [if] [in] [weight] , mle [MLE_options]实例:实例:Random-effects (RE) model: xtreg y a b c d, i(id) xtreg y a b c d if a>=25, i(id)Fixed-effects (FE) model: xtreg y a b c d, fe i(id)Logit Model: xtlogit y a b c d, i(id) xtlogit y a b c d, fe i(id)Probit Model: xtprobit y a b c d, i(id)idyearyabcd1001120002540024007.7810012240026300054008.5910013027000.0010021038000.0010022200039400060008.7010023360040036008.19100317001807006.5510032100019010006.911003302030303.43xtlogit nest01 childsurv married trueage agesq male rural, feest store fe面板模型的面板模型的Hausman检验检验xtlogit nest01 childsurv married trueage agesq male ruralest store re面板模型的面板模型的Hausman检验检验hausman fe面板模型的面板模型的Hausman检验检验。












