《面板数据模型》
第4讲 面板数据模型 School of Management, 2005计计 量量 经经 济济 学学EconometricsEconometrics李 平2006年1月第4讲 面板数据模型 School of Management, 2005主要内容v面板数据(Panel data)v固定效应v随机效应v固定效应和随机效应模型的比较第4讲 面板数据模型 School of Management, 2005面板数据v常用的经济数据类型横截面数据:空间时间序列数据:时间面板数据(混合数据、综列数据)第4讲 面板数据模型 School of Management, 2005面板数据v为什么使用面板数据?既能体现横截面上不同个体的差异性,又能反映出某一个体的历史信息。可以提供“更有价值的数据,变量之间增加了多变性而减少了共线性,并且提高了自由度和估计的有效性”更好地检测和度量单纯使用横截面数据或时间序列数据无法观测到的影响。通过使数据适用于多个单元,面板数据能够将累加数据所引起的偏差降到最低。例子:投资理论研究为研究实际总投资(I)对实际资本存量(CAP)和企业实际价值(PL)的关系,收集了4个公司,即通用电气(GE)、通用汽车(GM)、美国钢铁(US)和西屋(WEST),20年(19351954)的数据,共80个观测值。通用电气(GE)通用汽车(GM)美国钢铁(US)西屋(WEST)考虑如下模型:关键是选取那些数据进行回归? 也可在每一年都做一次横截面回归(20次) 可对4个公司的时间序列数据分别做回归(4次) 同时利用4个公司20年的数据做1次回归第4讲 面板数据模型 School of Management, 2005面板数据回归v面板数据回归模型的估计由于同时考虑时间和个体上的数据,对面板数据模型的估计方法取决于对截距、斜率和误差项在时间和个体上的假设:所有系数不随时间和个体的变化而变化斜率不变而截距随个体变化而变化斜率不变而截距随时间和个体变化而变化斜率和截距随个体变化而变化斜率和截距随个体和时间变化而变化第4讲 面板数据模型 School of Management, 2005混合回归(PLS)v所有系数都不随时间和个体的变化而变化直接用OLS估计双击单击存在的问题:假设4家不同的公司的截距项和斜率系数都完全相同,这是相当严格的假设,很可能扭曲了4个公司Y和X之间关系的真实情况第4讲 面板数据模型 School of Management, 2005固定效应v放宽的假设1:斜率系数不变但截距随个体(或时间)而变化下标i 加到截距项上,表明4个公司的截距是不相同的,这种差异可能是由于每个公司的特性所引起的。虽然截距随个体变化,但不随时间变化,即在时间上4个公司的截距项是固定不变的,因此称该模型为固定效应模型(Fixed Effect Model, FEM)现在的问题是, 是不可观测的,怎样实现模型的估计?由于4个公司的截距项不同,一种直观的考虑是以其中一个公司的截距项作为标准,其余3个公司的截距项在此基础上作比较,而这通过虚拟变量可以很容易地实现: 代表GE的截距项,而 就能够说明其它3家公司的截距项相对于GE的截距项有多大的不同,即级差截距系数。由于我们使用虚拟变量来刻画固定效应,并使用OLS来估计,因此上述模型也被称为最小二乘虚拟变量模型(LSDV)这些截距上的差异可能由每个公司独特的性质引起。那个模型更好呢?从输出结果各项指标来看,LSDV较好。也可从F检验的角度来比较。事实上,OLS是LSDV的约束模型。H0:D2D3D4显著拒绝原假设。第4讲 面板数据模型 School of Management, 2005固定效应放宽的假设2:斜率系数不变而截距随个体和时间变化其中 表示时间虚拟变量, 表示将1954年的截距项作为基准由于考虑了回归模型随时间的改变,因此称为时间效应模型(一个问题:自由度的损失)第4讲 面板数据模型 School of Management, 2005固定效应放宽的假设3:所有系数都随个体而变化若所有的级差截距和基础斜率系数都显著,就可以得出结论:4家公司的投资函数各不相同,从而说明这4家公司的数据不能一视同仁,而要区别对待,单独估计每家公司的X对Y的影响关系在Eviews中可以通过菜单直接估计固定效应模型。单击第4讲 面板数据模型 School of Management, 2005固定效应v使用固定效应模型注意事项引进过多的虚拟变量会损失大量自由度。大量解释变量不可避免地会带来多重共线性问题误差项服从经典假设的正态分布很值得商榷。固定效应模型是建立在扰动项服从正态分布假设的基础上。假定:以下几种情况可能违反假定:1. 同一时点上横截面数据造成的异方差。2. 同一个体的时间序列数据造成的自相关。3. 不同时点上横截面数据造成的异方差。4. 不同个体在时间序列上的横截面相关。由于面板数据要考察不同个体之间的差异,但是这些差异单从数据本身是无法观测到的。固定效应方法引入虚拟变量将总体的未知信息差异化,从而间接地解决了这个问题。但是,当横截面单元较多是,由于自由度的原因,建立的模型将是代价高昂的。Kementa曾说:与LSDV模型相联系的一个明显的问题是,引入虚拟变量是否确实有必要。包含虚拟解释变量是对我们无知的一种掩饰。第4讲 面板数据模型 School of Management, 2005随机效应如果虚拟变量确实代表了对于(真实)模型知识的一种缺乏,那么为什么不通过干扰项来表达这种无知呢?基于干扰项的面板数据建模方法叫做随机效应模型(Random Effect Model, REM )或误差组成模型(ECM)。第4讲 面板数据模型 School of Management, 2005随机效应vREM的基本思路第4讲 面板数据模型 School of Management, 2005随机效应个体的截距项表示为 ,即这些个体都来自于同一个大样本,具有相同的均值和方差,并且每个个体的截距项的差异反映在误差项 中。模型总的误差项是一个合成误差项,它由两个部分的误差组成 ,前者是特定个体横截面误差部分,后者是时间序列和横截面混合误差部分。第4讲 面板数据模型 School of Management, 2005随机效应v个体之间的误差部分是不相关的,并且第4讲 面板数据模型 School of Management, 2005随机效应v注意:FEM中,每个横截面单元都有各自的固定截距值,N个横截面单元就有N个这样的值REM中,截距 代表所有横截面截距的均值,而误差部分 则表示单个截距对这个平均值的随机偏离,如果得到 的估计值,就可以得到个体截距的估计值第4讲 面板数据模型 School of Management, 2005随机效应同样,误差项 也是不可直接观测的,同时,总的误差项 虽是同方差的,却明显存在序列相关,但序列相关的结构已知并在时间上保持不变。 任意两个不同时间上的误差项相关系数值保持不变。 任意两个横截面单元的相关性结构保持不变。 这两个系列相关的性质保证能够使用GLS进行估计。随机效应固定效应虽然两个模型估计结果相似,但随机效应模型更简洁:方法只引进了一个参数就能够刻画面板数据的个体差异。第4讲 面板数据模型 School of Management, 2005模型选择v 研究者经常面临的选择:FEM还是REM?若扰动i项与X不相关,那么选REM。若扰动i项与X相关,那么选FEM。REM的基本假设:i是一个非常大的总体中提取的随机变量。第4讲 面板数据模型 School of Management, 2005模型选择v估计效应与随机效应模型的选择若时间序列数据的数目(T)很大而横截面单元数量(N)较小,则FEM和REM估计的参数值之间的差别不大,从计算方便角度选择FEM可能更好。当T较小而N较大时,REM更可取,因为REM节省了大量的自由度,从而使得估计量更有效。第4讲 面板数据模型 School of Management, 2005结束语v面板数据回归模型的其它问题建立面板数据模型是庞大而复杂的工作,我们所接触到的仅仅是最基本的内容,尚有大量问题要面对,如面板数据的假设检验REM中的异方差性动态面板数据模型定性因变量的面板数据模型非平衡面板数据