
stata学习笔记(注释).docx
10页经济数据的特点与类型1、 横截面数据:多个经济个体的变量在同一时间点上的取值,如2021年中国各省的GDP2、 时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2021年山东省 每年的GDP3、 面板数据:多个经济个体的变量在不同时点上的取值,如1978-2021年中国各省的GDP小样本OLS〔最小二乘法〕:单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差拟合优度:衡量线性回归模型对样本数据的拟合程度〔R2〕,越高说明模型拟合程度越好单系数T检验:对回归方程扰动项的具体概率进展假设显著性水平进展检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串, 因此对于日度数据,可以使用命令gen newvar二date(vamame,YMD),将其转换为整数日期变量, 其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年那么使用MDY; 对于月度数据那么 gen newvar=rnonthly(varname,YM)o.describe:数据的概貌.drop keep:删除和保存.su:统计特征Pwcorr:变量之间相关系数Star〔.05〕: 5%显著性水平gen:产生g intc=log〔 tc〕:取自然对数.reg: OIS 回 <)3.Vce:协方差矩阵 reg。
noc表示在进展回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,那么应使用稳健标准误然后进展随机效应的面板泊松回归,上图最后LR检验拒绝原假设,那么拒绝混合泊松模型,认为应使用随机效应的面板泊 松模型然后再进展固定效应的面板泊松回归:上图显示有265组数据由于仅有一期观测值而被去掉,另有666组数据由于取值全为0 也被去掉,此外固定效应模型无法识别不随时间变化的变量系数Ucoins, ndiseasc, female] 故这些变童也被去掉,可以看出,聚类稳健标准误大约是普通标准误的2倍,导致所有 变量系数均不显著然后初步考察是否存在过量分散:可以看出被解释变量mdu的方差是平均值的七倍多,可能存在过度分散,因此负二项回 归可能更有效率因此进展混,合负二项回归,并使用聚类稳健标准误:最后一行显示过度分散系数a的置信区间拒绝了假设,即存在过度分散,使用负二项回 归可以提高效率进展随机效应的面板负二项回疗,并使用自助标准误鼓后一行LR拒绝了混合负二项回归的原假设,认为应使用随机效应的面板负二项回归 然后使用豪斯曼检验在固定效应与随机效应的负二项回归之间进展选择:豪斯曼检验拒绝随机效应负二项回归,因此使用固定效应负二项回归。
最大似然估计法:如果回归方程存在非线性,那么使用最大似然估计法〔MLE〕或非线性最小二乘法〔NLS〕三类在大样本下渐进等价的统计检验:Wald test LR〔似然比检验〕 LM操作步骤如下:sysusc auto [调用数据集〕Hist mpg, normal〔画变量mpg的直方图,并与正态密度比拟〕直方图显示,变量mpg的分布于正态分布有一定差距变童可以取对数解决非正态分布的问题异方差与GLS〔广义最小二乘法〕异方差的检验:看残差图、怀特检验 white test' BP检验[Brcusch and Pagan .异方差的处理:1、CLS+稳健标准误〔最好的〕2、广义最小二乘法〔GLS〕3、加权最小二乘法〔WLS〕实例操作:1、 使用数据:use nerlove.dta,clear2、 reg intc inq inpl inpk inpf I.进展回归〕3、 画残差图:rvfplot上图可以发现当拟合值较小时,扰动项方差较大,继续考察残差与解释变量inq的散点 图:rvpplot inq,结果与上图几乎一致,可能存在异方差,即扰动项的方差随着观测值而 变4、 完成回归后,进展怀特检验:estat imtest, whiteP值显著,认为存在异方差6、 完成回归后,进展 BP 检脸:estat hettest,iid estat hottest,rhs iid estat hottest inqjid三种形式的检验都强烈拒绝同方差的原假设,存在异方差〔这里只放一个形式的检验结果〕7、 处理异方差自相关:扰动项之间自相关自相关的例子:1、时间序列数据中通常具有某种连续性和持久性,如相邻两年的GDP增 长率;2、截而数据中相邻的观测单位之间可能存在溢出效应,如相邻地区的农业产量收到 类似天气变化的影响;3、对数据的人为处理如数据中包含移动平均数等;4、如果模型设定 中遗漏了某个自相关的解释变量并被纳入到扰动项中,那么会引起扰动项的旬相关。
自相关的检验:1、画图〔不推荐〕2、BG检验estatbgodfrey 3、BOX-Picrcc Q检验4、DW 检验estat dwatson, 检验都要在CIS做完后才能做自相关的处理:1、使用OLS+异方差自相关稳健的标准误;2、OLS+聚类稳健的标准误;3、 使用可行广义最小二乘法〔FGLS); 4、修改模型设定自相关处理实例:1、使用数据icecream 然后进展回归.reg consumption temp price incomeSourcessdfMSNumber of obs F( 3, 26)Prob > FR-squaredAdj R-squaredRoot MSE= 30= 22.17-0.0000=0.7190=0.6866=.03683ModelResidual.090250523.035272835326.030083508.001356647Total.12552335829.004328392consumptionCoef.Std.Err.tP>lt|[95号 Conf.Interval]tempprice income_cons.0034584-1.044413,0033078,1973149.0004455.834357.0011714.27021617.76 -1.252.820.730.0000.2220.0090.472.0025426-2.759458.0008999-.3581223.0043743.6706322.0057156.752752BG检验显著拒绝了原假设无自相关,那么认为存在自相关Q检验〔略〕、DW检脸如下DW=1.02距离2很远 可以认为存在自相关。
由以上的检验可以看出扰动项之间存在自相关,因此OLS提供的标准误是不准确的,应 使用异方差自相关稳健标准误,由于样本为30个,n四分之一二2.34,故取NEWcy-Wcst估计量 的滞后值为P=3,结果如下:上图显示标准误与OIS标准误无多大区别,因此将滞后阶数增加为6,从上图可以看到无论裁断参数是3还是6,标准误都变化不大,比拟稳健此外,前面提到自相关存在可能是因为模型设定不正确,因此考虑在解释变量中参加 temp的滞后值,然后再进展()LS回>)2 : 然后使用BG检验是否存在自相关:结果显示无自相关,而后DW值也改良为1.58,因此修改模型后扰动项根本不再存在自相关模型设定与数据问题遗漏变量:被解释变量可能被参加到扰动项中解决方式:参加尽可能多的控制变童;使用代理变量;工具变量法;使用面板数据;随机试 验或自然实验其中代理变量应满足两个条件:多余性,仅通过影响遗漏变量而作用于被解释变量;剩余独 立性,遗漏变量中不受代理变量影响的剩余局部与所有解释变量均不相关多重共线性:某一解释变量可以由其他解释变量残性表出,即存在多重共线性 检测:先回归,然后estat vif VIF低于10即不存在多重共线性。
工具变量,2SLS与GMM工具变量的适用条件:OLS成立的最重要条件是解释变量与扰动项不相关,如出现相关 可以使用工具变量法来解决其中在计量经济学中,将所有与扰动项相关的解释变量成为内 生变量,一个有效的工具变量应满足一下两个条件:1、工具变量与内生解释变量相关;2、工具变量与扰动项不相关过程:传统的工具变量法一般通过二阶段最小二乘法〔2SLS或TSLS〕来实现:1、用内 生解释变量对工具变量进展回归,得到拟合值Pt〔Pt实际上是内生变量中的外生局部,而 另一局部是与扰动项相关〕;2、用被解释变量对第一阶段的拟合值Pt进展回归工具变量的检测:1、不可识别检验;2、弱工具变量检验;3、过度识别检验[estatoveridh 豪斯曼检验:原假设为所有解释变量均为外生变量,假设拒绝假设的话应该使用工具变 量法,假设承受的话使用OLS豪斯曼过程:regX1 x2Estimates store ols(存储()IS 的结果)Ivregress 2sls yxl(x2=zl z2)(假设疑心 X2 为内生变量)Estimates store iv(存储 2SLS 结果)Hausman iv ols,constant sigmamore(根据存储的结果进展豪斯曼检验)假设存在异方差的问题,那么可以使用杜宾-吴-豪斯曼检验。
它在异方差的情况下也适 用在球形扰动项的假定下,2SI5最有效,但如果扰动项存在异方差或自相关,那么存在 GMM广义矩估计这一更有效的方法:首先使用2SLS得到残差,然后GMM,但是在实际操 作中使用迭代法GMM的命令:两步最优GMM迭代GMM 过度识别检验ivregress gmm y xl(x2=zl z2) ivregress gmm y xl (x2=zl z2), igmm estat overid工具变量法的STATA命令和实例: Use grilic.dta,clearSum然后考察智商和受教育年限的相关关系〔本文研究的是工资与受教育年限的关系〕具有较强的正相关关系然后作为一个参照系,进展OLS回心并使用稳健标准误教育投资率10.26%,显然过高,可能是遗漏了变量能力,使得•能力对工资的奉献也被纳 入教育的奉献因此使用iq作为能.力的代理变量,再进展OLS回归,可以发现参加iq作为能力的代理 变量后,教育投资回报率降低了一些,但还是过高〔如下列图〕使用iq来度量能力存在测量误差,因此iq为内生变量,考虑使用med mrt age作为 iq的工具变量,进展2SIS回归,并使用稳健标准误。
受教育年限回报上升,而iq竟然是负相关,因此不可信,使用工具变量法需要验证其工 具变量的有效性因此进展过度识别来检验所有工具变量是否外生上图显示有些工具变量不合格,与扰动项相关疑心mrt和a就不满足外生性,因此仅 适用med和kww作为iq的工具变量,再次进展2SU回归,同时显示第一阶段的回归结果如上图,笫一局部回归是使用内生解释变量对工具变量进展回归,第二局部用被解释变 量对第一阶段回归的拟合值进展回归上图中教育回报率较为合理,而且iq系数也为整数,再次进展过度识别检验结果没有拒绝外生的原假设接下来继续考察作为工具变量的第二个条件,即工具变量与内生变量的相关性,由第一 阶段的回归看出,med和k\vw对iq有较好的解释力,但为稳健起见,还是使用对弱工。
