
合成控制法简介及代码.doc
15页word合成控制法经济学家常要评估某政策或事件的效应此政策可能实施于某国家或地区〔省、州或城市〕最简单〔天真〕的方法是考察政策实施前后的时间序列,看所关心的结果〔oute of interest〕如何变化但此结果还可能受其原有变化趋势的影响,或其他同时发生的混淆性事件〔confounder〕的作用为此,常使用“鲁宾的反事实框架〞〔Rubin's counterfactual framework〕,即假想该地区如未受政策干预将会怎样,并与事实上受到干预的实际数据进展比照,二者之差即为“处理效应〞〔treatment effect,借用医学术语〕困难之处在于,我们无法观测到“该地区如未受政策干预将会怎样〞〔反事实〕选择控制组是门艺术常用解决方法是,寻找适当的控制组〔control group〕,即在各方面都与受干预地区相似却未受干预的其他地区,以作为处理组〔treated group,即受到干预的地区〕的反事实替身〔counterfactuals〕但通常不易找到最理想的控制地区〔control region〕,在各方面都接近于处理地区〔treated region〕比如,要考察仅在实施的某政策效果,自然会想到以某某作为控制地区;但某某毕竟与不完全一样。
或可用其他一线城市〔某某、某某、某某〕构成的控制组,比拟某某、某某、某某与在政策实施前后的差异,此方法也称“比拟案例研究〞〔parative case studies〕但如何选择控制组通常存在主观随意性〔ambiguity〕,而某某、某某、某某与的相似度也不尽一样为此,Abadie and Gardeazabal (2003)提出“合成控制法〞〔Synthetic Control Method〕其根本思想是,虽然无法找到的最优控制地区,但通常可对中国的假设干大城市进展适当的线性组合,以构造一个更为优秀的“合成控制地区〞〔synthetic control region〕,并将“真实〞与“合成〞进展比照,故名“合成控制法〞合成控制法的一大优势是,可以根据数据〔data-driven〕来选择线性组合的最优权重,防止了研究者主观选择控制组的随意性〔一〕Abadie论文西班牙恐怖活动引发的计量方法Abadie and Gardeazabal (2003)的初衷是以合成控制法研究西班牙巴斯克地区〔Basque country〕恐怖活动的经济本钱MIT经济系教授 Alberto Abadie〔此前长期任教于哈佛大学肯尼迪学院〕,正是来自于巴斯克地区,一个毗邻法国的西班牙自治地区。
巴斯克人长期居住于巴斯克地区,拥有独特的语言与文化,在历史上屡次成功对抗强敌入侵在1970年代初,巴斯克地区的人均GDP在西班牙17个地区中排第三之后,由于民族独立的诉求未获满足,从1975年开始,巴斯克地区陷入有组织的恐怖活动之中恐怖活动重创巴斯克经济,至1990年代末,巴斯克地区的人均GDP在西班牙排名降为第六然而,70年代末至80年代初,西班牙整体经济也下行,故不易区分恐怖活动的单独效应而且,巴斯克地区在恐怖活动之前的经济增长潜力显然与西班牙其他地区也不尽一样为此,Abadie and Gardeazabal (2003)使用西班牙其他地区的线性组合来构造合成的控制地区,并使得合成控制地区的经济特征与60年代末恐怖活动爆发前的巴斯克地区尽可能相似,然后把此后“合成巴斯克地区〞〔synthetic Basques country〕的人均GDP演化与“真实巴斯克地区〞〔actual Basque country〕进展比照如何构造合成控制具体而言,假设共有(1+J )个地区,其中第1个地区为受到恐怖活动冲击的巴斯克地区,而其余J个西班牙地区未受冲击〔在此J = 16〕,构成潜在的控制组,称为“donor pool〞〔原意为“器官捐献库〞,再次借用医学术语〕。
一个潜在假定是,恐怖活动仅影响巴斯克地区,而未波与西班牙的其他地区〔事实上恐怖活动也主要集中于巴斯克地区〕将合成控制地区的权重记为以下J 维列向量:其中,w2 表示第2个地区在合成巴斯克地区所占的权重,以此类推;所有权重皆非负,且权重之和为1w 的不同取值即构成不同的合成控制地区,简称“合成控制〞〔synthetic control〕在此研究中,被解释变量为人均GDP,记为 y 影响 y 的解释变量或预测变量〔predictors〕包括投资率、人口密度、产业结构、人力资本等,详见下表在巴斯克地区爆发恐怖活动之前,记其各预测变量的平均值为向量 x1 〔K × 1 维列向量,下标1表示“treated region〞〕,即上表第(1)列的数值〔除了人均GDP〕将西班牙其他地区相应预测变量的平均值记为矩阵 X0〔K × J 维矩阵,下标0表示“control region〞〕,其中第 j 列为第 j 个地区的相应取值显然,我们希望选择权重 w,使得 X0w 尽可能地接近于 x1,即经过加权之后,合成控制地区的经济特征应尽量接近处理地区为度量此距离,可使用二次型〔类似于欧几里得空间中两点之间的距离〕。
由于 x1 中的每个预测变量对于 y 的预测能力有大小之别,应在距离函数中享有不同的权重,故考虑以下有约束的最小化问题:其中,V 为 ( K × K ) 维对角矩阵,其对角线元素均为非负权重,反映相应的预测变量对于人均GDP的相对重要性此最小化问题的目标函数是二次函数,为“二次规划〞〔quadratic programming〕问题,一般进展数值求解记此约束最小化问题的最优解为 w*(V);显然,它依赖于对角矩阵 V进一步,选择最优的 V,使得在恐怖活动全面爆发之前,合成巴斯克地区的人均GDP与真实巴斯克地区尽量接近具体而言,记 z1 为 (10 × 1) 维列向量,包含巴斯克地区在1960-1969年间的人均GDP;记 Z0为 (10 × J ) 维矩阵,其中每列为相应控制地区在1960-1969年间的人均GDP用 Z0w*(V) 来预测 z1,然后选择V,以最小化“均方预测误差〞〔Mean Squared Prediction Error,简记MSPE〕,即将每期的预测误差平方后再求各期的平均:求解此最小化问题,可得构成合成巴斯克地区的最优权重,w* = w*(V*)经过计算,Abadie and Gardeazabal (2003)发现,只有两个地区的权重为正,即加泰罗尼亚〔Catalonia,权重0.8508〕与马德里〔Madrid,权重0.1492〕,而其他地区的权重均为0。
直观上,Catalonia与Madrid的经济特征也与巴斯克地区最为相似合成控制法的“效果图得到合成巴斯克地区的权重之后,即可计算其人均GDP在样本期间的演化过程记巴斯克地区在样本期间〔假设为 T 期〕的人均GDP为向量 y1〔T × 1 维列向量〕记其他地区在样本期间的人均GDP为矩阵 Y0〔T × J 维矩阵〕,其中每列为相应地区的人均GDP由此可得合成巴斯克地区的人均GDP序列 y1* = Y0 w*最直观的方法是将 y1 与合成控制的 y1* 画时间趋势图,参见如下图从上图可知,在1975年大规模恐怖活动爆发之前,真实巴斯克〔实线〕与合成巴斯克〔虚线〕的人均GDP十分接近二者在1975年后即开始分岔;而在1980与1990年代,真实巴斯克的人均GDP比合成巴斯克低约10%换言之,巴斯克恐怖活动的经济本钱是损失了约10%的人均GDP反事实的分析框架假设共有 (1+J )个地区,其中第1个地区受到政策干预〔如有多个地区受到干预,可合并为一个大地区;或分别进展估计〕,而其余 J 个地区未受冲击〔构成donor pool 〕记yit为地区 i 在第 t 期实际观测到的结果变量,其中 i = 1, ... , J + 1,而 t = 1, ... , T 。
记yitN为地区 i 在第 t 期如果未受政策干预的结果变量〔上标 N 表示未受干预〕记 T0 为政策干预开始之前〔preintervention〕的时期数,且 1 ≤ T0 < T记yitI为地区 i 在第 t 期的结果变量〔上标 I 表示 Intervention〕,如果地区 i 在第 (T0 +1) 至第 T 期持续地受到政策干预假设政策在前 T0 期对于结果变量没有影响,即对于所有 i 与 t ≤ T0,都有yit = yitN = yitI如果政策在实施之前即产生影响〔比如,通过预期效应〕,如此可重新定义 T0 为政策实际开始产生影响之前的那个时期一个潜在假定是各地区之间不会互相影响〔no interference between units〕;特别地,控制地区的结果变量不受处理地区政策冲击的影响我们关心当 i = 1 而 t > T0 时的处理效应:在上式中,只要估计 y1tN 即可引入因子模型假设yitN由以下“因子模型〞〔factor model 〕所决定:其中,上式右边第(1)项δt 为时间固定效应 (time fixed effects)第(2)项的zi为可观测的向量〔不受政策干预影响,也不随时间而变;比如,干预之前的预测变量之平均值〕。
zi对于yitN的作用随时间而变,故zi的系数θt 〔未知参数〕带时间下标 t 第(3)项为不可观测的 “互动固定效应〞〔Interactive Fixed Effects〕,即个体固定效应ui与时间固定效应λt的乘积〔Bai, 2009〕第(4)项 ԑit 为随机扰动项根据“因子分析〞〔factor analysis〕的术语,称第(3)项中不可观测的λt 为“共同因子〞〔mon factors〕,可理解为不同地区所面临的共同冲击〔mon shocks〕,比如它有两个分量,分别表示技术冲击〔technological shocks〕与金融危机〔financial crises〕;而各地区对于共同冲击λt 的反响并不一样,以ui来表示,称为“因子载荷〞〔factor loading〕如果λt 是一维且为常数,如此上式简化为“双向固定效应模型〞〔two-way fixed effects model〕,包含个体固定效应ui与时间固定效应δt 由此可知,上式是双向固定效应模型的推广,它允许不同个体对于共同冲击的异质性反响〔heterogeneous impacts〕合成控制的误差记构造合成控制的权重向量为:其中,w2 表示第2个地区在合成控制所占的权重,以此类推;所有权重皆为非负,且权重之和为1。
对于任意给定的 w,可将合成控制地区的结果变量写为:将 y1tN 减去上式可得:显然,如果能找到 w,使得上式右边的(1)式与(2)式均为0,如此上式的期望为0,故合成控制为 y1tN 的无偏估计但(2)式中的ui不可观测,故不可行Abadie et al. (2010)证明,如果能找到 w 使得即根据可观测的经济特征与干预前结果变量所选择的合成控制 w,也会使得合成控制的不可观测特征接近于处理地区反之,如果无法找到 w,使得合成控制能很好地复制〔reproduce〕处理地区的经济特征以与干预之前的结果变量,如此不建议使用合成控制法合成控制法的根本性质如果合成控制 w* 能很好地复制处理地区的经济特征与干预前的结果变量〔关于如何计算 w*,参见首篇《合成控制法〔一〕》〕,如此可定义如下合成控制估计量〔Synthetic Control Estimator〕:Abadie et al. (2010)证明,在一定的正如此条件下,如果合成控制 w* 能完全地复制〔perfectly reprod。












