您所在位置：网站首页 > 商业/管理/HR > 管理学资料 > 倾向值匹配

倾向值匹配.pptx

38页

卖家[上传人]：小**

文档编号：62903399

上传时间：2018-12-23

文档格式：PPTX

文档大小：302.80KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

12金贝

下载

/ 38 举报版权申诉马上下载

文本预览

下载提示

常见问题

倾向值匹配研究（Propensity Matched Study）,对于个体i，其未来收入yi可能有两种状态，取决于是否参加此项目，即：,yi,=,,y1i,y0i,若Di=1,若Di=0,其中，y0i表示个体i未参加项目的未来收入，而y1i表示个体i参加项目的未来收入，（y1i- y0i ）即个体i参加该项目的因果效应,由于无法同时观测到y0i和y1i，产生了一种“数据缺失”的问题,,,处理效应：在经济学中，我们常常希望评估某项目或政策实施后的效应，如政策推出的各种项目，此类研究被称之为项目效应评估，也被称之为处理效应，项目参与者的全体构成控制组或对照组，而未参加项目者则构成控制组或对照组即y1i-y0i,选择难题：由于个体通常会根据其参加项目的预期收益E（y1i-y0i）而自我选择是否参加项目，导致对平均处理效应的估计带来困难,平均处理效应（ATE） ≡ E（ y1i-y0i ）：表示从总体中随机抽取某个体的期望处理效应，无论该个体是否参与项目,参与者平均处理效应（ATT） ≡E（ y1i-y0i |Di=1）,非参与者平均处理效应（ATU） ≡E（ y1i-y0i |Di=0）,E（y1i| Di=1 ）- E（y0i| Di=0 ）,E（y1i| Di=1 ）- E（y0i| Di=1 ）,+ E（y0i| Di=1 ）- E（y0i| Di=0 ）,参与者与未参与者的平均差异,ATT,选择偏差,=,依可测变量选择：如果个体i对Di的选择完全取决于可观测的xi,两大假定：可忽略性：给定xi，则（y0i，y1i）独立于Di 均值可忽略性：在给定xi的情况下， y0i和y1i都均值独立于Di,匹配估计量的基本思路：找到属于控制组的某个体j使得其与属于处理组的个体i的可测变量取值尽可能相似，即xi ≈xj,基于可忽略性假设，则个体i与个体j进入处理组的概率相近，具有可比性，故可将yj作为y0i的估计量,倾向值是在 1983 年由学者 Rubin 和 Rosenbaum 首次给出了明确的定义：指在一系列可观察到的协变量条件下，任意一个研究对象被分配到试验组或者对照组的概率。

在一般的实证研究中，由于存在很多其他变量混淆自变量和因变量之间的关系，研究者很难直接探索二者之间的净效果( net effects)这些混淆变量的影响通常被称为选择性误差( selectionbias) ，而通过倾向值匹配的方式来控制和消除选择性误差,定义：,目标：,马氏距离：考虑xi与xj之间的相似度或距离（均为k维向量）,,其中二次型矩阵为x的样本协方差矩阵的逆矩阵，它的作用相当于权重矩阵，使用马氏距离进行匹配被称之为马氏匹配倾向得分(p-score): 个体i的倾向得分为，在给定的情况下，个体i进入处理组的条件概率，即p（ xi ） ≡P（Di=1|x= xi ）,或者间记p（x）使用倾向得分作为距离函数进行匹配被称之为倾向得分匹配马氏匹配的缺点在于个体i与j的马氏距离最近，但绝对距离可能依然很远使用倾向得分来度量个体之间的距离好处在于，它不仅是一维变量，而且取值介于[0,1]之间，即使两者距离很远仍有可能使p（ xi ） = p（ xj）,理论依据：如果可忽略性假定成立，则只需给定p（x）的情况下，（ y0i,y1i）独立于Di,（由于D为虚拟变量，故只需证明P[D=1|y0,y1,p(x)]与y0,y1无关即可）,倾向得分定理,重叠假定：对于x的任何可能取值，都有0p(x)1,倾向值匹配(Propensity Matching)步骤,（1）首先要对数据进行数据质量核查，鉴别数据类型，考察数据的完整性和逻辑性，然后根据数据类型和样本量大小来选择相应的倾向得分的分析方法。

2）选择纳入模型的协变量针对试验目的，根据研究者的临床经验筛选混杂因素，并结合倾向得分变量选择的要求，选择合适合理的混杂因素然后以处理因素为应变量，混杂因素为自变量来构建模型根据模型获得倾向得分的估计值估计倾向得分可选的模型包括 logistic 回归、Probit 回归、判别分析等，其中最常用的是 logistic 回归模型3）根据数据结构类型和选定的模型来计算每一个试验对象的倾向得分，倾向得分在 0～1 之间，表示试验对象被分配到试验组或者对照组的概率4）选择合适的倾向得分应用方法 PS 分层法、PS 匹配法和 PS 协变量校正法等以倾向得分匹配法为例，在估计出试验对象倾向得分之后，需要选择合适的算法计算出组间倾向得分之间的距离，也就是近似程度5）根据每个试验对象的倾向得分值，通过选择好的匹配算法进行组间匹配，匹配结束后得出匹配数据集6）在匹配前后，进行组间均衡性检验组间基线的均衡性优劣是评价倾向得分方法在实际应用中控制选择性偏倚及混杂效应的较好的指标传统上常用的均衡性检验方法是假设检验，但假设检验法存在先天不足，针对此问题 1986 年由 Flury 和 Reidwyl 提出了标准化差异法，给出了明确的定义和计算方法。

匹配后的处理组均值与控制组均值较接近，这个过程称之为数据均衡，但这两者的差距与计量单位有关，故一般针对x的每一个分量x考虑如下标准距离或者说是标准偏差：,,一般要求次标准化差距不超过10%，如果超过则应回到第二步和第三步重新估计倾向得分，或者改变具体的匹配方法7）对匹配后的数据集，选择合适的统计学分析方法来估计处理效应由于匹配后试验组和对照组之间的协变量均已均衡，数据可以看作是近似随机化的，如果选择了合适的统计学方法则可以得出真实可信的处理效应经过匹配，每一个试验组个体都能在对照组找到一个或多个与之匹配的对照个体，所以我们在统计学处理时，也可以考虑类似配对设计的统计方法来进行分析一般来说有六种方法： k近邻匹配限制倾向得分的绝对距离|pi-pj|≤ε，一般建议ε ≤0.25 卡尺内最近邻匹配核匹配局部线性回归匹配样条匹配,,,近邻匹配法,,整体匹配法,也叫卡尺匹配或者半径匹配,（贪婪匹配）,K近邻匹配即寻找倾向得分最近的k个不同组个体,说明：,卡尺内最近邻匹配即给定卡尺ε范围内寻找最近匹配,核匹配下其权重为,,,,其中h为指定带宽，K(.)为核函数,,近邻匹配法匹配的结果为最近的部分个体，然后进行简单算术平均,两者的区别：,整体匹配法下每位个体的匹配结果为不同组的全部个体（通常是去电共同取值范围之外的个体），只是根据个体距离不同给予不同的权重（近者大，远者小，超出一定范围权重为0）,（8）对数据进行敏感性分析。

在一次试验中，好的匹配方法产生不完整的匹配集是不可避免的，哪怕采用最大化匹配也不能消除匹配的不精确因此，如何在匹配的精度和完整度之间进行选择，值得探讨由于匹配数据的不完整导致严重的偏倚要远远高于由于精度不够导致的偏倚所以选择一种合适的匹配算法是十分重要的，因为它影响到处理效应的估计比较数据集在匹配前后的精确度和完整度，以此来评价不同的匹配算法的优劣是至关重要的PSM的局限性： PSM通常要求比较大的样本容量以得到高质量的匹配 PSM要求处理组与控制组的倾向得分有较大的共同取值范围；否则，将丢失较多观测值，导致剩下的样本不具有代表性 PSM只控制了可测变量的影响，如果存在依不可测变量选择，仍会带来隐性偏差,倾向得分匹配举例——培训对工资的效应,政策背景：国家支持工作示范项目（National Supported Work,NSW）研究目的：检验接受该项目（培训）与不接受该项目（培训）对工资的影响基本思想：分析接受培训组（处理组，treatment group）接受培训行为与不接受培训行为在工资表现上的差异但是，现实可以观测到的是处理组接受培训的事实，而处理组没有接受培训会怎样是不可能观测到的，这种状态也成为反事实,倾向得分匹配举例——培训对工资的效应,在倾向得分匹配方法（Propensity Score Matching）中，根据处理指示变量将样本分为两个组，一是处理组，在本例中就是在NSW实施后接受培训的组；二是对照组（comparison group），在本例中就是在NSW实施后不接受培训的组。

在处理组和对照组样本通过一定的方式匹配后，在其他条件完全相同的情况下，通过接受培训的组（处理组）与不接受培训的组（对照组）在工资表现上的差异来判断接受培训的行为与工资之间的因果关系倾向得分匹配举例——培训对工资的效应,本例选自Cameron&Trivedi《微观计量经济学：方法与应用》（中译本，上海财经大学出版社，2010）pp794-800 所有数据及程序均来自于本书的配套网站（http://cameron.econ.ucdavis.edu/mmabook/mmaprograms.html）见附件nswpsid.dta,倾向得分匹配举例——培训对工资的效应,其中倾向得分匹配法的stata实现过程如下：总的讲来分为两大部分：一是为倾向打分，二是运用得分进行样本匹配并比较一、倾向打分,第一步：设定宏变量breps表示重复抽样200次 . global breps 200 第二步，设定宏变量XDW02，表示变量AGE AGESQ EDUC EDUCSQ MARR NODEGREE BLACK HISP RE74 RE75 RE74SQ U74 U75 U74HISP . global XDW02 AGE AGESQ EDUC EDUCSQ MARR NODEGREE BLACK HISP RE74 RE75 RE74SQ U74 U75 U74HISP 第三步，通过logit模型进行倾向打分 . pscoreTREAT $XDW02, pscore(myscore) comsup blockid(myblock) numblo(5) level(0.005) logit 【注释】$表示引用宏变量。

【注意】一定要把处理指示变量放在最前面,倾向得分匹配举例——培训对工资的效应,二、运用得分进行样本匹配比较,方法一：Nearest neighbor matching(random version) 最邻近方法首先，产生随机数种子 . set seed 10101 然后 . attndRE78 TREAT $XDW02, comsup bootreps($breps) dots logit,通过stata结果窗口可看到有三张表格：第一张表格,*ATT(ATET)表示已处理的平均处理效应（average treatment effect on the treated） ** Analytical standard errors,【说明】注意变量排列次序，RE78正是我们所关心的变量，放在最前面；其次是处理指示变量，最后是其他变量倾向得分匹配举例——培训对工资的效应,第三张表格,第一张表与第三张表的差别在于标准差的估计，第一张表使用的是解析标准差，第三张表使用自助法得到标准差当然t统计量也随之发生变化倾向得分匹配举例——培训对工资的效应,方法二：Radius matching（半径匹配法）,set seed 10101 attrRE78 TREAT $XDW02, comsup boot reps($breps) dots logit radius(0.001),【说明】选项radius( )，括号内填写半径值，例如0.1，0.5，0.00001等，本例的半径值为0.001。

同样也需要注意变量排列次序问题，RE78正是我们所关心的变量，放在最前面；其次是处理指示变量，最后是其他变量通过stata结果窗口可看到有三张表格，表格结构与最邻近方法类似倾向得分匹配举例——培训对工资的效应,方法三： Stratification Matching（分成匹配法）,. set seed 10101 . attsRE78 TREAT, pscore(myscor。

点击阅读更多内容