一:关于DID

DID即diff in diff,

DID主要应用场景是:研究某项政策或策略实施后是否有效果;涉及时间前后某经济指标的比较,即存在时间维度的比较;

DID应用的局限性: 首先是对数据的要求,可以获得政策执行前的数据以及政策执行后的数据;其次要求可以找到好的对照组(即除了是否实施该政策有有差异外,其余的个体差异应当控制住并保持不变)

DID易错:关于核心的解释变量是“时间t”还是 “是否执行政策treat”呢?由于我们研究的对象是 “这项政策执行后是否有效果”,主要针对政策执行前后是否要显著差异,因此我们的核心解释变量是t而不是是否实施这项政策treat。

DID基本程序:

cd "D:\stata15\data\practice\cause and effect data"
log using"D:\stata15\log\PSM and DID.log",replace
use cardkrueger1994.dta,clear
des

*对数据的描述

//研究提高最低工资标准后对雇佣数量的影响;
//treated即是否实施了提高工资标准,1代表实施,即新泽西州;0代表未实施,即宾夕法尼亚州;
//研究政策实施前后的雇佣数量的变化,t对比1992年2月的雇佣数量和1992年11月的差异;
//fte即y,雇佣数量;bk kfc roys wendys都是控制变量
gen gd=t*treated //生成交互项
reg fte gd treated t,r
diff fte,treat(treated) period(t) robust
reg fte gd treated t bk kfc roys wendys,r //加入控制变量的OLS回归
diff fte,t(treated) p(t) cov(bk kfc roys wendys) test //检验政策执行前是否有差异,以便确定bk/kfc等是否需要作为控制变量加入模型中
*回归结果

DID和ESM和psm did psm_应用场景

*显示的结果是我们 政策实施前,处理组和控制组个体特征或控制变量差异比较

*如果有差异即通过检验,bk,kfc,roys,wendys等就必须要作为控制变量进行控制,如果没差异说明两组样本的这些特征一致,可以不必作为控制变量加入

*结果显示bk kfc等没有显著差异,可不必作为控制变量加入,因此确定的基准回归就是

diff fte,treat(treated) period(t) robust

二:关于PSM方法

PSM即倾向得分匹配法

PSM主要应用场景:研究的是某项政策或策略的效应或作用;与DID不同的是我们仅仅关心政策实施与否的两个群体的结果变量的比较,不涉及时间前后的比较

PSM的局限性:首先样本量要大,因为我们的PSM按照倾向得分进行匹配,匹配不成功会删去部分样本;其次,PSM将可观测变量带来的个体差异加以控制,无法解决不可观测变量带来的个体差异问题;最后,PSM要求满足共同支撑假定以及平行假设,前者是指可以找到能否为实验组找到好的对照组;后者是检验我们使用PSM找到的对照组是否为一个好的对照组。

PSM原理:被解释变量y; 政策执行与否D(也是我们的核心解释变量);控制变量x

首先使用D和控制变量x进行logit或者probit回归,得到D估计值,也就是我们的倾向得分;其次,进行共同支撑假设和平行假设的检验;最后计算平均处理效应。

*以研究是否参与培训对收入的影响为例

use ldw_exper.dta,clear
br
des
reg re78 treat age educ black hisp married re74 re75 u74 u75,r
psmatch2 treat age educ black hisp married re74 re75 u74 u75,
///outcome(re78) n(1) ate ties logit common
//使用logit模型计算得分;common共同支撑假定;ate即平均处理效应;
*执行结果

DID和ESM和psm did psm_git_02

以treat作为被解释变量,将控制变量或者说是IV对treat作logit回归后,从t检验结果发现没有显著差异,即对照组和实验组在个体特征上没有显著差异,也就是说我们找到了一个好的对照组。

DID和ESM和psm did psm_git_03

共同支撑假设的结果,13:432

quietly psmatch2 treat age educ black hisp married re74 re75 u74 u75, ///outcome(re78) n(1) ate ties logit common

pstest age educ black hisp married re74 re75 u74 u75,both graph //使用PSM匹配后是否效果更好了,即实验组和控制组的个体差异是否控制住了

psgraph

DID和ESM和psm did psm_控制变量_04

匹配后的*距离中心0的差异相对更小,除了u74;re74两个变量,整体而言使用PSM匹配后,我们的实验组与控制组的个体特征差异减少了。

PSM的拓展

*半径匹配 Radius matching
psmatch2 treat age educ black hisp married re74 re75 u74 u75,outcome(re78) ate radius caliper(0.001)
*进行核匹配,默认核函数和带宽
psmatch2 treat age educ black hisp married re74 re75 u74 u75,outcome(re78) kernel ate ties logit common quietly
pstest age educ black hisp married re74 re75 u74 u75,both graph
psgraph
*进行局部线性回归匹配,默认核函数和带宽
psmatch2 treat age educ black hisp married re74 re75 u74 u75,outcome(re78) llr ate ties logit common quietly
pstest age educ black hisp married re74 re75 u74 u75,both graph
psgraph

三、关于DID-PSM

DID-PSM是在DID基础之上的完善,DID中我们认为两组之间不存在个体差异,即控制组的时间效应就是处理组的时间效应,这样我们将可以观察到的实验组的总效应剔除掉控制组的时间效应,就是我们研究的政策效应。

而DID-PSM将实验组和控制组的个体差异考虑进来,将实验组的总效应剔除掉控制组的时间效应,再剔除掉两组存在的个体差异,如此便得到了我们的政策效应。

与DID相比,DID-PSM考虑到了实验组和控制组的个体差异;与PSM相比,DID-PSM除了可以控制可测变量产生的个体差异,还可以控制不可测因素产生的个体差异,例如消费者偏好;

因此,DID-PSM主要解决的问题是:

  1. 研究目的是某项政策或策略实施的效果,有时间前后的对比
  2. 实验组和控制组存在个体差异问题,不满足DID的平行趋势假定
  3. 可以观测到政策执行前后以及政策执行与否的结果变量,
  4. 受到不可观测变量的影响,存在选择性偏误或者遗漏变量问题

DID-PSM程序及结果分析

*PSM——DID
 use cardkrueger1994.dta,clear
 des 
 diff fte,treat(treated) period(t) cov(bk kfc roys) robust  //DID的方法                    
 diff fte,treat(treated) period(t) kernel id(id) logit cov(bk kfc roys) report support
 diff fte,treat(treated) period(t) kernel id(id) logit cov(bk kfc roys) report support test
 //test检验实验组和控制组是否存在个体差异