CHAPTER2 in Most-Harmless-Econometrics

内容

《基本无害的计量经济学》第二章:理想实验

使用软件

STATA16 MP

理论

1. 选择性偏差

我们可以举一个非常简单的例子来表述因果关系,去医院能让人变得更加健康吗?

NHIS对上述问题进行过相关数据统计,下表给出了受调群众最近去过医院和没去过医院的人的平均健康状况。



顶刊上的选择性偏差 选择性偏误的定义_经验分享


可见两者之间的平均差距是0.72,那么这就可以说明去医院会使人的健康变得更糟糕吗?

这种简单的直接比较忽略了一个严重的问题:选择去医院的人的健康状况可能本来就很差。更进一步来说:那些去医院接受治疗的人

的健康水平可能还不如没去过医院的人,对于这些人或许不去医院会使其身体状况更差,即使经过医院治疗也不一定能赶上不去医院的人。

为了进一步描述上述分析中忽略的因素,可以把接受医院与否划分为一个虚拟变量:

顶刊上的选择性偏差 选择性偏误的定义_顶刊上的选择性偏差_02


也就是说,如果某人没有去医院,那么他的健康状况是顶刊上的选择性偏差 选择性偏误的定义_数据统计_03,如果假设这个人去过医院,那么他的健康状况将是顶刊上的选择性偏差 选择性偏误的定义_其他_04,这两者之间的差异即可表示为某人在医院接受治疗对其健康状况产生的影响——因果效应。
最终观测到某人的潜在健康状态结果顶刊上的选择性偏差 选择性偏误的定义_其他_05可以用下述线性组合表示:
顶刊上的选择性偏差 选择性偏误的定义_其他_06
可见当顶刊上的选择性偏差 选择性偏误的定义_数据统计_07时,顶刊上的选择性偏差 选择性偏误的定义_数据统计_08即表示个体去医院对健康的影响,对于不同的个体,其处理效应的大小也有所差异。但是,在现实生活中,同时观测到上述 顶刊上的选择性偏差 选择性偏误的定义_其他_04顶刊上的选择性偏差 选择性偏误的定义_数据统计_03 几乎是不可能的。所以我们需要尽可能的观测同一类人去医院治疗和不去医院治疗对健康的影响。
下面的公式就将去医院接受治疗与否带来的对平均健康水平的差异与平均因果效应(average casual effect)联系在一起:
顶刊上的选择性偏差 选择性偏误的定义_经验分享_11
上式中 顶刊上的选择性偏差 选择性偏误的定义_顶刊上的选择性偏差_12 表示接受住院治疗的人的平均健康水平,顶刊上的选择性偏差 选择性偏误的定义_经验分享_13表示接受住院治疗的人未接受治疗前的健康水平,
顶刊上的选择性偏差 选择性偏误的定义_其他_14表示没有接受住院治疗的人的平均健康水平。因此,上式中简单的比较结果 顶刊上的选择性偏差 选择性偏误的定义_其他_15 可以被分解为两个部分:
1.顶刊上的选择性偏差 选择性偏误的定义_顶刊上的选择性偏差_16表示处理的平均因果效应,它可以写为 顶刊上的选择性偏差 选择性偏误的定义_数据统计_17 2. 顶刊上的选择性偏差 选择性偏误的定义_顶刊上的选择性偏差_18即可表示为选择性偏误(selection bias),它表示接受治疗与不接受治疗的人,在被治疗前的健康水平的平均差异。
在上述例子中,我们发现简单的直接均值 顶刊上的选择性偏差 选择性偏误的定义_其他_15 比较会出现选择性偏误问题,事实上,在上述例子中选择接受治疗的人的+在治疗前的健康状态(顶刊上的选择性偏差 选择性偏误的定义_经验分享_13)可能会远低于不需要接受治疗的人的健康水平(顶刊上的选择性偏差 选择性偏误的定义_其他_14),因此会导致选择性偏误为负,这可能会使我们找到的因果效应 顶刊上的选择性偏差 选择性偏误的定义_其他_15

2. 用随机分配解决选择性偏差

  • 顶刊上的选择性偏差 选择性偏误的定义_顶刊上的选择性偏差_23随机分配可以解决选择性偏差问题。这是因为随机分配顶刊上的选择性偏差 选择性偏误的定义_顶刊上的选择性偏差_23可以使其独立于顶刊上的选择性偏差 选择性偏误的定义_其他_25,考虑以下公式:
    顶刊上的选择性偏差 选择性偏误的定义_数据统计_26
  • 这也就是说,随机分配患者进行治疗得到的健康水平均值比较顶刊上的选择性偏差 选择性偏误的定义_其他_27等同于因果效应。

举例

  • 对于随机化研究方法比较著名案例之一是田纳西州师生比例改进计划(Tennessee Student Teacher Achievement Ratio Experiment,STAR)
    。经济学家希望建立课堂规模(班级学生人数)与学生学习成绩之间的因果关系,但是教育学领域使用的数据大多数为非实验数据,这些数据表明课堂规模与学习成绩之间几乎没有联系,这可能是由于班级规模与学生特征有联系,从而大致选择性偏误不为0。
  • 因此不能只简单的比较可观测数据(非随机)来考察两者之间的关系。STAR则通过随机实验跨越了这层障碍,这项实验设置三个处理组:13-17人的班级、22-25人的班级、22-25人的班级并配备一名全职助教,并将学生随机分配至这三组中。为了考察随机化分配是否成功,可以比较学生各个特征的组间均值。表2.1展示了相关特征以及学生成绩的组间均值情况。
  • 顶刊上的选择性偏差 选择性偏误的定义_其他_28

  • 由于随机化实验可以去掉选择性偏误。所以,可以通过对各个处理组的虚拟变量进行回归得到处理组与实验组之间的成绩差异。加入控制变量后的回归结果见表2.2。
  • 表2.2指出,小班教学对学习成绩大概有5%的提升。

3. 对实验的回归分析

  • 回归是研究因果关系的有利工具,假设因果效应对每个人的一样(为常数):顶刊上的选择性偏差 选择性偏误的定义_数据统计_29,那么我们可以将一式写成:
    顶刊上的选择性偏差 选择性偏误的定义_数据统计_30
  • 其中,顶刊上的选择性偏差 选择性偏误的定义_数据统计_31表示顶刊上的选择性偏差 选择性偏误的定义_其他_32,顶刊上的选择性偏差 选择性偏误的定义_数据统计_33表示顶刊上的选择性偏差 选择性偏误的定义_经验分享_34,顶刊上的选择性偏差 选择性偏误的定义_数据统计_35表示顶刊上的选择性偏差 选择性偏误的定义_经验分享_36
  • 对于上式,求条件期望可得:
    顶刊上的选择性偏差 选择性偏误的定义_数据统计_37
    顶刊上的选择性偏差 选择性偏误的定义_数据统计_38
    顶刊上的选择性偏差 选择性偏误的定义_经验分享_39
  • 其中,顶刊上的选择性偏差 选择性偏误的定义_数据统计_40可以简化为顶刊上的选择性偏差 选择性偏误的定义_数据统计_41,即为选择性偏差。

Stata实证

  • 这里展示上述例子中,表2.1的stata实现过程。
  • 完整数据、stata do文件
clear all
set more off
eststo clear
  • 导入数据
use webstar.dta, clear
  • 生成变量
gen white_asian = (inlist(srace, 1, 3)) if !missing(srace)
label var white_asian "White/Asian"
  • 计算学生测试成绩所处的分位数
local testscores "treadssk tmathssk treadss1 tmathss1 treadss2 tmathss2 treadss3 tmathss3"
foreach var of varlist `testscores' {
	xtile pct_`var' = `var', nq(100)
}
egen avg_pct = rowmean(pct_*)
label var avg_pct "Percentile score in kindergarten"

参考文献

安格里斯特, 皮施克. 基本无害的计量经济学: 实证研究者指南 / (美) 安格里斯特, (美) 皮施克著 ; 郎金焕, 李井奎译.[M]. 2012.