顶刊上的选择性偏差选择性偏误的定义

转载

mob64ca14106f2f 2024-04-07 12:30:47

文章标签 顶刊上的选择性偏差其他经验分享数据统计 文章分类 深度学习人工智能

CHAPTER2 in Most-Harmless-Econometrics

内容

《基本无害的计量经济学》第二章：理想实验

使用软件

STATA16 MP

理论

1. 选择性偏差

我们可以举一个非常简单的例子来表述因果关系，去医院能让人变得更加健康吗？

NHIS对上述问题进行过相关数据统计，下表给出了受调群众最近去过医院和没去过医院的人的平均健康状况。

顶刊上的选择性偏差选择性偏误的定义_经验分享

可见两者之间的平均差距是0.72，那么这就可以说明去医院会使人的健康变得更糟糕吗？

这种简单的直接比较忽略了一个严重的问题：选择去医院的人的健康状况可能本来就很差。更进一步来说：那些去医院接受治疗的人

的健康水平可能还不如没去过医院的人，对于这些人或许不去医院会使其身体状况更差，即使经过医院治疗也不一定能赶上不去医院的人。

为了进一步描述上述分析中忽略的因素，可以把接受医院与否划分为一个虚拟变量：

$顶刊上的选择性偏差选择性偏误的定义_顶刊上的选择性偏差_02$

也就是说，如果某人没有去医院，那么他的健康状况是 $顶刊上的选择性偏差选择性偏误的定义_数据统计_03$ ，如果假设这个人去过医院，那么他的健康状况将是 $顶刊上的选择性偏差选择性偏误的定义_其他_04$ ，这两者之间的差异即可表示为某人在医院接受治疗对其健康状况产生的影响——因果效应。
最终观测到某人的潜在健康状态结果 $顶刊上的选择性偏差选择性偏误的定义_其他_05$ 可以用下述线性组合表示：
$顶刊上的选择性偏差选择性偏误的定义_其他_06$
可见当 $顶刊上的选择性偏差选择性偏误的定义_数据统计_07$ 时， $顶刊上的选择性偏差选择性偏误的定义_数据统计_08$ 即表示个体去医院对健康的影响，对于不同的个体，其处理效应的大小也有所差异。但是，在现实生活中，同时观测到上述 $顶刊上的选择性偏差选择性偏误的定义_其他_04$ 与 $顶刊上的选择性偏差选择性偏误的定义_数据统计_03$ 几乎是不可能的。所以我们需要尽可能的观测同一类人去医院治疗和不去医院治疗对健康的影响。
下面的公式就将去医院接受治疗与否带来的对平均健康水平的差异与平均因果效应（average casual effect）联系在一起：
$顶刊上的选择性偏差选择性偏误的定义_经验分享_11$
上式中 $顶刊上的选择性偏差选择性偏误的定义_顶刊上的选择性偏差_12$ 表示接受住院治疗的人的平均健康水平， $顶刊上的选择性偏差选择性偏误的定义_经验分享_13$ 表示接受住院治疗的人未接受治疗前的健康水平，
$顶刊上的选择性偏差选择性偏误的定义_其他_14$ 表示没有接受住院治疗的人的平均健康水平。因此，上式中简单的比较结果 $顶刊上的选择性偏差选择性偏误的定义_其他_15$ 可以被分解为两个部分：
1. $顶刊上的选择性偏差选择性偏误的定义_顶刊上的选择性偏差_16$ 表示处理的平均因果效应，它可以写为 $顶刊上的选择性偏差选择性偏误的定义_数据统计_17$ 2. $顶刊上的选择性偏差选择性偏误的定义_顶刊上的选择性偏差_18$ 即可表示为选择性偏误（selection bias），它表示接受治疗与不接受治疗的人，在被治疗前的健康水平的平均差异。
在上述例子中，我们发现简单的直接均值 $顶刊上的选择性偏差选择性偏误的定义_其他_15$ 比较会出现选择性偏误问题，事实上，在上述例子中选择接受治疗的人的+在治疗前的健康状态( $顶刊上的选择性偏差选择性偏误的定义_经验分享_13$ )可能会远低于不需要接受治疗的人的健康水平（ $顶刊上的选择性偏差选择性偏误的定义_其他_14$ ）,因此会导致选择性偏误为负，这可能会使我们找到的因果效应 $顶刊上的选择性偏差选择性偏误的定义_其他_15$

2. 用随机分配解决选择性偏差

对 $顶刊上的选择性偏差选择性偏误的定义_顶刊上的选择性偏差_23$ 随机分配可以解决选择性偏差问题。这是因为随机分配 $顶刊上的选择性偏差选择性偏误的定义_顶刊上的选择性偏差_23$ 可以使其独立于 $顶刊上的选择性偏差选择性偏误的定义_其他_25$ ,考虑以下公式：
$顶刊上的选择性偏差选择性偏误的定义_数据统计_26$
这也就是说，随机分配患者进行治疗得到的健康水平均值比较 $顶刊上的选择性偏差选择性偏误的定义_其他_27$ 等同于因果效应。

举例

对于随机化研究方法比较著名案例之一是田纳西州师生比例改进计划（Tennessee Student Teacher Achievement Ratio Experiment，STAR）
。经济学家希望建立课堂规模（班级学生人数）与学生学习成绩之间的因果关系，但是教育学领域使用的数据大多数为非实验数据，这些数据表明课堂规模与学习成绩之间几乎没有联系，这可能是由于班级规模与学生特征有联系，从而大致选择性偏误不为0。
因此不能只简单的比较可观测数据（非随机）来考察两者之间的关系。STAR则通过随机实验跨越了这层障碍，这项实验设置三个处理组：13-17人的班级、22-25人的班级、22-25人的班级并配备一名全职助教，并将学生随机分配至这三组中。为了考察随机化分配是否成功，可以比较学生各个特征的组间均值。表2.1展示了相关特征以及学生成绩的组间均值情况。

顶刊上的选择性偏差选择性偏误的定义_其他_28

由于随机化实验可以去掉选择性偏误。所以，可以通过对各个处理组的虚拟变量进行回归得到处理组与实验组之间的成绩差异。加入控制变量后的回归结果见表2.2。
表2.2指出，小班教学对学习成绩大概有5%的提升。

3. 对实验的回归分析

回归是研究因果关系的有利工具，假设因果效应对每个人的一样（为常数）： $顶刊上的选择性偏差选择性偏误的定义_数据统计_29$ ,那么我们可以将一式写成：
$顶刊上的选择性偏差选择性偏误的定义_数据统计_30$
其中， $顶刊上的选择性偏差选择性偏误的定义_数据统计_31$ 表示 $顶刊上的选择性偏差选择性偏误的定义_其他_32$ , $顶刊上的选择性偏差选择性偏误的定义_数据统计_33$ 表示 $顶刊上的选择性偏差选择性偏误的定义_经验分享_34$ , $顶刊上的选择性偏差选择性偏误的定义_数据统计_35$ 表示 $顶刊上的选择性偏差选择性偏误的定义_经验分享_36$ 。
对于上式，求条件期望可得：
$顶刊上的选择性偏差选择性偏误的定义_数据统计_37$
$顶刊上的选择性偏差选择性偏误的定义_数据统计_38$
$顶刊上的选择性偏差选择性偏误的定义_经验分享_39$
其中， $顶刊上的选择性偏差选择性偏误的定义_数据统计_40$ 可以简化为 $顶刊上的选择性偏差选择性偏误的定义_数据统计_41$ ,即为选择性偏差。

Stata实证

这里展示上述例子中，表2.1的stata实现过程。
完整数据、stata do文件

clear all
set more off
eststo clear

导入数据

use webstar.dta, clear

生成变量

gen white_asian = (inlist(srace, 1, 3)) if !missing(srace)
label var white_asian "White/Asian"

计算学生测试成绩所处的分位数

local testscores "treadssk tmathssk treadss1 tmathss1 treadss2 tmathss2 treadss3 tmathss3"
foreach var of varlist `testscores' {
	xtile pct_`var' = `var', nq(100)
}
egen avg_pct = rowmean(pct_*)
label var avg_pct "Percentile score in kindergarten"