因果推断异质性是什么? 边际处理效应让你与众不同

原创

mb5fd86dae5fbf6 2021-03-27 23:41:14 ©著作权

文章标签 Java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mb5fd86dae5fbf6的原创作品，请联系作者获取转载授权，否则将追究法律责任

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

微观数据有两个基本特征: 异质性以及缺少与实际相反的状况。由于存在未被观测到的异质性，即使在所有可以被观测到的方面都相同的人们仍然会做出不同的决策、获得不同的收入、选择不同的投资组合缺。少与实际相反的状况引发了数据缺失问题，如果某人实际选择了一种状况，我们就不可能观测到他(她)做出其他选择时的结果。如果我们观测到某大学毕业生的当前收入水平,我们就不可能同时观测到假使他(她)高中毕业就参加工作的当前收入水平。

过去 ,解决选择和数据缺失问题的方法大多没有考虑异质性 ,他们一般都假设不同的个人具有同质性。但Heckman, Vytlacil和Carneiro这三位前辈等研究所形成的边际政策效应(MTE)方法认为，人们会根据比较优势原理对是否参与某项政策或倡议进行抉择。只有当参与这项政策或倡议所带来的收益大于为此付出的机会成本，该个体才会有积极性参与该项政策或倡议。这些人根据未被观测到的自身特征(比如个人能力、个人态度等)选择接受(拒绝)参与某项政策或倡议。边际政策效应MTE,是指处于接受或不接受某项政策或倡议的临界状态的人在最终选择接受该项政策或倡议时的平均收益(成本)。

现在，假设我们想要看看读大学是不是对我们的收入有所增加，即看看教育回报率水平。考虑如下明瑟尔(Mincer)方程，其参数为常数，这是假设不存在异质性时的传统教育回报模型。lnYi =βSi +γXi +Ui (方程1)，其中 i 表示不同的个人(i =1 , 2 , …, n)，lnYi 为收入的对数形式，Si 表示受教育水平, Xi 为解释变量向量 ,比如工作年限、工作年限的平方、以及性别、地区、产业、企业所有制等虚拟变量，Ui 是期望为零的随机误差项，β 为教育回报率, γ为系数向量。直接运用普通最小二乘法(OLS)对方程(1)进行估计存在一个问题：该模型可能遗漏了个人能力变量 Ai，它被包含在误差项 Ui 之中。许多实证分析认为Cov(Ai , Si)≠0 ,因此 E(Ui Si)≠0 。此时最小二乘法只能得出有偏、非一致的估计量。可是，在现实生活中，大多数数据并不包括对个人能力的度量。于是不少经济学家想方设法运用一些变通的方法, 试图来消除或减弱个人能力偏差。

然而，当存在异质性和选择偏差时，传统工具变量方法通常也无法准确估计教育回报参数。当存在异质性和选择偏差时，Heckman等研究表明，可以通过局部工具变量方法 (LIV)对参数进行估计，通过边际处理效应 (MTE)估计异质教育回报。MTE表示当Xi(可观测到的异质性)与未观测到的异质性给定的情况下，处于接受或不接受教育临界状态的人最终选择接受教育时的平均回报(局部水平)。在这种情况下，我们想一种比方程(1)更为普遍的形式 ,它考虑了教育的异质性回报，用随机系数的形式表示如下：lnYi = βiSi +γXi +Ui (方程2) 其中 βi 表示存在异质性时的教育回报率，因人而异。Xi 是由其他解释变量组成的向量，该模型在一种更为普遍的条件下对个人能力偏差进行了校正。

如果我们想着重讨论两种教育水平的选择：高中和大学。令 Si =1 表示大学学历，Si =0 表示高中学历(没有接受大学教育)。大量证据表明, 在多数情况下，教育回报与受教育年限并不成线性关系，使用传统的收入对数对于学历的回归系数将导致对教育回报率估计的严重偏差。两种潜在的选择结果(lnY0i , lnY1i)可以表示为(不要跳过去下面这个简单的公式):

由于存在数据缺失问题,在横截面上想同时获知一个人的 lnY0i 和 lnY1i 通常是不可能的。我们仅仅可以确定分布图片而不可能确定分布图片和图片。由于异质性及选择问题的普遍存在，我们不可能再使用诸如 OLS 和 IV 的传统方法来估计参数。对结果进行整理，有 : 其中，βi表示个体 i 的异质性教育回报。当 γ1 ≠γ0(即存在观测到的异质性(γ1 -γ0)Xi),或 U1i ≠U0i(即存在未观测到的异质性(U1i -U0 i))时，βi 在总体中是一个变量，教育回报是一个服从于一定分布的随机变量。在给定 X 的条件下，βi 的平均值为:

假设人们根据下述选择规则来决定是否进入大学学习，这本质上是一个典型的“收益—成本分析”问题。

其中 S i 星为隐藏变量, 代表入学的净收益, Zi 是可观测到的变量向量(Zi 可能包含部分 Xi)。Pi =Pi(Zi)表示参与或接受政策(比如进入大学学习)的概率，它可用概率模型或逻辑模型估计出来。Usi 表示个体i 在政策选择过程中未被观测到的异质性——未观察到的选择该政策时遇到的阻力(比如因为在读书期间需要付出的机会成本)。对于个体 i 来说，是否进入大学学习完全取决于观测到的异质性 Pi(Zi)与未被观测到的异质性 Usi 之间的比较。即我们是通过可以观测到的个人特征变量(比如父母教育、父母收入、户口、党员身份等)去预测这个个体是否上大学。

然后，我们以预测得到的倾向得分(propensity score)与这个个体不能被观测到的选择该政策时遇到的阻力(resistance to treatment)进行比较。此时，预测到的倾向得分P与未被观测到的个体异质性Usi都在[0,1]区间，在不失一般性的情况下，可以假定二者都服从均匀分布(uniform distribution)。这样，我们就有了二个连续均匀分布函数，只要他们俩有足够的共同支持区间(common support)，那我们就可以得到个体上大学学习的可能性。当然Usi越小——选择上大学这个决策时所遇到的未能观测到的阻力越小，那这个个体去读大学的可能性越高。

我们有三种方法去求出边际处理效应MTE：局部工具变量法local IV，分离方法(separate approach)——我们分别估计InYi在处理组和控制组的条件期望值，极大似然法——我们知道误差项U0i, U1i和Vi的概率分布通过似然函数最大化估计。具体是怎么回事，咱们就不累赘了，因为这会牵扯到很多多余的公式计算。

考虑到是否读大学在mincer方程中是内生变量，因此，我们使用到当地大学的距离来衡量这个地方的“农村化程度”(城市化程度)，毕竟越是距离当地大学越近，那么这个个体更加有可能上大学(可能有争议)。下面这个式子是局部工具变量法估计时所需要求得的参数，比如β0，β0-β1，K(p)。

下面第一、二栏的这些回归结果都是关于协变量的exp, exp2, district的，而真正让我们感兴趣的部分是黄颜色的“effects”里的ATE，ATT，ATUT这些关于上大学的政策效应。从这个回归结果中，我们知道上大学的导致的收入效应约为32.8%(整体样本)，而在上了大学的那部分样本中的效应上升为53.7%，在没有上过大学的那部分样本中的效应只为12%。

ssc install mtefe

set seed 1234567

mtefe_gendata, obs(10000) districts(10)

mtefe lwage exp exp2 i.district (col=distCol)

上面最后二行的test，都表明不仅可观测的特征变量Xi存在这异质性，而且不可观测的个体特征Ui也存在异质性。鉴于此，我们使用MTE这种方法在这里是适当的，而且也是更加合适和有效的选择。

以下就是咱们通过probit或logit方程得到的个体上大学的倾向得分在处理组和控制组中的分布情况。我们可以看出，在整个0-1的区间里，倾向得分P在处理组和控制组都有重合的部分，即没有出现只有处理组(控制组)的情况。

下面这张图是我们最关心的，因为它集中展示了边际处理效应在整个Ui上的变化趋势。Ui越小表示个体上大学的概率越大，Ui越大表示个体上大学的概率越小。因此，随着个体上大学的概率变大，上大学的教育回报率是在增加的；而随着个体上大学的概率变小，上大学的教育回报率是减少的(MTE在整个区间上的均值为32%)。这足以看出来我们的个体存在selection into treatment on unobservables，个体会根据不能观察的因素而选择是否读大学(这个不能通过Xi来单独刻画)。因此，我们需要通过如下的一个“是否读大学”的概率分布，来刻画政策处理效应在个体间的不同。参考文献：https://link.springer.com/chapter/10.1007/978-94-007-6094-3_11

有些学术神器，推荐给各位：①找合适的英文期刊发表的神器! 亲测太好用了！②神器! SSCI分区及影响因子查询, 还有国人发表比例，③学术神器Endnote的最详尽使用方法，④一数学神器诞生! 手写公式和符号, 竟免费转成LaTex，⑤让LaTeX排版流行起来, 让效率助你奔跑助你飞。

拓展性阅读："实证研究13篇"功夫秘笈, 中青年学者研究必备锦囊！①关于各种因果识别方法的120份经典实证文献汇总”，②哈佛大学新修订完成的因果推断经典大作免费下载！附数据和code，③因果推断的统计方法总结, 177份文献，④政策评估的计量方法综述, 包括最新因果推断方法，⑤在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献，⑥看完顶级期刊文章后, 整理了内生性处理小册子，⑤工具变量精辟解释, 保证你一辈子都忘不了，⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征，⑧关于双重差分法DID的32篇精选Articles专辑！⑨关于(模糊)断点回归设计的100篇精选Articles专辑！⑩匹配方法(matching)操作指南, 值得收藏的16篇文章等，⑪MIT广为流传的政策"处理效应"读本，⑫DID的研究动态和政策评估中应用的文献综述，⑬最新政策效应评估的四种方法，⑭政策效应评估的基本问题。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。