工具变量回归第一阶段导出结果工具变量回归法

转载

mob64ca1415bcee 2024-03-28 23:15:32

文章标签 工具变量回归第一阶段导出结果机器学习数据分析大数据线性代数 文章分类 机器学习人工智能

文章目录

@[toc]
1 什么是内生性
2 内生性的来源

2.1遗漏变量偏差
2.2 联立方程偏差
2.3 解释变量测量误差
2.4 选择偏差
2.5 双向因果关系
2.6 模型设定偏误
2.7 动态面板偏差

3 工具变量

3.1工具变量的思想
3.2 两阶段最小二乘法
3.3 Wald估计量

4 矩估计
5 二阶段最小二乘法

5.1 阶条件
5.2 球形扰动假定条件下的 2SLS

6 关于工具变量的检验

6.1 内生性检验
6.2 过度识别(冗余)检验
6.3 弱工具变量检验

6.31 弱工具变量的识别方法
6.32 弱工具变量的处理方法

7 如何寻找工具变量

1 什么是内生性

经典线性回归模型
$工具变量回归第一阶段导出结果工具变量回归法_数据分析$
一个假设是所有解释变量与任意时期的扰动项均不相关(严格外生性假定），即
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_02$
这意味着
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_03$
其中第一个条件可由(2)通过迭代期望定律证明，第二个条件由协方差定义证明。在大样本OLS估计中，也必须满足解释变量为预定(前定)解释变量，即
$工具变量回归第一阶段导出结果工具变量回归法_大数据_04$
在大样本中只要所有解释变量与扰动项同期不相关，其他大样本OLS假定不变条件下，通过OLS+稳健标准误就能得到一致估计量。但事实上，模型中解释变量与扰动项一般都存在相关性，这种相关性会导致估计量的不一致，产生内生性问题。此时称与扰动项相关的解释变量薇内生解释变量。具有内生性的解释变量不是随机的，而是受到系统中其他因素的影响。在理论上，多元线性回归模型OLS估计量
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_05$
将(1)式带入上式
$工具变量回归第一阶段导出结果工具变量回归法_大数据_06$
两边取期望得
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_07$
即
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_08$
两边求条件期望得
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_09$
其中 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_10$ 。当严格外生性条件(2)不成立时，即便样本容量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_11$ ，也不能消除内生性问题带来的偏差。

2 内生性的来源

按照内生性来源，主要划分为以下七类：

2.1遗漏变量偏差

如果对研究对象的影响因素考虑不全面，或者对影响因素信息的不可观测，这可能导致回归模型遗漏了重要的解释变量。假如真实的回归模型为
$工具变量回归第一阶段导出结果工具变量回归法_大数据_12$
假定 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_13$ 。由于变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_14$ 不可观测，实际的回归模型变为
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_15$
其中 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_16$ 。考虑
$工具变量回归第一阶段导出结果工具变量回归法_大数据_17$

当 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_18$ 与 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_19$ 不相关时， $工具变量回归第一阶段导出结果工具变量回归法_大数据_20$ ，从而 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_21$ ，此时实际模不存在内生性问题，由于扰动项的信息量增加，这将会增加扰动项的方差。
当 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_18$ 与 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_19$ 相关时， $工具变量回归第一阶段导出结果工具变量回归法_机器学习_24$ ，从而 $工具变量回归第一阶段导出结果工具变量回归法_大数据_25$ ，此时实际模型存在内生性问题。

2.2 联立方程偏差

联立方程偏差也称内生变量偏差，其最为经典的例子是供求均衡模型：
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_26$
解得
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_27$

显然 $工具变量回归第一阶段导出结果工具变量回归法_大数据_28$ , $工具变量回归第一阶段导出结果工具变量回归法_机器学习_29$ ，因此估计量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_30$ 与 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_31$ 的估计量不是一致的。

2.3 解释变量测量误差

设真实回归模型为
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_32$
其中 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_33$ .由于客观或主观原因导致对解释变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_34$ 的测量存在误差，使得实际观测的解释变量
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_35$
其中 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_36$ 表示绝对误差。技术条件 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_37$ , $工具变量回归第一阶段导出结果工具变量回归法_数据分析_38$ 。将(4)带入(3)得
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_39$
由于
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_40$
因此如果解释变量存在测量误差，解释变量存在内生性，导致回归存在结果存在偏差。如果被解释变量存在测量误差，总可以将绝对误差移向归并到扰动项中，从而扩大了扰动项的方差(如果解释变量不存在内生性)，回归系数的方差会增大。但不会导致内生性问题。

2.4 选择偏差

选择偏差包括自选择偏差(self-selectionbias)和样本选择偏差(sample-selection bias)。

自选择偏差是指解释变量不是随机的,而是选择的结果,而这个选择的过程会使对主效应的估计产生偏差(Shaver, 1998

Weigelt (2013)研究IT业务内包或是外包的不同情境下,供应商IT能力和公司运营能力交互效应对公司绩效的不同影响。其中对公司IT业务内包或是外包的选择就存在选择偏差，因为公司IT业务到底是内包还是外包其实是一种战略选择，因而它并不是外生的(随机的)。公司可以根据自身特质(更适合哪种战略)和针对不同战略选择(内包还是外包)对未来绩效的预测而有意识选择的。因此如果只考虑主效应的影响而忽视潜在的选择过程,对主效应的估计是有偏的，因为前后两个过程的误差项是相关的(Shaver, 1998)。

样本选择偏差(Heckman, 1979),是指样本选择不是随机的,从而使估计量产生偏差。样本选择偏差扣除人为因素,主要是由自选择偏差造成的。

Perkins (2014)研究了跨国公司制度经验与目标国家的相似性、广度和深度对跨国公司在目标国家经营成败的影响,该研究以进入巴西电信行业投资的外国跨国公司为样本,但跨国公司是否进入巴西投资可能不是随机的,而是有选择的,是根据自身情况是否适合进入巴西以及进入巴西后的绩效预测而决定的。只有当进入巴西后,因变量(经营成败)才可以被观测到。换句话说,没有进入巴西的那部分样本的因变量无法被观测到,而能够被观测到的只是适合进入巴西的那部分样本,从而造成样本选择偏差。

2.5 双向因果关系

双向因果关系是指解释变量与被解释变量互为因果。假设解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_41$ 与被解释变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_42$ 满足
$工具变量回归第一阶段导出结果工具变量回归法_大数据_43$
由于被解释变量与解释变量互为因果，因此下列方程也满足
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_44$
其中技术性条件满足 $工具变量回归第一阶段导出结果工具变量回归法_大数据_45$ 。由于
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_46$
因此双向因果关系条件下也会产生内生性。

2.6 模型设定偏误

模型设定偏误是指构建的回归模型没有按照理论经验进行构建，或者根据已有的理论构建但因客观原因导致模型与实际情况存在模型结构上的系统性偏差。例如，消费函数中收入的增长快于消费的增长，因此消费与收入应该呈现非线性关系。但是实际中为了简化二者关系，常假定消费是收入的线性函数，从而导致模型存在内生性。例如，研究经济增长与收入分配的关系，构建了如下模型：
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_47$
但实际上，根据库兹涅茨效应(1955)发现，一国的收入分配(gap)与经济增长(gdp)呈现非线性关系，经济增长初期，效率优先，从而导致差距扩大；随着经济进一步增长，实施兼顾公平或公平优先策略，差距逐渐缩小。因此模型应该加入gdp的二次项以保证gdp对经济增长存在库兹涅茨效应。假设真实模型为
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_48$
因此实际构建的模型的扰动项 $工具变量回归第一阶段导出结果工具变量回归法_大数据_49$ 。由于
$工具变量回归第一阶段导出结果工具变量回归法_大数据_50$
从而产生内生性问题。此外，模型设定偏误也会导致球形扰动项不成立，即可能导致模型出现异方差与自相关问题。

2.7 动态面板偏差

动态面板偏差是指在动态面板模型中存在固有的内生性问题。设动态面板模型为
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_51$
将上述方程滞后一期得
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_52$
考虑
$工具变量回归第一阶段导出结果工具变量回归法_大数据_53$
在(6)中， $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_54$ 是 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_55$ 的组成部分，故 $工具变量回归第一阶段导出结果工具变量回归法_大数据_56$ 因此动态面板模型(5)也存在系统性的内生性。

3 工具变量

解决模型的内生性问题主要包括如下几种：

通过自然实验(随机试验)
面板数据通过差分或离差消除个体效应
匹配法
工具变量法

本文主要介绍最后一种比较常用的方法。

3.1工具变量的思想

设模型
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_57$
存在内生性问题，即 $工具变量回归第一阶段导出结果工具变量回归法_大数据_58$ 。如果将变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 与扰动项 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_60$ 视为两个集合，由于 $工具变量回归第一阶段导出结果工具变量回归法_大数据_58$ ，在图形上可表示为

工具变量回归第一阶段导出结果工具变量回归法_线性代数_62

从图形上看，解释变量与扰动项之间存在交集，即 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_63$ ，因此需要通过某种方法使解释变量分解为两部分：

第一部分是 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_64$ ，它满足 $工具变量回归第一阶段导出结果工具变量回归法_大数据_65$ ，也就是 $工具变量回归第一阶段导出结果工具变量回归法_大数据_66$
第二部分是 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_67$ , 它满足 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_68$ , 即 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_69$

但问题是应该用什么手段对存在内生性的解释变量进行分解呢？现引入一个集合 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ ，使得

外生性条件： $工具变量回归第一阶段导出结果工具变量回归法_数据分析_71$
相关性条件： $工具变量回归第一阶段导出结果工具变量回归法_机器学习_72$

即实现上述目的。如果引入的变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 与解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 存在较强的相关关系，说明变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 有助于预测或解释解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ ;而变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 与扰动项无关，则意味着通过变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 对变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 的预测值 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_80$ 也与扰动项无关。称满足外生性条件与相关性条件的变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 为工具变量(IV)。如果将预测值 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_80$ 作为解释变量以替代原有解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ ，那就能抑制内生性问题。外生性条件与内生性条件意味着存在如下的因果链：

工具变量回归第一阶段导出结果工具变量回归法_大数据_84

相关性意味着工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 对 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 的造成直接的影响，而外生性意味着工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 只能通过变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 的作用对 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_89$ 产生影响。前者为局部影响，后者为总影响(相对整个因果链)。设工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 对 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 的局部线性影响为 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_92$ ,工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 对 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_89$ 的全局线性影响为 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_95$ ,则解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 对变量 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_89$ 的影响为 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_98$

证：设工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 对变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 的回归模型为
$工具变量回归第一阶段导出结果工具变量回归法_大数据_101$
设解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 对 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_89$ 的回归方程为
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_104$
将(7)带入(8)得
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_105$
不难看出，工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 对被解释变量 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_89$ 的间接影响为 $工具变量回归第一阶段导出结果工具变量回归法_大数据_108$ ，即
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_109$
而由(7)得
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_110$
因此在引入工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 时，解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 对 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_89$ 的影响为
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_114$
由相关性条件可知， $工具变量回归第一阶段导出结果工具变量回归法_机器学习_115$ ，故 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_116$ 是可识别的。如果 $工具变量回归第一阶段导出结果工具变量回归法_大数据_117$ ，则 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_118$ 不可识别，此时称工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 为弱工具变量。

3.2 两阶段最小二乘法

为了解决内生性问题，在引入工具变量后利用两步回归可以解决内生性问题，具体步骤如下

先用内生解释变量对工具变量回归，即(7),此时得到 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_120$ 的拟合值 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_121$
用被解释变量对拟合值 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_121$ 进行回归

证：由于
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_123$
而 $工具变量回归第一阶段导出结果工具变量回归法_大数据_124$ ，其中 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_125$ ， $工具变量回归第一阶段导出结果工具变量回归法_线性代数_126$ 。联立方程消除 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 得
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_128$
此时考虑
$工具变量回归第一阶段导出结果工具变量回归法_大数据_129$
因此通过两阶段最小二乘法能够解决内生性问题。下面运用数据grilic举例。其中lw为被解释变量，iq为内生解释变量，med为工具变量。

use grilic.dta
qui reg lw med,noheader r  //使用被解释变量对工具变量回归
est sto m1
qui reg iq med ,noheader r //使用解释变量对工具变量回归
est sto m2
qui ivregress 2sls lw  (iq =med),noheader r  //2sls回归
est sto m3
esttab m1 m2 m3

                                                         /*结果
------------------------------------------------------------
                      (1)             (2)             (3)   
                       lw              iq              lw   
------------------------------------------------------------
med                0.0334***        1.306***                
                    (6.00)          (7.47)                   

iq                                                  0.0256***
                                                     (5.85)   

_cons               5.323***        89.61***        3.033***
                    (84.77)         (44.80)          (6.68)   
------------------------------------------------------------
N                     758             758             758   
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001
                                                          */

不难发现0.334/1.306 = 0.0256。

3.3 Wald估计量

设回归模型
$工具变量回归第一阶段导出结果工具变量回归法_大数据_130$
其中 $工具变量回归第一阶段导出结果工具变量回归法_大数据_131$ ，故变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_59$ 为内生解释变量。设虚拟变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 与扰动项 $工具变量回归第一阶段导出结果工具变量回归法_大数据_134$ 满足 $工具变量回归第一阶段导出结果工具变量回归法_大数据_135$ ，则工具变量的估计量为
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_136$
其中 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_137$ ，该估计也称Wald估计量。

证明：根据因果链条 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_138$ 得到：
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_139$
将(7)求条件期望得
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_140$
从而有
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_141$
再对(9)求条件期望得
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_142$
从而有
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_143$
于是
$工具变量回归第一阶段导出结果工具变量回归法_大数据_144$

4 矩估计

经典线性回归方程中要求
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_145$
扰动项期望 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_146$ ，故 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_147$ 。设多元线性回归方程为
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_148$
因为 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_147$ ，故存在 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_150$ 个矩方程使得
$工具变量回归第一阶段导出结果工具变量回归法_大数据_151$
成立，另外 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_152$ ，从而可以解出回归系数向量 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_153$ 。显然 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_154$ 的解是唯一的，因为存在 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_155$ 个未知数与 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_155$ 个方程(如果解释变量之间不存在完全相关性)。方程组(10)必须满足每一个解释变量与误差项正交，但现实中，可能出现某些解释变量与误差项存在相关性，即方程组的个数小于未知参数的个数，从而无法识别解释变量对被解释变量的影响。为简化关系，设二元线性回归模型
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_157$
其中 $工具变量回归第一阶段导出结果工具变量回归法_大数据_134$ 为扰动项， $工具变量回归第一阶段导出结果工具变量回归法_线性代数_159$ 。根据条件可得到如下矩方程组
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_160$
显然，两个方程不能得到唯一参数 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_161$ 的值，原因在于第三个矩方程 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_162$ 。现引入工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ ，使得 $工具变量回归第一阶段导出结果工具变量回归法_大数据_70$ 满足：

外生性： $工具变量回归第一阶段导出结果工具变量回归法_线性代数_165$
相关性： $工具变量回归第一阶段导出结果工具变量回归法_线性代数_166$

从而得到如下矩方程组
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_167$
从而解出参数 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_161$ 的唯一值。下面是更正式的矩估计推导，设多元回归模型
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_169$
其中只有解释变量 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_170$ 为内生解释变量，即 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_171$ ，其他解释变量均外生(因此可以把 $工具变量回归第一阶段导出结果工具变量回归法_大数据_172$ 自身作为自身的工具变量）。为了解决内生性问题，现引入工具变量 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_173$ 使得

$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_174$
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_175$

记解释变量向量 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_176$ ,回归参数向量 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_177$ ，故回归模型可记作
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_178$
记工具变量向量 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_179$ ，并定义
$工具变量回归第一阶段导出结果工具变量回归法_大数据_180$
从而得到 $工具变量回归第一阶段导出结果工具变量回归法_大数据_181$ 。于是
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_182$
用样本矩代替总体矩得
$工具变量回归第一阶段导出结果工具变量回归法_大数据_183$
其中 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_184$ 。

命题：如果秩条件 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_185$ ，则在一定的正则条件 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_186$ 是 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_187$ 得一致估计量。并且工具变量估计量 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_186$ 服从渐进正态分布，即
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_189$
其中 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_190$ ， $工具变量回归第一阶段导出结果工具变量回归法_机器学习_191$ 。证明略

5 二阶段最小二乘法

5.1 阶条件

考虑模型
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_192$
其中 $工具变量回归第一阶段导出结果工具变量回归法_大数据_193$ 为回归系数， $工具变量回归第一阶段导出结果工具变量回归法_大数据_134$ 为扰动项。

当 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_195$ 时，可得到四个矩方程

$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_196$

即可解出 $工具变量回归第一阶段导出结果工具变量回归法_大数据_193$ 的唯一解；

当 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_198$ ，此时只能得到关于 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_199$ 的不定矩方程组，即

$工具变量回归第一阶段导出结果工具变量回归法_机器学习_200$

此时参数 $工具变量回归第一阶段导出结果工具变量回归法_大数据_193$ 不可唯一识别。注：此时未引入工具变量，工具变量个数为L=0，内生解释变量个数为K= 1。显然 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_202$

如果引入关于内生变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_203$ 的工具变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_204$ ，且满足
$工具变量回归第一阶段导出结果工具变量回归法_大数据_205$
则依然可构建四个矩方程组
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_206$
从而解出唯一参数 $工具变量回归第一阶段导出结果工具变量回归法_大数据_193$ 的值。注：此时引入工具变量，工具变量个数为L=1,内生解释变量个数为K=1。显然 $工具变量回归第一阶段导出结果工具变量回归法_大数据_208$

当 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_198$ 且 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_210$ ，此时内生解释变量为 $工具变量回归第一阶段导出结果工具变量回归法_大数据_211$ ，于是对应的矩方程只有两个

$工具变量回归第一阶段导出结果工具变量回归法_线性代数_212$

显然，两个方程不能唯一解出方程组的四个参数。如果分别引入 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_213$ 的工具变量 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_214$ ，且满足
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_215$
则依然可构建四个矩方程组
$工具变量回归第一阶段导出结果工具变量回归法_线性代数_216$
从而解出唯一参数 $工具变量回归第一阶段导出结果工具变量回归法_大数据_193$ 的值。注：工具变量个数为L=2,内生解释变量个数为K=2。显然 $工具变量回归第一阶段导出结果工具变量回归法_大数据_208$

当 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_198$ 且 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_210$ ，此时内生解释变量为 $工具变量回归第一阶段导出结果工具变量回归法_大数据_211$ ，于是对应的矩方程只有两个

$工具变量回归第一阶段导出结果工具变量回归法_线性代数_212$

显然两个方程不能唯一解出方程组的四个参数。如果 $工具变量回归第一阶段导出结果工具变量回归法_大数据_203$ 的工具变量为 $工具变量回归第一阶段导出结果工具变量回归法_大数据_204$ ，但 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_14$ 的工具变量有两个 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_226$ ，且满足
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_227$
对应的矩方程组为
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_228$
此时共有5个矩方程，但未知参数只有四个，称这类情形为“过度识别”。注意此时工具变量个数L=3,内生解释比那辆个数为K= 2。显然 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_229$ 。从以上三种情况可以归纳出阶条件：

A: 如果内生解释变量个数大于工具变量变量个数，则模型参数不可识别；
B: 如果内生解释变量个数等于工具变量变量个数，则模型参数恰好识别；
C: 如果内生解释变量个数小于工具变量变量个数，则模型参数过度识别；

因此，要让模型参数能识别出来，工具变量个数至少大于内生解释变量个数。

5.2 球形扰动假定条件下的 2SLS

通过以上的方法只能求出恰好识别的情形，并不适用于过度识别情形，因为(11)式的 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_230$ 不是方阵，故 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_231$ 不存在。下面介绍过度识别的情况。

即使工具变量个数存在多个，但它依然满足工具变量的条件，即外生性与相关性。由此看来，如果将较多的工具变量通过某种线性组合(降维）也会回到恰好识别的情形。已经证明，在球形扰动项的条件下，由二阶段最小二乘法所提供的工具变量线性组合是所有线性组合中最渐进有效的。之所以要假定球形扰动项成立，是因为该方法没有考虑到模型可存在的异方差与自相关问题。下面介绍球形扰动假定条件下的2SLS具体步骤：

step1:分离出内生变量的外生部分。

将解释变量 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_232$ 对所有 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_233$ 个工具变量 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_234$ 作OLS回归，得到 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_150$ 个拟合值
$工具变量回归第一阶段导出结果工具变量回归法_大数据_236$
其中 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_237$ 为投影矩阵，参见多元回归分析内容。定义
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_238$
step2:使用外生部分进行回归。

由于 $工具变量回归第一阶段导出结果工具变量回归法_大数据_239$ 是工具变量 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_234$ 的线性组合，故 $工具变量回归第一阶段导出结果工具变量回归法_大数据_239$ 也包含了 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_150$ 个工具变量。此时工具变量个数等于内生解释变量个数，即处于恰好识别情形。现将外生解释变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_239$ 替换内生解释变量 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_244$
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_245$
并进行OLS回归，得到工具变量估计量
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_246$
这里 $工具变量回归第一阶段导出结果工具变量回归法_大数据_247$ ，且投影矩阵 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_248$ 为等幂矩阵，即 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_249$ 。将(12)带入(13)得
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_250$
在同方差假定下， $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_251$ 的协方差估计量为
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_252$
其中 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_253$ 。在异方差假定下，可使用稳健标准误
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_254$

6 关于工具变量的检验

首先应该判断该模是否存在内生性问题，若模型不存在内生性，就没有必要使用工具变量进行估计；若在没有内生性问题条件下使用了工具变量估计，根据两阶段最小二乘法原理，第一阶段回归的外生部分与原有的解释变量相比将损失部分信息，而这部分信息的损失降低回归结果的有效性。

其次，若存在内生性问题，应判断工具变量是否为过度识别情形。当工具变量个数等于内生解释变量个数时，即恰好识别情形，此时无法进行过度识别检验；当工具变量个数大于内生解释变量个数时，需要检验工具变量的有效性，即是否存在工具变量不具有外生性。

最后，如果运用了工具变量法估计，还需要对工具变量进行弱工具变量检验，即内生解释变量与工具变量之间的相关性是否较低。若存在弱工具变量，可以通过其他方法进行弥补。

6.1 内生性检验

方法一：当使用工具变量变量估计与使用OLS估计的回归系数相差不大，则意味着二者在大样本条件下， $工具变量回归第一阶段导出结果工具变量回归法_数据分析_186$ 与 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_256$ 都会收敛到真实的参数 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_187$ 。相反，若 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_186$ 与 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_256$ 相差较大，则说明使用工具变量与不适用工具变量存在显著差异，表明模型存在内生性问题。Hausman检验的原假设为
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_260$
如拒绝原假设，则模型存在内生性，

方法二：为简化关系设回归模型为
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_261$
其中 $工具变量回归第一阶段导出结果工具变量回归法_大数据_203$ 为内生解释变量，其余变量外生。变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_203$ 的工具变量有 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_214$ 。因此可以先将内生解释变量分离出外生部分，即
$工具变量回归第一阶段导出结果工具变量回归法_数据分析_265$
由于 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_266$ , $工具变量回归第一阶段导出结果工具变量回归法_机器学习_267$ 是 $工具变量回归第一阶段导出结果工具变量回归法_大数据_203$ 的外生部分，故 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_269$ 。因此要检验变量 $工具变量回归第一阶段导出结果工具变量回归法_大数据_203$ 是否存在内生性，只要需要检验扰动项 $工具变量回归第一阶段导出结果工具变量回归法_大数据_134$ 与 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_272$ 是否存在相关性即可。假设二者的相关性满足
$工具变量回归第一阶段导出结果工具变量回归法_大数据_273$
带入(14)得
$工具变量回归第一阶段导出结果工具变量回归法_大数据_274$
此时只需检验回归系数 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_275$ 是否为0，若是，则表明模型不存在内生性，反之存在。

6.2 过度识别(冗余)检验

过度识别检验的原假设为
$工具变量回归第一阶段导出结果工具变量回归法_大数据_276$
操作步骤为

step1:对方程做2SLS估计，得到残差项
step2:用残差对所有工具变量(包括模型中的外生解释变量)作回归，得到可决系数 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_277$
step3:在原假设 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_278$ 成立条件下
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_279$
其中 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_280$ 表示多余的工具变量个数。当处于恰好识别时，此时 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_281$ ，而 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_282$ 无意义，因此恰好识别情形无法进行过度识别检验。

6.3 弱工具变量检验

考虑一元线性回归模型，通过OLS与IV估计，在大样本条件下，
$工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_283$

如果工具变量 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_284$ 完全具有外生性，即 $工具变量回归第一阶段导出结果工具变量回归法_大数据_285$ ，此时工具变量估计量 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_286$ 是一致的，不存在偏差；
如果工具变量 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_284$ 不完全具有外生性，即 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_288$ ，并且内生解释变量与工具变量之间存在较弱的相关关系，那么Iv估计量的偏差可能要大于OLS估计量的偏差。
因此检验工具变量是否是弱工具变量至关重要，因为它直接影响到参数估计的一致性。

6.31 弱工具变量的识别方法

目前识别弱工具变量的方法主要有以下几种：

使用偏 $工具变量回归第一阶段导出结果工具变量回归法_大数据_289$ 。具体操作步骤如下：
step1:用内生解释变量对外生解释变量进行OLS回归，其残差记作 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_290$ 它表示不能由外生解释变量解释内生解释变量的信息；
step2:用工具变量变量对外生解释变量进行OLS回归，其残差记作 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_291$ ,它表示不能由外生解释变量解释工具变量的信息；
step3:用残差 $工具变量回归第一阶段导出结果工具变量回归法_线性代数_290$ 对残差 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_291$ 进行OLS回归，其可决系数记作 $工具变量回归第一阶段导出结果工具变量回归法_大数据_294$ 。如果 $工具变量回归第一阶段导出结果工具变量回归法_大数据_294$ 较大，则内生解释变量与工具变量存在较强的相关性。

事实上，计算出的 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_296$ 究竟是多大才不构成弱工具变量目前尚无共识。

经验规则（Staiger and Stock, 1997）：第一阶段工具变量显著性检验的𝐹统计量应大于10：如果在多个内生解释变量情况下，将会存在多个第一阶段回归，对应多个F统计量。（Staiger and Stock, 2005）提出“最小特征统计值”，stata提供了最小特征统计值的临界值。通过特征值与临界值进行比较以判定弱工具变量问题。SY(Stock and Yogo )统计量为第一阶段中对工具变量显著性检验的𝐹统计量，但临界值不同于𝐹分布的临界值。临界值取决于内生变量的个数和工具变量的个数。
如果假设扰动项为iid，可使用“Cragg-Donald Wald F统计量”(Cragg and Donald, 1993)，其临界值由Stock and Yogo (2005 ）提供。
如果不作iid 扰动项的假设，则应使用“Kleibergen-Paap Wald rk F 统计量”，其临界值也来自Stock and Yogo (2005)。

6.32 弱工具变量的处理方法

减少工具变量的个数。工具变量越多，对第一阶段的𝐹统计量要求越高
寻找更强的工具变量
采用有限信息极大似然估计（LIML）。LIML对估计和推断偏差没有2SLS敏感。
使用冗余检验，剔除弱工具变量。

7 如何寻找工具变量

根据理论，列出所有与内生解释变量相关的变量的清单
从清单中剔除与扰动项相关的变量，工具变量具必须具有外生性

相关政策或制度、外生的冲击，比如自然灾害、意外事件等；
地理因很大程度上具有独立性；
历史变量也先于当前的经济指标生成。
最后一个常用的方法是将内生解释变量的时间(空间)滞后作为工具变量。

考虑模型
$工具变量回归第一阶段导出结果工具变量回归法_机器学习_297$
由于 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_298$ 存在内生性，故 $工具变量回归第一阶段导出结果工具变量回归法_机器学习_299$ 。 $工具变量回归第一阶段导出结果工具变量回归法_工具变量回归第一阶段导出结果_300$ 先于 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_301$ ，且 $工具变量回归第一阶段导出结果工具变量回归法_数据分析_302$ ，因此内生解释变量的滞后其可能是一个工具变量。