Paper Review

  • 1. Estimation and Inference of Heterogeneous Treatment Effects using Random Forest
  • 1.1 Asymptotic analysis
  • 1.2 Double-Sample Trees
  • 2. Generalized Random Forests
  • 2.1 Algorithm
  • 1. Forest-based local estimation
  • 2. Splitting to maximize heterogeneity
  • 3. The gradient tree algorithm
  • 2.2 Asymptotic analysis
  • 2.3 Experiments
  • 1. CAPE
  • 2. Quantile Regression Forest
  • 3. Orthogonal Random Forest for Causal Inference
  • 3.1 Introduction
  • 3.2 Algorithm
  • 1. first stage
  • 2. second stage
  • 3.3 Experiments
  • 4. Decision trees for uplift modeling with single and multiple treatments
  • 4.1 Single Treatment
  • 4.2 Multiple treatment


因果森林总结:基于树模型的异质因果效应估计

Uplift model with multiple treatments

1. Estimation and Inference of Heterogeneous Treatment Effects using Random Forest

二元干预情形下估计随机森林环境因子重要性排序分析 随机森林 因果推断_sed

1.1 Asymptotic analysis

随机森林环境因子重要性排序分析 随机森林 因果推断_算法_02

  • Under some condition,
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_03
  • 随机森林环境因子重要性排序分析 随机森林 因果推断_sed_04可以用infinitesimal jackknife估计随机森林环境因子重要性排序分析 随机森林 因果推断_ide_05
    随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_06
    其中,系数项随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_07只能对无放回的子抽样做修正

证明过程分为两步:

  • 先证明偏差随机森林环境因子重要性排序分析 随机森林 因果推断_sed_08的bound

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_09


随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_10

  • 再证明随机森林环境因子重要性排序分析 随机森林 因果推断_ide_11近似正态

利用Hajek projection和k-PNN先证明T is ν-incremental
随机森林环境因子重要性排序分析 随机森林 因果推断_ide_12

随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_13

1.2 Double-Sample Trees

随机森林环境因子重要性排序分析 随机森林 因果推断_ide_14

回归树T分裂准则为最小化MSE, 随机森林环境因子重要性排序分析 随机森林 因果推断_sed_15

随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_16

考虑到随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_17,上式等价于最大化随机森林环境因子重要性排序分析 随机森林 因果推断_sed_18的方差

2. Generalized Random Forests

2.1 Algorithm

1. Forest-based local estimation

目的:给定随机森林环境因子重要性排序分析 随机森林 因果推断_ide_19, 估计随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_20,如估计HTE时,随机森林环境因子重要性排序分析 随机森林 因果推断_sed_21
方法:求解方程随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_22,其中,随机森林环境因子重要性排序分析 随机森林 因果推断_ide_23分别是感兴趣的参数和无关参数

  • 权重估计阶段:随机森林环境因子重要性排序分析 随机森林 因果推断_sed_24衡量随机森林环境因子重要性排序分析 随机森林 因果推断_算法_25随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_26的相似程度,将同一叶子结点中的"“共现频率”"作为其权重
    随机森林环境因子重要性排序分析 随机森林 因果推断_ide_27
    其中随机森林环境因子重要性排序分析 随机森林 因果推断_ide_28为第b棵树随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_26所在叶子结点的所有数据
  • 加权求解
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_30
    例子:求解随机森林环境因子重要性排序分析 随机森林 因果推断_ide_31,取 随机森林环境因子重要性排序分析 随机森林 因果推断_ide_32,则有随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_33,方程的解为随机森林环境因子重要性排序分析 随机森林 因果推断_ide_34

2. Splitting to maximize heterogeneity

针对某一节点P和数据J,参数的估计方法为
随机森林环境因子重要性排序分析 随机森林 因果推断_sed_35
将结点P分裂为两个子节点随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_36,目标为最小化随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_37
随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_38
在某些条件下, 随机森林环境因子重要性排序分析 随机森林 因果推断_ide_39,所以分裂等价于最大化节点间的异质性,即
随机森林环境因子重要性排序分析 随机森林 因果推断_ide_40

3. The gradient tree algorithm

为减少计算量,采用梯度近似
随机森林环境因子重要性排序分析 随机森林 因果推断_算法_41
其中,随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_42取出随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_43的值,消去无关参数,随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_44近似随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_45
随机森林环境因子重要性排序分析 随机森林 因果推断_算法_46
注:当随机森林环境因子重要性排序分析 随机森林 因果推断_算法_47不可导时,可以采用分位数回归

故分裂阶段可以分为以下2步

  • labeling step:计算父节点的 随机森林环境因子重要性排序分析 随机森林 因果推断_sed_48 ,以及每个样本的伪值
    随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_49
  • regression step:最大化近似分裂准则
    随机森林环境因子重要性排序分析 随机森林 因果推断_ide_50

回归过程中,分裂准则的近似误差在一定范围内

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_51

2.2 Asymptotic analysis

定义expected score function
随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_52

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_53

随机森林环境因子重要性排序分析 随机森林 因果推断_算法_54


随机森林环境因子重要性排序分析 随机森林 因果推断_sed_55


随机森林环境因子重要性排序分析 随机森林 因果推断_算法_56

  • consistency
  • approximate normality

2.3 Experiments

1. CAPE

随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_57目标是估计随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_58,score function
随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_59此时 随机森林环境因子重要性排序分析 随机森林 因果推断_ide_60 相当于:
随机森林环境因子重要性排序分析 随机森林 因果推断_算法_61

  • Forest
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_62其中,随机森林环境因子重要性排序分析 随机森林 因果推断_sed_63
    GRF算法实施时,权重可自动求解,但需要计算对应的伪结果,注意随机森林环境因子重要性排序分析 随机森林 因果推断_sed_64只关注随机森林环境因子重要性排序分析 随机森林 因果推断_ide_65
    随机森林环境因子重要性排序分析 随机森林 因果推断_ide_66随机森林环境因子重要性排序分析 随机森林 因果推断_算法_67
    对比实际代入的表达式,实际对W做centering
    随机森林环境因子重要性排序分析 随机森林 因果推断_sed_68 随机森林环境因子重要性排序分析 随机森林 因果推断_算法_69
  • Local Centering
    提前对Y和W做中心化处理,类似残差,使得估计效果更好
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_70

2. Quantile Regression Forest

随机森林环境因子重要性排序分析 随机森林 因果推断_sed_71

随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_72

3. Orthogonal Random Forest for Causal Inference

3.1 Introduction

DML的优势:即使第一阶段的估计有误差,第二阶段的估计仍可以近似正态;劣势:HTE预设参数形式。CF的优势:非参数估计;劣势:很大程度上要求低维度W。ORF在GRF的基础上,参考DML新增对无关参数的正交估计(First stage),减少误差。

At a high level, ORF can be viewed as an orthogonalized version of GRF that is more robust to the nuisance estimation error. The key modification to GRF’s tree learner is our incorporation of orthogonal nuisance estimation in the splitting criterion.

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_73

3.2 Algorithm

建树时每次分裂的过程two-stage

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_74

1. first stage

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_75

随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_76

2. second stage

  • split

具体执行分裂的算法类似GRF的gradient tree algorithm,但考虑到honesty,集合略有改动,其中随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_77是用于分裂的数据,随机森林环境因子重要性排序分析 随机森林 因果推断_sed_78是first stage估计的无关参数
随机森林环境因子重要性排序分析 随机森林 因果推断_算法_79
where 随机森林环境因子重要性排序分析 随机森林 因果推断_算法_80

  • labeling step:计算父节点的 随机森林环境因子重要性排序分析 随机森林 因果推断_ide_81 ,以及每个样本的伪值
    随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_82
  • regression step:maximize proxy heterogeneity score
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_83
  • Predict

随机森林环境因子重要性排序分析 随机森林 因果推断_ide_84同样仅限于随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_85的估计样本
随机森林环境因子重要性排序分析 随机森林 因果推断_算法_86

以下定理保证了随机森林环境因子重要性排序分析 随机森林 因果推断_ide_84在x邻域内非零

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_88

3.3 Experiments

  • DML Partially Linear Regression(PLR, Robinson, 1988)
    随机森林环境因子重要性排序分析 随机森林 因果推断_sed_89则score function为随机森林环境因子重要性排序分析 随机森林 因果推断_算法_90
  • ORF
    数据随机森林环境因子重要性排序分析 随机森林 因果推断_sed_91,其中T是连续或离散的Treatment,Y是outcome,随机森林环境因子重要性排序分析 随机森林 因果推断_算法_92是potential confounders/controls,随机森林环境因子重要性排序分析 随机森林 因果推断_算法_93是特征
    随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_94confounders分别通过随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_95随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_96影响outcome和treatment
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_97为treatment effect function,目标是估计CATE
    随机森林环境因子重要性排序分析 随机森林 因果推断_ide_98
    基于DML思想,残差化
    随机森林环境因子重要性排序分析 随机森林 因果推断_ide_99定义随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_100随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_101随机森林环境因子重要性排序分析 随机森林 因果推断_ide_102 随机森林环境因子重要性排序分析 随机森林 因果推断_随机森林环境因子重要性排序分析_103, 则有
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_104则score function随机森林环境因子重要性排序分析 随机森林 因果推断_ide_105
    其中随机森林环境因子重要性排序分析 随机森林 因果推断_算法_106随机森林环境因子重要性排序分析 随机森林 因果推断_算法_107的估计

4. Decision trees for uplift modeling with single and multiple treatments

4.1 Single Treatment

  • Split rule:maximize the differences between class distributions
    随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_108
  • Normalising:C4.5对gain除以info避免bias,而本文的norm主要惩罚两边子节点中treatment和control组比例不平衡的,这和随机试验的假设相悖
    下式第一项系数考虑比例不平衡,后两项考虑相对样本大小
    (1) D=KL:
    随机森林环境因子重要性排序分析 随机森林 因果推断_算法_109
    (2) D=欧式/卡方
    随机森林环境因子重要性排序分析 随机森林 因果推断_ide_110

4.2 Multiple treatment

  • Split rule

随机森林环境因子重要性排序分析 随机森林 因果推断_人工智能_111

  • Normalizing
    随机森林环境因子重要性排序分析 随机森林 因果推断_ide_112