随机森林环境因子重要性排序分析随机森林因果推断

转载

mob64ca13f70606 2024-04-03 08:19:03

文章标签 随机森林环境因子重要性排序分析人工智能算法 ide sed 文章分类 机器学习人工智能

Paper Review

1. Estimation and Inference of Heterogeneous Treatment Effects using Random Forest

1.1 Asymptotic analysis
1.2 Double-Sample Trees

2. Generalized Random Forests

2.1 Algorithm

1. Forest-based local estimation
2. Splitting to maximize heterogeneity
3. The gradient tree algorithm

2.2 Asymptotic analysis
2.3 Experiments

1. CAPE
2. Quantile Regression Forest

3. Orthogonal Random Forest for Causal Inference

3.1 Introduction
3.2 Algorithm

1. first stage
2. second stage

3.3 Experiments

4. Decision trees for uplift modeling with single and multiple treatments

4.1 Single Treatment
4.2 Multiple treatment

因果森林总结：基于树模型的异质因果效应估计

Uplift model with multiple treatments

1. Estimation and Inference of Heterogeneous Treatment Effects using Random Forest

二元干预情形下估计 $随机森林环境因子重要性排序分析随机森林因果推断_sed$

1.1 Asymptotic analysis

随机森林环境因子重要性排序分析随机森林因果推断_算法_02

Under some condition,
$随机森林环境因子重要性排序分析随机森林因果推断_算法_03$
$随机森林环境因子重要性排序分析随机森林因果推断_sed_04$ 可以用infinitesimal jackknife估计 $随机森林环境因子重要性排序分析随机森林因果推断_ide_05$
$随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_06$
其中，系数项 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_07$ 只能对无放回的子抽样做修正

证明过程分为两步：

先证明偏差 $随机森林环境因子重要性排序分析随机森林因果推断_sed_08$ 的bound

随机森林环境因子重要性排序分析随机森林因果推断_人工智能_09

随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_10

再证明 $随机森林环境因子重要性排序分析随机森林因果推断_ide_11$ 近似正态

利用Hajek projection和k-PNN先证明T is ν-incremental
$随机森林环境因子重要性排序分析随机森林因果推断_ide_12$

随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_13

1.2 Double-Sample Trees

随机森林环境因子重要性排序分析随机森林因果推断_ide_14

回归树T分裂准则为最小化MSE， $随机森林环境因子重要性排序分析随机森林因果推断_sed_15$

$随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_16$

考虑到 $随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_17$ ，上式等价于最大化 $随机森林环境因子重要性排序分析随机森林因果推断_sed_18$ 的方差

2. Generalized Random Forests

2.1 Algorithm

1. Forest-based local estimation

目的：给定 $随机森林环境因子重要性排序分析随机森林因果推断_ide_19$ ，估计 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_20$ ，如估计HTE时， $随机森林环境因子重要性排序分析随机森林因果推断_sed_21$ 。
方法：求解方程 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_22$ ，其中， $随机森林环境因子重要性排序分析随机森林因果推断_ide_23$ 分别是感兴趣的参数和无关参数

权重估计阶段： $随机森林环境因子重要性排序分析随机森林因果推断_sed_24$ 衡量 $随机森林环境因子重要性排序分析随机森林因果推断_算法_25$ 和 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_26$ 的相似程度，将同一叶子结点中的"“共现频率”"作为其权重
$随机森林环境因子重要性排序分析随机森林因果推断_ide_27$
其中 $随机森林环境因子重要性排序分析随机森林因果推断_ide_28$ 为第b棵树 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_26$ 所在叶子结点的所有数据
加权求解
$随机森林环境因子重要性排序分析随机森林因果推断_算法_30$
例子：求解 $随机森林环境因子重要性排序分析随机森林因果推断_ide_31$ ,取 $随机森林环境因子重要性排序分析随机森林因果推断_ide_32$ ，则有 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_33$ ，方程的解为 $随机森林环境因子重要性排序分析随机森林因果推断_ide_34$

2. Splitting to maximize heterogeneity

针对某一节点P和数据J，参数的估计方法为
$随机森林环境因子重要性排序分析随机森林因果推断_sed_35$
将结点P分裂为两个子节点 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_36$ ，目标为最小化 $随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_37$
$随机森林环境因子重要性排序分析随机森林因果推断_人工智能_38$
在某些条件下， $随机森林环境因子重要性排序分析随机森林因果推断_ide_39$ ，所以分裂等价于最大化节点间的异质性，即
$随机森林环境因子重要性排序分析随机森林因果推断_ide_40$

3. The gradient tree algorithm

为减少计算量，采用梯度近似
$随机森林环境因子重要性排序分析随机森林因果推断_算法_41$
其中， $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_42$ 取出 $随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_43$ 的值，消去无关参数， $随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_44$ 近似 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_45$
$随机森林环境因子重要性排序分析随机森林因果推断_算法_46$
注：当 $随机森林环境因子重要性排序分析随机森林因果推断_算法_47$ 不可导时，可以采用分位数回归

故分裂阶段可以分为以下2步

labeling step：计算父节点的 $随机森林环境因子重要性排序分析随机森林因果推断_sed_48$ ，以及每个样本的伪值
$随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_49$
regression step：最大化近似分裂准则
$随机森林环境因子重要性排序分析随机森林因果推断_ide_50$

回归过程中，分裂准则的近似误差在一定范围内

随机森林环境因子重要性排序分析随机森林因果推断_人工智能_51

2.2 Asymptotic analysis

定义expected score function
$随机森林环境因子重要性排序分析随机森林因果推断_人工智能_52$

随机森林环境因子重要性排序分析随机森林因果推断_人工智能_53

随机森林环境因子重要性排序分析随机森林因果推断_算法_54

随机森林环境因子重要性排序分析随机森林因果推断_sed_55

随机森林环境因子重要性排序分析随机森林因果推断_算法_56

consistency
approximate normality

2.3 Experiments

1. CAPE

$随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_57$ 目标是估计 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_58$ ，score function
$随机森林环境因子重要性排序分析随机森林因果推断_人工智能_59$ 此时 $随机森林环境因子重要性排序分析随机森林因果推断_ide_60$ 相当于:
$随机森林环境因子重要性排序分析随机森林因果推断_算法_61$

Forest
$随机森林环境因子重要性排序分析随机森林因果推断_算法_62$ 其中， $随机森林环境因子重要性排序分析随机森林因果推断_sed_63$
GRF算法实施时，权重可自动求解，但需要计算对应的伪结果，注意 $随机森林环境因子重要性排序分析随机森林因果推断_sed_64$ 只关注 $随机森林环境因子重要性排序分析随机森林因果推断_ide_65$
$随机森林环境因子重要性排序分析随机森林因果推断_ide_66$ $随机森林环境因子重要性排序分析随机森林因果推断_算法_67$
对比实际代入的表达式，实际对W做centering
$随机森林环境因子重要性排序分析随机森林因果推断_sed_68$ $随机森林环境因子重要性排序分析随机森林因果推断_算法_69$
Local Centering
提前对Y和W做中心化处理，类似残差，使得估计效果更好
$随机森林环境因子重要性排序分析随机森林因果推断_算法_70$

2. Quantile Regression Forest

$随机森林环境因子重要性排序分析随机森林因果推断_sed_71$

随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_72

3. Orthogonal Random Forest for Causal Inference

3.1 Introduction

DML的优势：即使第一阶段的估计有误差，第二阶段的估计仍可以近似正态；劣势：HTE预设参数形式。CF的优势：非参数估计；劣势：很大程度上要求低维度W。ORF在GRF的基础上，参考DML新增对无关参数的正交估计（First stage），减少误差。

At a high level, ORF can be viewed as an orthogonalized version of GRF that is more robust to the nuisance estimation error. The key modification to GRF’s tree learner is our incorporation of orthogonal nuisance estimation in the splitting criterion.

随机森林环境因子重要性排序分析随机森林因果推断_人工智能_73

3.2 Algorithm

建树时每次分裂的过程two-stage

随机森林环境因子重要性排序分析随机森林因果推断_人工智能_74

1. first stage

$随机森林环境因子重要性排序分析随机森林因果推断_人工智能_75$

随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_76

2. second stage

split

具体执行分裂的算法类似GRF的gradient tree algorithm，但考虑到honesty，集合略有改动，其中 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_77$ 是用于分裂的数据， $随机森林环境因子重要性排序分析随机森林因果推断_sed_78$ 是first stage估计的无关参数
$随机森林环境因子重要性排序分析随机森林因果推断_算法_79$
where $随机森林环境因子重要性排序分析随机森林因果推断_算法_80$

labeling step：计算父节点的 $随机森林环境因子重要性排序分析随机森林因果推断_ide_81$ ，以及每个样本的伪值
$随机森林环境因子重要性排序分析随机森林因果推断_人工智能_82$
regression step：maximize proxy heterogeneity score
$随机森林环境因子重要性排序分析随机森林因果推断_算法_83$
Predict

$随机森林环境因子重要性排序分析随机森林因果推断_ide_84$ 同样仅限于 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_85$ 的估计样本
$随机森林环境因子重要性排序分析随机森林因果推断_算法_86$

以下定理保证了 $随机森林环境因子重要性排序分析随机森林因果推断_ide_84$ 在x邻域内非零

随机森林环境因子重要性排序分析随机森林因果推断_人工智能_88

3.3 Experiments

DML Partially Linear Regression(PLR, Robinson, 1988)
$随机森林环境因子重要性排序分析随机森林因果推断_sed_89$ 则score function为 $随机森林环境因子重要性排序分析随机森林因果推断_算法_90$
ORF
数据 $随机森林环境因子重要性排序分析随机森林因果推断_sed_91$ ，其中T是连续或离散的Treatment，Y是outcome， $随机森林环境因子重要性排序分析随机森林因果推断_算法_92$ 是potential confounders/controls， $随机森林环境因子重要性排序分析随机森林因果推断_算法_93$ 是特征
$随机森林环境因子重要性排序分析随机森林因果推断_人工智能_94$ confounders分别通过 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_95$ 和 $随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_96$ 影响outcome和treatment
$随机森林环境因子重要性排序分析随机森林因果推断_算法_97$ 为treatment effect function，目标是估计CATE
$随机森林环境因子重要性排序分析随机森林因果推断_ide_98$
基于DML思想，残差化
$随机森林环境因子重要性排序分析随机森林因果推断_ide_99$ 定义 $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_100$ ， $随机森林环境因子重要性排序分析随机森林因果推断_人工智能_101$ ， $随机森林环境因子重要性排序分析随机森林因果推断_ide_102$ $随机森林环境因子重要性排序分析随机森林因果推断_随机森林环境因子重要性排序分析_103$ ，则有
$随机森林环境因子重要性排序分析随机森林因果推断_算法_104$ 则score function $随机森林环境因子重要性排序分析随机森林因果推断_ide_105$
其中 $随机森林环境因子重要性排序分析随机森林因果推断_算法_106$ 是 $随机森林环境因子重要性排序分析随机森林因果推断_算法_107$ 的估计

4. Decision trees for uplift modeling with single and multiple treatments

4.1 Single Treatment

Split rule：maximize the differences between class distributions
$随机森林环境因子重要性排序分析随机森林因果推断_人工智能_108$
Normalising：C4.5对gain除以info避免bias，而本文的norm主要惩罚两边子节点中treatment和control组比例不平衡的，这和随机试验的假设相悖
下式第一项系数考虑比例不平衡，后两项考虑相对样本大小
(1) D=KL:
$随机森林环境因子重要性排序分析随机森林因果推断_算法_109$
(2) D=欧式/卡方
$随机森林环境因子重要性排序分析随机森林因果推断_ide_110$