最近我们被客户要求撰写关于因果推断与增量的研究报告,包括一些图形和统计输出。
使用 ML 进行提升建模和因果推理
Python 包提供了一套使用基于最近研究的机器学习算法的提升建模和因果推理方法。允许用户根据实验或观察数据估计条件平均处理效果 (CATE) 或个体处理效果 (ITE)。本质上,它估计了干预 对 具有观察特征的用户的 T
结果 的因果影响,而对模型形式没有强烈的假设。典型用例包括
广告活动定位优化:
在广告活动中提高投资回报率的一个重要手段是将广告定位到在给定 KPI(如参与度或销售量)中会有良好反应的客户群。通过根据 A/B 实验或历史观察数据在个人层面估计广告曝光的 KPI 影响来识别这些客户。
个性化参与:
公司有多种选择与客户互动,例如在追加销售或消息渠道中的不同产品选择。可以估计每个客户和处理选项组合的异质处理效果,以获得最佳的个性化推荐系统。
目前支持以下方法
基于树的算法
- 欧几里得距离和卡方上的随机森林
- 提升树/随机森林
元学习算法
- S学习
- T学习
- X学习
- R学习
工具变量算法
- 2 阶段最小二乘法 (2SLS)
开始
S、T、X 和 R 学习的平均处理效果估计
xg = XGBTRrssor()nn = MLPTReesor(hidenlayer_izes=(10, 10))xl = BaeXegrsor(lernr=XGBeresor())rl = BaeRReresor(lerner=XRegrssor())
可解释的因果机器学习
提供了解释如下训练的处理效果模型的方法:
元学习特征的重要性
# 加载合成数据np.array(['treaet_A' if x==1 else 'cotol' for x in trtent]) # 处理/控制名称RnFostRgesor() # 为model_tau_feature指定模# 在基础学习器中使用feature_importances_方法plot_ipornce()# 绘制shap值pot_shp_ues()# interaction_idx设置为'auto'ploshp_dpedece()
01
02
03
04
提升树可视化
uplit_del.fit(df[fars].values,
trtnt=df['trtme_rop_ey'].values,
y=df['cvesin'].values)