逻辑斯蒂回归

estimate 逻辑回归_逻辑斯蒂
其中estimate 逻辑回归_estimate 逻辑回归_02sigmoid函数,即值域在 estimate 逻辑回归_逻辑斯蒂_03 之间的S形函数:
estimate 逻辑回归_WOE_04
为什么要把输出限制在0-1之间呢?因为我们通常建模时希望模型预测的是概率值。

对于逻辑回归对应的二分类问题,通常 y 指的是样本标签为正(负)的概率。

estimate 逻辑回归_逻辑斯蒂_05


sigmoid 函数有个特点:

estimate 逻辑回归_回归_06

故(1)式转化为:

estimate 逻辑回归_风控_07

estimate 逻辑回归_逻辑斯蒂_08表示的是概率, estimate 逻辑回归_WOE_09 表示的是几率(odds),estimate 逻辑回归_estimate 逻辑回归_10

所以逻辑斯蒂回归建模的出发点(假设)为:样本标签为正的对数几率是自变量estimate 逻辑回归_回归_11的线性函数

这当然是一个很强的假设,显示数据是很难符合条件的。

WOE 编码

WOE 全称叫 Weight of Evidence。

逻辑斯蒂回归中的线性假设很难满足,导致模型表现不好,但是自变量在 WOE 编码之后可以满足上述假设,即对数几率通常是自变量estimate 逻辑回归_回归_11的WOE编码的线性函数

假设有 estimate 逻辑回归_estimate 逻辑回归_13 个自变量 estimate 逻辑回归_WOE_14
estimate 逻辑回归_estimate 逻辑回归_15
上式最后一个等式成立的条件为 estimate 逻辑回归_逻辑斯蒂_16 关于 estimate 逻辑回归_estimate 逻辑回归_17

为了弱化这个假设,将上式变为:
estimate 逻辑回归_WOE_18
虽然加上权重 estimate 逻辑回归_风控_19 并不能直接消除变量之间的相关性,但是在极端情况下,比如 estimate 逻辑回归_风控_19

上式中,estimate 逻辑回归_逻辑斯蒂_21 就是对第i个自变量的WOE编码

WOE 计算

举个例子来看具体怎么做的,例如年龄对借贷风险的影响,bad 表示有风险:

estimate 逻辑回归_回归_22


将原始的自变量 “年龄” 经过分箱、WOE编码后,再做逻辑回归!

有些文章讨论 WOE 是不是单调的、线性的,在我看来都是无意义的,WOE 编码的作用就是为了提升逻辑斯蒂回归的准确率!

参考:

  1. https://zhuanlan.zhihu.com/p/30026040
  2. https://zhuanlan.zhihu.com/p/80134853