逻辑斯蒂回归
其中为sigmoid函数,即值域在
之间的S形函数:
为什么要把输出限制在0-1之间呢?因为我们通常建模时希望模型预测的是概率值。
对于逻辑回归对应的二分类问题,通常 y 指的是样本标签为正(负)的概率。

sigmoid 函数有个特点:
故(1)式转化为:
表示的是概率,
表示的是几率(odds),
所以逻辑斯蒂回归建模的出发点(假设)为:样本标签为正的对数几率是自变量的线性函数。
这当然是一个很强的假设,显示数据是很难符合条件的。
WOE 编码
WOE 全称叫 Weight of Evidence。
逻辑斯蒂回归中的线性假设很难满足,导致模型表现不好,但是自变量在 WOE 编码之后可以满足上述假设,即对数几率通常是自变量的WOE编码的线性函数。
假设有 个自变量
上式最后一个等式成立的条件为 关于
为了弱化这个假设,将上式变为:
虽然加上权重 并不能直接消除变量之间的相关性,但是在极端情况下,比如
上式中, 就是对第i个自变量的WOE编码!
WOE 计算
举个例子来看具体怎么做的,例如年龄对借贷风险的影响,bad 表示有风险:

将原始的自变量 “年龄” 经过分箱、WOE编码后,再做逻辑回归!
有些文章讨论 WOE 是不是单调的、线性的,在我看来都是无意义的,WOE 编码的作用就是为了提升逻辑斯蒂回归的准确率!
参考:
















