背景
有一些变量(如年龄),它的Bivar图,从业务上理解应该是U型的。比如可能是年龄过大和年龄过小的坏账都比较高。对于这种变量很多公司在处理的时候都很头痛,一方面考虑着要保持传统(变量badrate要单调),一方面觉得业务上解释的通。

那么,U型变量需要做额外处理么?

群里有人提出U型变量,在lr模型中是不好处理的。原因是此类变量在需要非线性拟合才能拟合的更好,因为他在解空间中属于直线不可分状态,是不可能通过一条直线将正负样本区分开的。具体见下图:





回归中控制变量 回归中控制变量不显著_回归中控制变量


image


插图由梅子行@Zain Mei 提供,出自他尚未出版的新书,欢迎订购

抛开X2,单看X1这个维度。随着X1增大,badrate先减后增,在解空间中画出样本分布如左图。那么在这样的一个分布中,逻辑回归是无法很好的划出一条直线来将正负样本分开的。于是提出了一种映射操作:X1减去X1的中值后取绝对值。相当于折了一下,折一下以后这个变量就变成了单调的了,于是在解空间中分布图也会发生变化,变得线性可分。

听起来很有道理对不对?但是接下来的问题是,一般来说做LR评分卡入模前都会对变量做WOE编码。

WOE编码其实就是对lr模型只能处理线性问题的缓解!

一般来说做LR评分卡入模前都会对变量做WOE化,也有拿原始值入模的,比如国外某知名现金贷公司,我们再来看看WOE对变量的影响,重新回顾下WOE公式:


回归中控制变量 回归中控制变量不显著_拟合_02


image.png


简单理解就是组内badrate/整体badrate后取对数,看公式woe对组内baderate严格单调,转化示例如图所示:


回归中控制变量 回归中控制变量不显著_回归中控制变量_03


image


由于LR拟合的是woe和y之间的关系,所以woe化后的变量不存在开头图中所说问题。WOE本身就是一种对变量重新编码的方式,对于lr模型而言,它看到的不再是原始变量取值,而是按照WOE编码后输入模型,这时badrate一定是单调的

因此常规评分卡无需处理非单调变量,只要业务逻辑合理即可。woe起到的作用实际上是赋予了逻辑回归一定程度的非线性拟合能力,我们把解空间映射一下,得到如下图:


回归中控制变量 回归中控制变量不显著_评分卡_04


image


当然如果拿原始变量入模,建议对变量还是需要进行一定转换,否则找到的解上限开局就比不转换低一截。

总结

  • 有WOE编码的情况下,变量的bivar图是否单调对模型拟合本身没有影响。只要其趋势合理,解释通顺,就可以放进模型中(但是趋势过于复杂可能稳定性可能较差);
  • 不单调的变量,如果没有WOE编码,直接入模的话,模型是很难求解的。这也是为什么,大家都说线性模型比较依赖手工特征工程处理。