LR模型对进入模型变量的要求
1、变量间不存在较强的线性相关性和多重共线性
2、变量具有显著性
3、变量具有合理的业务含义,符合业务逻辑
第1点,可以使用单变量分析和多变量分析得到一定的约束,但是未必充分;
第2点,从系数的P值进行检验;
第3点,从系数的符号进行检验。
变量的显著性
为了获取与目标变量有较高相关性的变量,要求最终入模的变量的系数的P值很小,例如低于0.1。如果发现模型中某些变量不显著,需要检验一下两种可能性:
1、该变量本身不显著;
2、该变量显著,但是由于有一定的线性相关性或者多重共线性,导致该变量在多元回归下不显著。
先检验1的可能性,如果排除,再检验2
检验1的方法:
将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情况下,系数的P值仍然较高,即表明该变量本身的显著性较低。
注:对于IV值较高的变量,1的可能性较低。
变量的正确性
在WOE的计算公式中,
当WOE为负时,表明当前箱的”危险性“高于平均样本的”危险性“,出现坏样本的概率更高,因此在逻辑回归模型中,所有变量对应的系数应该为负。
反之,如果采取的WOE的计算公式为:
同理,所有变量对应的系数应该为正。
评分卡分数转化
由概率转化为分数需要满足如下条件:
(1)样本总的分数是由每个变量的分数之和累加得到;
(2)模型预测概率的变化会引起分值以某一单位刻度发生变化;
(3)每个样本的取值发生变化会引起样本分值的改变。
为了满足条件(1),而引入几率(Odds)的定义,Odds可以衡量模型预测结果为正例可能性的大小。
p为模型预测正样本的概率。
等式左边是模型输出概率的对数几率,而等式右边是不同变量的线性加权表示,这正是条件(1)需要寻找的一种解决办法,巧妙地将概率相关表达映射为变量加权的方式。
其中,A称为补偿,B称为刻度
变量的分值计算
评分卡模型性能评估
常用的审批策略包括:坏账率与通过率的审批策略,双卡审批策略
模型的在线监控
1、稳定性监控:PSI指标
2、单调性监控:Kendall’s Tau指标
3、性能监控指标:KS值、AUC值、AR值、Recall、Precision等
模型上线监控指标
指标类别 | 指标名称 | 指标偏好 |
稳定性指标 | PSI | 越小越好 |
单调性指标 | Kendall’s Tau值 | 越接近1越好 |
性能指标 | KS、AUC、AR、Recall、Precision等 | 越接近模型开发时越好 |
业务指标 | 坏账率、通过率 | 越接近模型开发时越好 |