LR模型对进入模型变量的要求
1、变量间不存在较强的线性相关性和多重共线性
2、变量具有显著性
3、变量具有合理的业务含义,符合业务逻辑

第1点,可以使用单变量分析和多变量分析得到一定的约束,但是未必充分;
第2点,从系数的P值进行检验;
第3点,从系数的符号进行检验。


变量的显著性
为了获取与目标变量有较高相关性的变量,要求最终入模的变量的系数的P值很小,例如低于0.1。如果发现模型中某些变量不显著,需要检验一下两种可能性:
1、该变量本身不显著;
2、该变量显著,但是由于有一定的线性相关性或者多重共线性,导致该变量在多元回归下不显著。
先检验1的可能性,如果排除,再检验2

检验1的方法:
将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情况下,系数的P值仍然较高,即表明该变量本身的显著性较低。

注:对于IV值较高的变量,1的可能性较低。

变量的正确性
在WOE的计算公式中,

R 回归模型 统计显著性 回归模型的显著性_python
当WOE为负时,表明当前箱的”危险性“高于平均样本的”危险性“,出现坏样本的概率更高,因此在逻辑回归模型中,所有变量对应的系数应该为负。

反之,如果采取的WOE的计算公式为:
R 回归模型 统计显著性 回归模型的显著性_逻辑回归_02
同理,所有变量对应的系数应该为正。


评分卡分数转化
由概率转化为分数需要满足如下条件:
(1)样本总的分数是由每个变量的分数之和累加得到;
(2)模型预测概率的变化会引起分值以某一单位刻度发生变化;
(3)每个样本的取值发生变化会引起样本分值的改变。

为了满足条件(1),而引入几率(Odds)的定义,Odds可以衡量模型预测结果为正例可能性的大小。
R 回归模型 统计显著性 回归模型的显著性_逻辑回归_03
p为模型预测正样本的概率。

R 回归模型 统计显著性 回归模型的显著性_python_04
等式左边是模型输出概率的对数几率,而等式右边是不同变量的线性加权表示,这正是条件(1)需要寻找的一种解决办法,巧妙地将概率相关表达映射为变量加权的方式。

R 回归模型 统计显著性 回归模型的显著性_python_05
其中,A称为补偿,B称为刻度

变量的分值计算

评分卡模型性能评估

常用的审批策略包括:坏账率与通过率的审批策略,双卡审批策略

模型的在线监控
1、稳定性监控:PSI指标
2、单调性监控:Kendall’s Tau指标
3、性能监控指标:KS值、AUC值、AR值、Recall、Precision等

模型上线监控指标

指标类别

指标名称

指标偏好

稳定性指标

PSI

越小越好

单调性指标

Kendall’s Tau值

越接近1越好

性能指标

KS、AUC、AR、Recall、Precision等

越接近模型开发时越好

业务指标

坏账率、通过率

越接近模型开发时越好