R 回归模型统计显著性回归模型的显著性

转载

编程小达人 2024-03-20 09:52:19

文章标签 R 回归模型统计显著性 python 逻辑回归模型预测取值 文章分类 机器学习人工智能

LR模型对进入模型变量的要求
1、变量间不存在较强的线性相关性和多重共线性
2、变量具有显著性
3、变量具有合理的业务含义，符合业务逻辑

第1点，可以使用单变量分析和多变量分析得到一定的约束，但是未必充分；
第2点，从系数的P值进行检验；
第3点，从系数的符号进行检验。

变量的显著性
为了获取与目标变量有较高相关性的变量，要求最终入模的变量的系数的P值很小，例如低于0.1。如果发现模型中某些变量不显著，需要检验一下两种可能性：
1、该变量本身不显著；
2、该变量显著，但是由于有一定的线性相关性或者多重共线性，导致该变量在多元回归下不显著。
先检验1的可能性，如果排除，再检验2

检验1的方法：
将该变量单独与目标变量做逻辑回归模型，如果在单变量回归的情况下，系数的P值仍然较高，即表明该变量本身的显著性较低。

注：对于IV值较高的变量，1的可能性较低。

变量的正确性
在WOE的计算公式中，

$R 回归模型统计显著性回归模型的显著性_python$
当WOE为负时，表明当前箱的”危险性“高于平均样本的”危险性“，出现坏样本的概率更高，因此在逻辑回归模型中，所有变量对应的系数应该为负。

反之，如果采取的WOE的计算公式为：
$R 回归模型统计显著性回归模型的显著性_逻辑回归_02$
同理，所有变量对应的系数应该为正。

评分卡分数转化
由概率转化为分数需要满足如下条件：
（1）样本总的分数是由每个变量的分数之和累加得到；
（2）模型预测概率的变化会引起分值以某一单位刻度发生变化；
（3）每个样本的取值发生变化会引起样本分值的改变。

为了满足条件（1），而引入几率（Odds）的定义，Odds可以衡量模型预测结果为正例可能性的大小。
$R 回归模型统计显著性回归模型的显著性_逻辑回归_03$
p为模型预测正样本的概率。

$R 回归模型统计显著性回归模型的显著性_python_04$
等式左边是模型输出概率的对数几率，而等式右边是不同变量的线性加权表示，这正是条件（1）需要寻找的一种解决办法，巧妙地将概率相关表达映射为变量加权的方式。

$R 回归模型统计显著性回归模型的显著性_python_05$
其中，A称为补偿，B称为刻度

变量的分值计算

评分卡模型性能评估

常用的审批策略包括：坏账率与通过率的审批策略，双卡审批策略

模型的在线监控
1、稳定性监控：PSI指标
2、单调性监控：Kendall’s Tau指标
3、性能监控指标：KS值、AUC值、AR值、Recall、Precision等

模型上线监控指标

指标类别	指标名称	指标偏好
稳定性指标	PSI	越小越好
单调性指标	Kendall’s Tau值	越接近1越好
性能指标	KS、AUC、AR、Recall、Precision等	越接近模型开发时越好
业务指标	坏账率、通过率	越接近模型开发时越好