cnn 风控模型

转载

mob64ca13faa4e6 2024-09-05 19:40:25

文章标签 cnn 风控模型缺失值离散化区间合并 文章分类 机器学习人工智能

构建信用风险类型的特征

模型处理的一般流程

数据预处理(时间格式、缺失值、机值)－ >特征构造(计数、比例、距离)－>特征选择(相关性、差异性、显著性)－>模型参数估计(回归系数、模型复杂度)

数据预处理(时间格式、缺失值、极值)

1、数据格式处理：原始数据带有一定的格式，需要转换成正确的格式

例如：利率％－》需要转化为浮点数日期：nov-17需要转化为python的时间

工作年限：‘<1 years ’-->0 '>10 years'-->11

2、文本类的数据处理方式

主题提取(NLP)

优点：提取准确、详细的信息、对风险评估非常有效

缺点：NLP的模型比较复杂，且需要足够多的训练样本

编码

优点：简单

3、缺失值

缺失的种类：完全随机缺失、随机缺失、完全非随机缺失

处理的方法：补缺、作为一种状态、删除记录或变量

连续缺失值可以取均值，离散缺失值可以取频率较高的

构建特征

常用的特征衍生

计数：过去1年内申请贷款的总次数

求和：过去1年内的网站消费总额

比例：贷款申请额度与年收入占比

时间差：第一次开户距今时长

波动率：过去3年内每份工作的时间的标准差

特征的分箱

分箱的定义

将连续变量离散化、将多状态的离散变量合并成少状态

分箱的重要性

稳定性：避免特征中无意义的波动对评分带来的波动

健壮性：避免了极端值的影响

分箱的优势

可以将缺失作为独立的一个箱带入模型中、将所有变量变换到相似的尺度上

分箱的限制

计算量大，分箱后需要编码

分箱的方法：

常用的方法：

有监督：

Best-KS

ChiMerge

无监督：

等频

等距

聚类

监督分箱法:Best-KS（针对连续变量）

原理：让分箱后组别的分布差异最大化

对于连续变量

1、排序，x={x1,x2,...xk}

2 、计算每一点的KS值

3、选取最大的KS对应的特征值xm,将x分为{xi<=xm}或{xi>xm}

对某一部分，重复2-3，直到满足终止条件之一

终止条件：

1、下一步分箱，最小的箱的占比低于设定的阈值（常用0.05）

2、下一步分箱后，该箱对应类别全部为0或者1

3、下一步分箱后，bad rate不单调

对应离散度很高的变量

1、编码

2、根据连续变量方式进行分箱

有序行的离散变量

监督室分箱法：卡方分箱法

自底向上(即基于合并的)的数据离散化方法。依赖于卡方检验；具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则

基本思想：对于精确的离散化，相对累频率在一个区间内应完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

Best-KS(二分类情形下) ChiMerge (多分类情形下)

卡方分箱法：

1、预先设定一个卡方的阈值

2、根据要离散的属性实例进行排序：每个实例属于一个区间

3、合并区间：

（1）计算每一对相邻区间的卡方值

（2）将卡方值最小的一对区间合并

卡方分箱法

卡方阈值的确定

根据显著水平和自由度得到卡方值

自由度和类别数量小1.例如：有3类，自由度为2，则90%置信度(10%显著水平下)，卡方的值为4.6

阈值的意义

类别和属性独立时，90%可能性，计算得到的卡方值汇小于4.6,这样，大于阈值的卡方值就说明属性和类不是相互独立的不能合并。如果阈值选的大，区间合并就会进行很多次，离散后的数量少，区间大。

注意：

1、CHiMerge 算法推荐使用0.90，0.95，0.99置信度，最大区间取10到15之间

2、也可以不考虑卡方阈值，此时可以考虑最小区间或者最大区间数。指定区间数量的上限和下限，最多几个区间，最少几个区间

3、对于类别型变量，需要分箱时需要按照某种方式进行排序

对于连续型变量：

使用ChiMerge进行分箱（默认5个）

检查分箱后bad rate的单调性，倘若不满足，需要进行相邻两箱的合并,直到bad rate为止

对于类别型变量：

当类别较少时，原则上不需要分箱

当某个或者几个类别的bad rate为0时，需要和最小的非0的bad rate的箱进行合并

当该变量可以完全区分目标变量时，需要认真检查该变量的合理性

无监督分箱法：等距划分、等频划分

等距划分：W=(B-A)/N

等频划分：每一箱的占比大致相同

WOE编码

一种有监督的编码方式，将预测类别的集中度的属性作为编码的数值

优势

将特征的值规范到相近的尺度上(经验上讲，WOE的绝对值波动范围在0.1～3之间)

具有业务的含义

缺点

需要每箱中同时包含好坏两个类别

WOE编码的意义

符号与好样本的比例相关

要求回归模型的系数为负

特征信息度的计算和意义

变量挑选

在评分卡模型中，变量挑选是非常重要的工作

变量间的共线性，线性相关性

信息冗余、降低了显著性，甚至造成符号失真

加剧后期验证、部署、监控的负担

业务上含义不充分

变量挑选的依据

带约束：LASSO

特征重要性：随机森林

模型拟合优度和复杂度：基于AIC的逐步回归

变量信息度：IV

高IV表示该特征和目标变量的关联度高、目标变量只能是二分类、分箱越细、IV越高

单变量分析：

1、用IV检验有效性

2、连续变量bad rate的单调性（可以放宽到U型）

3、单一区间的占比不宜过高

多变量分析：变量的两两相关性，当相关性较高时，保留一个

可以选择iv高的、可以选择分箱均匀的

WOE相关性矩阵（基于IV>0.01的变量）

变量的多重共线性

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Android Retorit封装

下一篇：Java仿美团开源项目

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

cnn 风控模型

cnn 风控模型

51CTO博客