构建信用风险类型的特征
模型处理的一般流程
数据预处理(时间格式、缺失值、机值)- >特征构造(计数、比例、距离)->特征选择(相关性、差异性、显著性)->模型参数估计(回归系数、模型复杂度)
数据预处理(时间格式、缺失值、极值)
1、数据格式处理:原始数据带有一定的格式,需要转换成正确的格式
例如:利率 %-》需要转化为浮点数 日期:nov-17需要转化为python的时间
工作年限 :‘<1 years ’-->0 '>10 years'-->11
2、文本类的数据处理方式
主题提取(NLP)
优点:提取准确、详细的信息、对风险评估非常有效
缺点:NLP的模型比较复杂,且需要足够多的训练样本
编码
优点:简单
3、缺失值
缺失的种类:完全随机缺失、随机缺失、完全非随机缺失
处理的方法:补缺、作为一种状态、删除记录或变量
连续缺失值可以取均值,离散缺失值可以取频率较高的
构建特征
常用的特征衍生
计数:过去1年内申请贷款的总次数
求和:过去1年内的网站消费总额
比例:贷款申请额度与年收入占比
时间差:第一次开户距今时长
波动率:过去3年内每份工作的时间的标准差
特征的分箱
分箱的定义
将连续变量离散化、将多状态的离散变量合并成少状态
分箱的重要性
稳定性:避免特征中无意义的波动对评分带来的波动
健壮性:避免了极端值的影响
分箱的优势
可以将缺失作为独立的一个箱带入模型中、将所有变量变换到相似的尺度上
分箱的限制
计算量大,分箱后需要编码
分箱的方法:
常用的方法:
有监督:
Best-KS
ChiMerge
无监督:
等频
等距
聚类
监督分箱法:Best-KS(针对连续变量)
原理:让分箱后组别的分布差异最大化
对于连续变量
1、排序,x={x1,x2,...xk}
2 、计算每一点的KS值
3、选取最大的KS对应的特征值xm,将x分为{xi<=xm}或{xi>xm}
对某一部分,重复2-3,直到满足终止条件之一
终止条件:
1、下一步分箱,最小的箱的占比低于设定的阈值(常用0.05)
2、下一步分箱后,该箱对应类别全部为0或者1
3、下一步分箱后,bad rate不单调
对应离散度很高的变量
1、编码
2、根据连续变量方式进行分箱
有序行的离散变量
监督室分箱法:卡方分箱法
自底向上(即基于合并的)的数据离散化方法。依赖于卡方检验;具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则
基本思想:对于精确的离散化,相对累频率在一个区间内应完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。
Best-KS(二分类情形下) ChiMerge (多分类情形下)
卡方分箱法:
1、预先设定一个卡方的阈值
2、根据要离散的属性实例进行排序:每个实例属于一个区间
3、合并区间:
(1)计算每一对相邻区间的卡方值
(2)将卡方值最小的一对区间合并
卡方分箱法
卡方阈值的确定
根据显著水平和自由度得到卡方值
自由度和类别数量小1.例如:有3类,自由度为2,则90%置信度(10%显著水平下),卡方的值为4.6
阈值的意义
类别和属性独立时,90%可能性,计算得到的卡方值汇小于4.6,这样,大于阈值的卡方值就说明属性和类不是相互独立的不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的数量少,区间大。
注意:
1、CHiMerge 算法推荐使用0.90,0.95,0.99置信度,最大区间取10到15之间
2、也可以不考虑卡方阈值,此时可以考虑最小区间或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间
3、对于类别型变量,需要分箱时需要按照某种方式进行排序
对于连续型变量:
使用ChiMerge进行分箱(默认5个)
检查分箱后bad rate的单调性,倘若不满足,需要进行相邻两箱的合并,直到bad rate为止
对于类别型变量:
当类别较少时,原则上不需要分箱
当某个或者几个类别的bad rate为0时,需要和最小的非0的bad rate的箱进行合并
当该变量可以完全区分目标变量时,需要认真检查该变量的合理性
无监督分箱法:等距划分、等频划分
等距划分:W=(B-A)/N
等频划分:每一箱的占比大致相同
WOE编码
一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值
优势
将特征的值规范到相近的尺度上(经验上讲,WOE的绝对值波动范围在0.1~3之间)
具有业务的含义
缺点
需要每箱中同时包含好坏两个类别
WOE编码的意义
符号与好样本的比例相关
要求回归模型的系数为负
特征信息度的计算和意义
变量挑选
在评分卡模型中,变量挑选是非常重要的工作
变量间的共线性,线性相关性
信息冗余、降低了显著性,甚至造成符号失真
加剧后期验证、部署、监控的负担
业务上含义不充分
变量挑选的依据
带约束:LASSO
特征重要性:随机森林
模型拟合优度和复杂度:基于AIC的逐步回归
变量信息度:IV
高IV表示该特征和目标变量的关联度高、目标变量只能是二分类、分箱越细、IV越高
单变量分析:
1、用IV检验有效性
2、连续变量bad rate的单调性(可以放宽到U型)
3、单一区间的占比不宜过高
多变量分析:变量的两两相关性,当相关性较高时,保留一个
可以选择iv高的、可以选择分箱均匀的
WOE相关性矩阵(基于IV>0.01的变量)
变量的多重共线性