【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_02

 

 

 

 

 团队介绍 

 

“Say what all late” 竞赛履历

 

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_03

 

 

赛题理解 1 

 

『用户贷款风险预测』赛题是由互联网金融行业领先企业,融360平台作为数据提供方,包括用户的基本属性、银行流水、信用卡账单记录、浏览行为、放款时间等数据信息。参赛者需要以此建立准确的风险控制模型,来预测用户是否会逾期还款。

 

领域知识

从业务领域知识出发,将人类理解的业务模式从数据中挖掘出来。

 

机器学习

先进的模型,充分结合优良的特征。

 

探索分析

从探索性数据分析出发,从数据中发掘出未知的业务领域知识。

 

 

赛题理解 2 

 

互联网金融处于起步阶段,而数据的重要性是无可估量的,为此企业需要花费大量的代价进行数据的收集。同时随着新数据源的接入以及模型的更新,整体的违约率是会和时间以及借贷量有负相关的。

 

1.违约率整体走势

融360平台作为一家国内领先的互联网金融科技企业,随着用户数据的积累,新数据源的接入,模型的优化等,违约率整体上是越来越低的。

 

2.贷款信息数据的来源

此次比赛提供的数据,是已经通过企业的风控模型筛选的数据,而根据我们的经验,企业风控模型是有时效性更新的。

 

3.违约率的人为因素

存在数据积累前期或者中间某个时间段,为了测试新模型上线,而对风控模型进行适当人为准入调整,例如小流量beta测试,或者短暂降低风控阀值。

 

 

赛题理解 3 

 

1.训练数据是严重倾斜的,大部分集中在后五十天。

 

2.违约率随着数据量的增多而逐渐平稳(数据清洗or平滑处理)。

 

3.通过计算后五十天的累计违约率,可以明显发现违约率是整体下降的。(加入先验特征)

 

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_04

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_05

 

 

 

 

 模型构建 

 

 

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_06

整体建模框架:level 3 stacking

 

 

Why Stacking

 

  1. 此次比赛数据本身的特性,在比赛初期我们尝试了5 bagging方式的训练,发现比使用全部数据更加有效。(数据在横向上存在差异)

     

  2. 团队构建了大量不同维度的特征,我们从另一个角度通过底层模型进行特征的差异性建模(元特征)。( 数据在纵向上存在差异)

     

  3. Stacking方法帮助我们团队在刚刚结束的CCF-国家电网用户用电异常比赛以极大的优势夺冠,我们团队对于使用复杂融合模型有一定的经验。

     

  4. 尽管单模型足够优秀(xgboost, 0.464+),从比赛角度讲融合进行的提升也值得去挖掘。

     

  5. 团队花费了大量时间在特征工程上,以及去寻找特征的合理性依据。

 

 

 

 

 实现流程 

 

 

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_07

由图可以看出Bank数据来自于同一采样(id.),因此尽管缺失占比较高,仍然可以提取有效特征。

 

 

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_08

在提取Bank特征的时候容易造成过拟合,从图中可以看出来很大可能是涉及到了loan_time相关的特征。

 

 

【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_09

 

 

特征提取 

 

基础特征

1.基本信息表项:年龄、性别、教育、户口等

2.信用卡账单表项:消费额、统计值特征等

3.浏览记录表项:总浏览次数、统计值特征等

 

时效性特征

1.借款最近一个月的特征:账单、浏览记录等

2. 借款最近三个月的特征:账单、浏览记录等

3.时间相关特征

 

其它特征

1.Stacking的level 2 特征

2.GBDT构建组合特征

3.PCA、t-SNE降维特征

 

 

3个要点 

 

1.建立良好线上-线下对应是赢得比赛的关键!

使用了5折CV验证,根据我们的实验结果,其线下与线上评估一致,这保证了我们团队专注于特征工程的构建。

 

2.我们构建了大量不同维度的特征,从多角度进行了特征选择,降低噪声。

单特征分析  (相关系数检验)

特征相似性检验(卡方分布、KS-test等)

模型嵌入选择 (GBDT特征重要性排序

 

3.良好的特征工程以及融合方法。

单模型xgboost已经取得不错的线上得分(0.463+),但团队继续通过模型融合,采用了stacking方式,通过差异模型的三层stacking构造使我们能够进一步提升得分。

 

 

 

 

 回顾与展望 

 

 

应用潜力与商业价值 

 

1.金融的本质是风险,而数据是互联网金融的核心。通过业务知识可以对建立优秀的风控模型起到先验的作用,而同样数据上的特征挖掘也可以对业务知识有独特的洞察

 

2.我们的模型是从业务与数据两个角度进行考量的,同时尝试使用了新的特征构建技巧,特征的可解释性也能满足具体业务上的风险控制以及归因逻辑。

 

3.然而比赛与实际的工业届还是存在一定差异的,为了取得名次,往往要付出很高的时间复杂性代价,而风控行业更加看重的是模型的稳定性以及特征可解释性。

 

 

总结与展望 

 

1.通过利用GBDT构建组合特征的方式,在牺牲小部分精度的情况下,我们构建出的几百维度可解释的新特征,利用LR模型就能达到可观的分数(0.43+)。

 

2.匿名数据的影响,限制了构建特征的能力,例如时间特征的加密,我们无法利用宏观经济指标数据,而在具体的工业界中是不存在这个问题的。

 

3.我们的模型仍然存在很多可以优化的部分,例如对于browse表现的挖掘,用户画像是一个值得深入的领域;对于组合交叉特征的构建,此次比赛并没有用到,而实际上经验表示,这是很值得挖掘的点。

 

 


【智慧中国杯】金融赛冠军分享,含PPT源文件_智慧中国杯_10