【智慧中国杯】金融赛冠军分享，含PPT源文件

原创

DataCastle数据城堡 2021-07-27 11:26:02 ©著作权

文章标签 智慧中国杯 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者DataCastle数据城堡的原创作品，请联系作者获取转载授权，否则将追究法律责任

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_02

团队介绍

“Say what all late” 竞赛履历

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_03

赛题理解 1

『用户贷款风险预测』赛题是由互联网金融行业领先企业，融360平台作为数据提供方，包括用户的基本属性、银行流水、信用卡账单记录、浏览行为、放款时间等数据信息。参赛者需要以此建立准确的风险控制模型，来预测用户是否会逾期还款。

领域知识

从业务领域知识出发，将人类理解的业务模式从数据中挖掘出来。

机器学习

先进的模型，充分结合优良的特征。

探索分析

从探索性数据分析出发，从数据中发掘出未知的业务领域知识。

赛题理解 2

互联网金融处于起步阶段，而数据的重要性是无可估量的，为此企业需要花费大量的代价进行数据的收集。同时随着新数据源的接入以及模型的更新，整体的违约率是会和时间以及借贷量有负相关的。

1.违约率整体走势

融360平台作为一家国内领先的互联网金融科技企业，随着用户数据的积累，新数据源的接入，模型的优化等，违约率整体上是越来越低的。

2.贷款信息数据的来源

此次比赛提供的数据，是已经通过企业的风控模型筛选的数据，而根据我们的经验，企业风控模型是有时效性更新的。

3.违约率的人为因素

存在数据积累前期或者中间某个时间段，为了测试新模型上线，而对风控模型进行适当人为准入调整，例如小流量beta测试，或者短暂降低风控阀值。

赛题理解 3

1.训练数据是严重倾斜的，大部分集中在后五十天。

2.违约率随着数据量的增多而逐渐平稳（数据清洗or平滑处理）。

3.通过计算后五十天的累计违约率，可以明显发现违约率是整体下降的。（加入先验特征）

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_04

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_05

模型构建

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_06

整体建模框架：level 3 stacking

Why Stacking

此次比赛数据本身的特性，在比赛初期我们尝试了5 bagging方式的训练，发现比使用全部数据更加有效。（数据在横向上存在差异）
团队构建了大量不同维度的特征，我们从另一个角度通过底层模型进行特征的差异性建模（元特征）。（数据在纵向上存在差异）
Stacking方法帮助我们团队在刚刚结束的CCF-国家电网用户用电异常比赛以极大的优势夺冠，我们团队对于使用复杂融合模型有一定的经验。
尽管单模型足够优秀（xgboost, 0.464+），从比赛角度讲融合进行的提升也值得去挖掘。
团队花费了大量时间在特征工程上，以及去寻找特征的合理性依据。

实现流程

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_07

由图可以看出Bank数据来自于同一采样(id.)，因此尽管缺失占比较高，仍然可以提取有效特征。

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_08

在提取Bank特征的时候容易造成过拟合，从图中可以看出来很大可能是涉及到了loan_time相关的特征。

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_09

特征提取

基础特征

1.基本信息表项：年龄、性别、教育、户口等

2.信用卡账单表项:消费额、统计值特征等

3.浏览记录表项：总浏览次数、统计值特征等

时效性特征

1.借款最近一个月的特征：账单、浏览记录等

2. 借款最近三个月的特征：账单、浏览记录等

3.时间相关特征

其它特征

1.Stacking的level 2 特征

2.GBDT构建组合特征

3.PCA、t-SNE降维特征

3个要点

1.建立良好线上-线下对应是赢得比赛的关键！

使用了5折CV验证，根据我们的实验结果，其线下与线上评估一致，这保证了我们团队专注于特征工程的构建。

2.我们构建了大量不同维度的特征，从多角度进行了特征选择，降低噪声。

单特征分析（相关系数检验）

特征相似性检验（卡方分布、KS-test等）

模型嵌入选择（GBDT特征重要性排序

3.良好的特征工程以及融合方法。

单模型xgboost已经取得不错的线上得分(0.463+),但团队继续通过模型融合，采用了stacking方式，通过差异模型的三层stacking构造使我们能够进一步提升得分。

回顾与展望

应用潜力与商业价值

1.金融的本质是风险，而数据是互联网金融的核心。通过业务知识可以对建立优秀的风控模型起到先验的作用，而同样数据上的特征挖掘也可以对业务知识有独特的洞察

2.我们的模型是从业务与数据两个角度进行考量的，同时尝试使用了新的特征构建技巧，特征的可解释性也能满足具体业务上的风险控制以及归因逻辑。

3.然而比赛与实际的工业届还是存在一定差异的，为了取得名次，往往要付出很高的时间复杂性代价，而风控行业更加看重的是模型的稳定性以及特征可解释性。

总结与展望

1.通过利用GBDT构建组合特征的方式，在牺牲小部分精度的情况下，我们构建出的几百维度可解释的新特征，利用LR模型就能达到可观的分数（0.43+）。

2.匿名数据的影响，限制了构建特征的能力，例如时间特征的加密，我们无法利用宏观经济指标数据，而在具体的工业界中是不存在这个问题的。

3.我们的模型仍然存在很多可以优化的部分，例如对于browse表现的挖掘，用户画像是一个值得深入的领域；对于组合交叉特征的构建，此次比赛并没有用到，而实际上经验表示，这是很值得挖掘的点。

【智慧中国杯】金融赛冠军分享，含PPT源文件_智慧中国杯_10

上一篇：“智慧中国杯”初赛提交截止，排名确定

下一篇：百度 AI 大会上李彦宏遭泼水，肇事者微博疑曝光

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯