金融风控数据挖掘-Task6

  • 一、学习知识点概要
  • 二、学习内容
  • 1、部分难题
  • 2、比赛结果
  • 三、学习问题与解答
  • 1、小数点的意义
  • 四、学习思考与总结


一、学习知识点概要

本文为金融风控数据竞赛的最后一part,在不少的努力下提交了最终的结果,虽然排名不尽人意,但总归是努力的结果。

二、学习内容

1、部分难题

印象最深刻的是task3中的调参过程,所使用的调参方式为贝叶斯调参。

金融数据挖掘心得体会 金融行业数据挖掘_风控


可以看到单是调参过程就花了大概80分钟,而后通过调整一个较小的学习率,使用cv函数确定最优的迭代次数。

金融数据挖掘心得体会 金融行业数据挖掘_迭代_02


中间过程前面已经提及,最终lgb的单模型ROC曲线如下。

金融数据挖掘心得体会 金融行业数据挖掘_数据挖掘_03

2、比赛结果

理论上来说可以通过调lgb,xgb,cat的参数,找最优迭代次数等方法求出不同的test值,再用不同的模型融合方法(stacking,blending,甚至加权)对三种树模型进行融合,然后就是刷分的过程了,大概是这样,但此次由于时间问题,只完整做出了lgb以及部分的xgb模型,然后通过简单的加权得到了最终的结果。

金融数据挖掘心得体会 金融行业数据挖掘_金融数据挖掘心得体会_04

三、学习问题与解答

1、小数点的意义

第一次参加这种数据挖掘比赛,赛前其实一直都有一个问题,类似kaggle这种比赛,选手们多半有一个特殊的爱好,那就是刷排名,通过不断提交新结果,在小数点上做文章,不可否认,一个好的排名能从一定意义上体现一个选手的能力,或者说一个团队的能力,但是,如果在赛后对于这个比赛过程没有一个好的总结,可能有点索然无味的感觉。

四、学习思考与总结

赛前就看到了官方对于此次比赛的难度定义为中,整个过程下来也发现其实难度介于低到中之间,当然如果要研究透不同模型,模型融合等难题那就不止这个难度了,此次比赛,lgb的单模型就可以得到一个不错的分数,显然相当照顾新手,这也是为什么说比赛的完成、结果的提交难度介于低到中之间。