金融风控数据挖掘-Task6
- 一、学习知识点概要
- 二、学习内容
- 1、部分难题
- 2、比赛结果
- 三、学习问题与解答
- 1、小数点的意义
- 四、学习思考与总结
一、学习知识点概要
本文为金融风控数据竞赛的最后一part,在不少的努力下提交了最终的结果,虽然排名不尽人意,但总归是努力的结果。
二、学习内容
1、部分难题
印象最深刻的是task3中的调参过程,所使用的调参方式为贝叶斯调参。
可以看到单是调参过程就花了大概80分钟,而后通过调整一个较小的学习率,使用cv函数确定最优的迭代次数。
中间过程前面已经提及,最终lgb的单模型ROC曲线如下。
2、比赛结果
理论上来说可以通过调lgb,xgb,cat的参数,找最优迭代次数等方法求出不同的test值,再用不同的模型融合方法(stacking,blending,甚至加权)对三种树模型进行融合,然后就是刷分的过程了,大概是这样,但此次由于时间问题,只完整做出了lgb以及部分的xgb模型,然后通过简单的加权得到了最终的结果。
三、学习问题与解答
1、小数点的意义
第一次参加这种数据挖掘比赛,赛前其实一直都有一个问题,类似kaggle这种比赛,选手们多半有一个特殊的爱好,那就是刷排名,通过不断提交新结果,在小数点上做文章,不可否认,一个好的排名能从一定意义上体现一个选手的能力,或者说一个团队的能力,但是,如果在赛后对于这个比赛过程没有一个好的总结,可能有点索然无味的感觉。
四、学习思考与总结
赛前就看到了官方对于此次比赛的难度定义为中,整个过程下来也发现其实难度介于低到中之间,当然如果要研究透不同模型,模型融合等难题那就不止这个难度了,此次比赛,lgb的单模型就可以得到一个不错的分数,显然相当照顾新手,这也是为什么说比赛的完成、结果的提交难度介于低到中之间。