金融数据挖掘心得体会金融行业数据挖掘

转载

mob64ca1419a401 2024-01-11 13:25:22

文章标签 金融数据挖掘心得体会数据挖掘迭代风控 文章分类 数据挖掘人工智能

金融风控数据挖掘-Task6

一、学习知识点概要
二、学习内容

1、部分难题
2、比赛结果

三、学习问题与解答

1、小数点的意义

四、学习思考与总结

一、学习知识点概要

本文为金融风控数据竞赛的最后一part，在不少的努力下提交了最终的结果，虽然排名不尽人意，但总归是努力的结果。

二、学习内容

1、部分难题

印象最深刻的是task3中的调参过程，所使用的调参方式为贝叶斯调参。

金融数据挖掘心得体会金融行业数据挖掘_风控

可以看到单是调参过程就花了大概80分钟，而后通过调整一个较小的学习率，使用cv函数确定最优的迭代次数。

金融数据挖掘心得体会金融行业数据挖掘_迭代_02

中间过程前面已经提及，最终lgb的单模型ROC曲线如下。

金融数据挖掘心得体会金融行业数据挖掘_数据挖掘_03

2、比赛结果

理论上来说可以通过调lgb，xgb，cat的参数，找最优迭代次数等方法求出不同的test值，再用不同的模型融合方法（stacking，blending，甚至加权）对三种树模型进行融合，然后就是刷分的过程了，大概是这样，但此次由于时间问题，只完整做出了lgb以及部分的xgb模型，然后通过简单的加权得到了最终的结果。

金融数据挖掘心得体会金融行业数据挖掘_金融数据挖掘心得体会_04

三、学习问题与解答

1、小数点的意义

第一次参加这种数据挖掘比赛，赛前其实一直都有一个问题，类似kaggle这种比赛，选手们多半有一个特殊的爱好，那就是刷排名，通过不断提交新结果，在小数点上做文章，不可否认，一个好的排名能从一定意义上体现一个选手的能力，或者说一个团队的能力，但是，如果在赛后对于这个比赛过程没有一个好的总结，可能有点索然无味的感觉。