基本步骤:
*数据分析和可视化 (10%时间)
*异常值和波动值处理,数据采样(也需要尝试方法的效果)
*feature工程是不断尝试的过程,最后自己能不能到 榜单主要靠的是特征,尝试各种特征,有些特征是起反效果的,要出去掉,之外就是加特征,各种加和各种尝试,在预处理数据之后,对数据特征的不断不断尝试(尝试特征效果) (%40时间, 最后能不能占据排行榜,往往都是看加了多少有用的feature【不断思考加入新feature,排列组合】,反复尝试过程,特征工程和模型是相互影响,对模型没多少用的feature【不相关】,要尝试去掉,看模型会不会有提升)
*花时间尝试各种各样模型,把各种模型都调到最好的参数(使用网格搜索等手段,会点数学知识,防止自己盲目调参), 作为以后融合的依据 (40%时间建立模型,根据数据特性找model,往往是多个队友都建立模型, 对model都不断进行调整,最后进行模型融合时候因为之间的独立性融合下来会有效果上的提升)
*最后是对各种模型进行排列组合。进行融合,这也是各种尝试。 (模型融合是导致最后排行榜波动的原因,最后的模型越来越复杂导致变量非常大, 还有模型的融合也是大家喜欢组队打比赛的原因,因为把不同队友的调到最好的model, 把model再进行各种排列组合, 这种排列组合也是需要各种尝试的,要花一定时间,可以看看天池的答辩,有的融合10个模型 stacking model)
总结下来: 反反复复做数据观察, 反反复复增增剪剪特征(需要领域知识和运气), 反复尝试各种各种模型(看论文、博客、别人比赛用的,以往类似的),模型各种形式的融合组合训练, 很重要的是自己要进行各种各样的尝试,所以工程代码量会很大。