搞Kaggle比赛也有几个月了,虽然前前后后拖拖但是也是复现过不少比赛的。感觉思路可以总结一下。

1.数据读取。一般数据格式都是以CSV格式的,但是也不排除TXT,JSON格式。所以熟悉pandas和numpy库就极为重要,最后得到预测结果也需要pandas库。

2.数据处理。

(1)使用pandas库等等对数据进行合理的预处理,增删改查属性,对于文本特征可以用sklearn.featuretion.text去创造。

(2)同时使用sklearn库的preprocessing包进行处理

3.建模

选择各种各样的模型进行建模,转化成机器学习问题。

4.进行预测

使用合理指标进行衡量。

5.得到结果。