Kaggle
Kaggle是一个为机器学习提供数据集以及在线测评的网站。学算法时我们知道在OJ上面做题会很有帮助,那么同样的道理,学习机器学习的相关知识,刷相关的数据集,与大家进行交流,就显得很重要。
Kaggle的好处有以下几点:
1. 提供许多数据集,各种题材、各种格式、各种类型的数据集都有涉猎
2. 提供讨论区,大家可以在网站上面针对题目进行有针对性的讨论
3. 提供相关的代码分享,以及可视化分享区,帮助用户更好的理解数据,理解算法
好处
在Kaggle上面分析数据的好处是:
1. 可以避免闭门造车的境地。在同一个数据集上面,可以明确的看到自己所处的位置,自己的方法与标准方法相比、与其他人的方法相比,有多大的差距以及有哪些区别。
2. 可以比较不同的方法在同一个数据集上面的表现
3. 模型取得的成绩能够在很大程度上得到他人的认可
兴趣点
我在Kaggle上面的兴趣点在于两个方面,一个是社交网络分析,一个是机器视觉。 最近已经尝试过两个数据集,一个是MNIST手写数字识别,一个是Influencers in Social Networks。这两个都是相对较为基础的数据集,学界以及业界都有非常成熟的解决方案,取得了很好的效果。其中,MNIST数据集中去年有人在Kaggle上面得到了惊人的1.00的评测值,在这个数据的意义上来说已经登峰造极。做这两个数据集的目的在于考察自己掌握的机器学习方法的真实能力。如果读者有兴趣,也可以从这两个数据集开始做起。其中MNIST数据集本人采用SVM做Baseline,达到了0.982的评分,而使用CNN,达到了0.992的评分。Influencers数据集使用Baseline LogisticRegression达到了0.856的评分。