成为数据科学家!
事实上,你可以成为一名真正的数据科学家,且不需要掌握这些技能。NoSQL和MapReduce不是新概念————在这些关键词被创建之前,就有很多人接触到它们。但要成为一名数据科学家,你需要以下能力。
- 敏锐的商业头脑。
- 真正的大数据专业知识(例如,可以在几个小时内快速地处理一个5000万行的数据集)。
- 认知数据的能力。
- 对模型具有猜凝精神。
- 了解大数据"诅咒"。
- 有能力沟通并理解管理人员正在试图解决哪些问题。
- 能正确评估付你工资所能带来的回报(ROI)或效益提升(lift)。
- 能够快速地识别一个简单的、健壮的、可扩展性的解决方案。
- 能够说服推动管理人员,即使不情愿,也要为了公司、用户和股东的利益,转到正确的方向上。
- 真正热爱数据分析。
- 成功案例的实际应用经验。
- 数据架构知识。
- 数据收集和清理技能。
- 计算复杂度的基础知识一如何开发健壮的、商效的、可扩展的、可移植的架构。
- 良好的算法知识。
数据科学家在商业分析、统计学和计算机科学等领域也是通才,比如会掌握这些专业知识:健壮性、实验设计、算法复杂度、仪表盘和数据可视化。一些数据科家也是数据策略师————他们可以开发数据收集策略,并使用数据来发现可操作的、能对商业产生影响的见解。这就要求数据科学家具有创造性,能根据业务要求,分析、提出解决方案。
要理解数据科学,所需的基本数学知识包括:
- 代数,如果可能的话,包括基本矩阵理论。
- 微积分入门课程。要掌握的理论不多,只需要理解计算的复杂度和o标记法即可。了解特殊函数,包括对数、指数、暴蹈数。微分方程、积分和复数不是必要的。
- 统计与概览的入门课程,要了解随机变量、概率、均值、方差、百分位数、实验设计、交叉验证、拟合度和稳健统计的概念。
从技术的角度,要掌握的重要技能和知识有R、Python、Excel、SQL、图形(可视化)、FTP基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定时等),以及对如何设计和访问数据库有基本了解。了解分布式系统如何工作和在哪里能发现瓶颈(是在硬盘和内存之间的数据传输,还是在互联网上),这也很重要。最后,要了解网络爬虫基本知识,有助于获取互联网上能找到的非结构化数据。