成为数据科学家!

事实上,你可以成为一名真正的数据科学家,且不需要掌握这些技能。NoSQL和MapReduce不是新概念————在这些关键词被创建之前,就有很多人接触到它们。但要成为一名数据科学家,你需要以下能力。

  • 敏锐的商业头脑。
  • 真正的大数据专业知识(例如,可以在几个小时内快速地处理一个5000万行的数据集)。
  • 认知数据的能力。
  • 对模型具有猜凝精神。
  • 了解大数据"诅咒"。
  • 有能力沟通并理解管理人员正在试图解决哪些问题。
  • 能正确评估付你工资所能带来的回报(ROI)或效益提升(lift)。
  • 能够快速地识别一个简单的、健壮的、可扩展性的解决方案。
  • 能够说服推动管理人员,即使不情愿,也要为了公司、用户和股东的利益,转到正确的方向上。
  • 真正热爱数据分析。
  • 成功案例的实际应用经验。
  • 数据架构知识。
  • 数据收集和清理技能。
  • 计算复杂度的基础知识一如何开发健壮的、商效的、可扩展的、可移植的架构。
  • 良好的算法知识。

数据科学家在商业分析、统计学和计算机科学等领域也是通才,比如会掌握这些专业知识:健壮性、实验设计、算法复杂度、仪表盘和数据可视化。一些数据科家也是数据策略师————他们可以开发数据收集策略,并使用数据来发现可操作的、能对商业产生影响的见解。这就要求数据科学家具有创造性,能根据业务要求,分析、提出解决方案。

要理解数据科学,所需的基本数学知识包括:

  • 代数,如果可能的话,包括基本矩阵理论。
  • 微积分入门课程。要掌握的理论不多,只需要理解计算的复杂度和o标记法即可。了解特殊函数,包括对数、指数、暴蹈数。微分方程、积分和复数不是必要的。
  • 统计与概览的入门课程,要了解随机变量、概率、均值、方差、百分位数、实验设计、交叉验证、拟合度和稳健统计的概念。

从技术的角度,要掌握的重要技能和知识有R、Python、Excel、SQL、图形(可视化)、FTP基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定时等),以及对如何设计和访问数据库有基本了解。了解分布式系统如何工作和在哪里能发现瓶颈(是在硬盘和内存之间的数据传输,还是在互联网上),这也很重要。最后,要了解网络爬虫基本知识,有助于获取互联网上能找到的非结构化数据。