是什么让数据科学成为一个性感的行业?当把海量数据注入到新兴行业中,并随之而涌现的大量令人兴奋的新技术。


例如语音识别、计算机视觉中的物体识别、机器人和自动驾驶、生物信息学、神经科学、系外行星的发现和对宇宙起源的理解、以及组建廉价且成功的棒球队。


在这些例子中,数据科学家就是整个企业的核心。他/她必须将应用领域的知识与统计专业知识相结合,并用计算机代码来实现他们。


归根结底,数据的性感体现在效用上。我最近读了塞巴斯蒂安·古铁雷斯(Sebastian Gutierrez)的“工作中的数据科学家”(Data Scientists at Work),他采访了16个不同行业的16位数据科学家,了解他们的思考方式,他们在如何解决问题,以及数据分析和挖掘如何提升和帮助他们所在的行业


他们都是数据挖掘的一线工作者,涵盖公共和私人组织 - 从创业公司、成熟企业到初期研究机构、人道主义非营利组织 - 并且跨越多个行业 - 广告、电子商务、电子邮件营销、企业级云计算、时尚、工业互联网、互联网电视和娱乐、音乐、非营利组织、神经生物、报纸和媒体、专业和社交网络、零售、销售情报和风险投资。


值得一提的是塞巴斯蒂安提出的开放式的问题,让每个受访者的个性和自发的思维过程都能够清晰准确地表达出来。受访者们在书中分享了下面几个主题 :数据科学对他们意味着什么以及他们是如何思考的,如何进入这个领域的建议,数据科学家想要成功必须深刻理解的悟性


在这篇文章中,我想分享一下这些数据科学家给出的最佳答案:

“What advice would you give to someone starting out in data science?”


“你会给数据科学新手们提供什么建议?”


1 - Chris Wiggins

“纽约时报”首席数据科学家,哥伦比亚应用数学副教授

“首先是创造力耐心。 你必须真正喜欢某件事,才会花长时间去思考这件事情,当然还要有一定程度的质疑精神。 这也就是我喜欢博士生的一点 - 对于他们来说五年的时间足够有所发现,并让其发现并意识到一路上所有做错的事情。


在思想上反复斟酌会给你带来很大的帮助,你或许从“发现可推翻旧理论的新理论”到“实际上自己把整个完全搞砸了”,从而犯下一系列的错误再到逐个修复它们。从理论上讲, 我认为获得博士学位的过程是很有用的,特别是科学研究,这个过程会让你对看起来像一个确定的东西持续保持怀疑。 


我认为这很有用,否则你很容易只是因为你第一眼觉得这条路非常可行,而就会走上错误的道路。


虽然这个答案看似无聊,但事实上是需要你有真正的技术深度。 数据科学不是一个独立学科,所以目前还没有相关资历资质可谈。对机器学习达到维基百科程度的理解是非常容易的。然而实际上要做到这一点,你应当知道如何选择正确的工具并正确的完成它,这你需要很好地理解每个工具的所有优劣。 这种经验没有捷径。 你必须犯很多错误。 你必须自已发现误将分类问题看成一个聚类问题,或聚类问题当做假设检验问题。


一旦你去尝试一些事情,确信那是正确,但最后发现自已彻底错了。你会有很多次这种经验 - 你不得不一直在这个状态下打转,更不幸的是这种经验的积累没有捷径可走。


你只需要这样做,不断地犯错误。这是我喜欢在这个领域中工作了许多年的人的另一个原因。要成为一名专家需要很长时间。 这需要多年的错误。 这是几个世纪以来的真理。著名的物理学家尼尔斯·玻尔(Niels Bohr)有句名言,他认为你成为一个领域的专家的方式就是要在这个领域犯下每一个错误。”


2 -Caitlin Smallwood

 Netflix科学与算法副总裁

“我会说在你做任何其他事情之前,先硬着头皮来理解数据的基础知识,尽管它不够性感也不好玩。


换句话说,你需要努力理解如何捕获数据,准确理解每个数据字段是如何定义的,以及了解数据何时丢失。 如果数据丢失,这是否意味着什么? 它只是在某些情况下丢失? 这些小小的微妙数据陷阱真的会困住你, 他们真的会。


你可以使用最复杂的算法,但它是比垃圾还垃圾的东西。 无论你有多兴奋地去尝试建模中有趣的地方,你都不能对原始数据视而不见。 在你开始模型开发之前,应该做到一丝不苟,然后检查你所能得到的底层数据的一切。


随着时间的推移,我学到的另外一件事情是,在一个系统环境中,复合算法总是比单一算法好,因为不同的技术会利用数据模式的不同方面,特别是在复杂的大型数据集中。 所以虽然你可以仍然采取一个特定的算法,迭代再迭代,使它更好,但据我所知多算法的组合往往比一个算法做得更好。”


3 - Yann LeCun

脸书AI研究总监,纽约大学数据科学/计算机科学/神经科学教授

“我总是给出同样的建议,因为我经常被问到这个问题。 如果你是一名本科生,想学习数据科学,你可以尽可能多地参加数学和物理课程


值得注意的事,这些必须是合适的课程。可能我将要说的听起来似是而非,但选择工程学或物理学可能比数学,计算机科学或经济学更合适。


当然你需要学习编程,所以你需要学习大量的计算机科学课程,了解编程的机制。 然后再做一个数据科学有关的研究生课程。 本科学习机器学习、人工智能、或计算机视觉课程,因为你需要接触到这些技术。 在那之后,尽可能地参于所有的数学和物理课程。 特别是像优化算法这样的连续应用数学课程,因为他们让你为真正具有挑战性的事情做好准备。


这取决于你想成为什么,因为在数据科学或人工智能的领域有许多不同的工作。人们应该认真思考他们想做什么,然后研究这些课题。 现在热门话题是深度学习,它主要是学习和理解神经网络上的经典著作,学习优化算法,学习线性代数和类似的课题。 这有助于你了解我们每天面对的基本数学技巧和基本概念。


4 - Erin Shellman

Zymergen的数据科学经理,Nordstrom数据实验室和AWS S3的前数据科学家

“对于那些还没有选择专业的学生,我会说科学、技术、工程和数学专业(STEM)是不需要动脑筋的,特别是技术、工程和数学专业。学习这些专业会为你提供测试和了解这个世界的工具。


这就是我所了解的数学、统计学和机器学习。 我对数学本身并不感兴趣,我有兴趣用数学来描述事物。 毕竟这些都是工具,所以即使你对数学或统计学不感兴趣,投资它们仍然是非常值得的,想想如何将它应用到你真正热爱的事情上。


对于像我这样试图转型的人来说,我想说有些地方很难。 请注意,改变行业是很困难的,你将不得不努力工作。 这不是数据科学的独特之处 - 生活亦是如此。 在这个领域举目无亲是艰难的,但你可以在咖啡时间和慷慨的人们讨论这些。 我生活中的头号规则是“跟进(follow up)”,积极的探寻正确的答案。如果你跟某人聊天,他身上有你需要和看 重的东西,请跟进!


数据科学家的文章可能会相当吓人,因为大部分像是在读数据科学词汇表一样。 事实上技术变化如此之快,以至于没有任何人有能力把所有内容写在一篇文章里。 当你看到这样的文章时,它的语风可能是压倒性的,你可能会觉得:“这不适合我。 我没有文中谈到的这些技能,我也没有什么可以跟进和贡献的。”只要你随时可以接受改变和学习新事物,你就可以避免这样的观念模式。


最后要说的是,公司想要的是一个能严格的界定问题,并设计出解决方案的人。 他们也需要善于学习的人。 我认为这些都是核心技能。”



5 - Daniel Tunkelang

Twiggle的首席搜索专员,LinkedIn的搜索质量前主管。

“对于来自数学专业或物理专业的人,我建议是学习软件开发等相关技能 - 尤其是Hadoop和R,它们是使用最广泛的工具。 来自软件工程的人应该学习机器学习相关的课程 ,并且使用真实的数据进行项目的开发,你可以找到许多免费的资源。 正如大部分人所说,成为数据科学家的最好方法是做数据科学实践。只要数据在那里,数据科学并不难学,特别是数学、科学或工程专业的人。


阅读“The Unreasonable Effectiveness of Data” - Google研究人员Alon Halevy,Peter Norvig和Fernando Pereira的一篇经典文章。 这篇文章通常被归纳为“更多的数据胜过更好的算法”。这是值得一读的好文,它介绍了使用网络规模的数据改进语音识别和机器翻译的最新成果。 另外听听莫尼卡·罗加蒂(Monica Rogati)对于更好的数据如何击败更多的数据所说的话。 理解内化这两个见解有助于你成为一名真正的数据科学家。”


6 - John Foreman

MailChimp产品管理副总裁兼前首席数据科学家

“我发现很难找到和聘用合适的人,这真是一件复杂的事情。因为当我们思考大学教育系统是什么时,无论对于是本科生还是毕业生,都只关注一件事情:你的本行专业。 但是数据科学家就像新文艺复兴时期的各色人物一样,本质上数据科学就是多学科的


数据科学家比计算机程序员知道更多统计知识,并且比统计学家更懂编程,这个大笑话就是这样产生的。


这个笑话是什么意思? 这就是说一个数据科学家是一个对这两门学科都只了解一点点的人。 但是我可以说,他们知道的不仅仅是这两个学科。 他们还必须知道如何交流沟通, 他们需要知道的不仅仅是初级统计学; 他们必须知道概率论、组合数学和微积分等等。


还不能不懂数据可视化。 他们还需要知道如何使用数据,使用数据库,甚至还需要懂点面向对象(OR)。 还有很多事情他们需要有所了解。 所以很难聘用到这样一类人,因为他们必须触及很多学科,他们必须能够聪明地讲述出他们的经验。 对于任何申请人来说,它的门槛都很高。


聘请到一个人需要很长时间,这就是为什么我认为人们一直在讨论现在数据科学方面没有足够的人才的原因。 我认为这在一定程度上是正确的。


我认为一些正在启动的课程将会有所帮助。 但是即使是从这些课程中走出来,在MailChimp,我们也需要看到你如何表达并和我们沟通的,你是如何使用在各个学科中学习数据科学片断的,以及这些课程教会了你哪些。 这是要清除这么多人的东西。 我希望更多的项目将重点放在作为工作场所数据科学家的沟通和协作方面。”


7 - Roger Ehrenberg

IA 创投管理合伙人

“我认为最大的机遇也是最大的挑战。 在个人身份信息隐私问题方面,医疗数据显然是最大问题。


除此之外,还有僵硬的官僚主义、僵化的基础设施和数据孤岛,这使得需要跨多个数据集进行集成的难题愈发复杂。 这是会发生的,而且我认为我们在这里谈到的技术与使医疗保健更好、更实惠、更分散直接相关。 我认为这代表了一代人的机遇。


早期的人工智能另一个重要的领域是风险管理 - 无论是在金融、贸易还是保险。如果说是在风险评估模型中添加新数据集,这就是一个很难的问题。特别是将这些技术应用到保险、卫生保健行业。这会涉及到大量的隐私问题,数据也被禁锢在大型官僚机构中。


那时这些冥顽不灵的公司为了使用这些新技术,正在探索如何和新兴产业互利互惠。这是令我兴奋的另一个原因。


使我充满激情的第三个原因是重塑制造业,使它更高效。已经出现了为制造业开了方便之门的趋势。在美国一个更强大的制造业可能是重建一个充满活力的中产阶级的桥梁。我认为技术可以帮助加速这一有利的趋势。”


8 - Claudia Perlich  

Dstillery首席科学家

我认为,实际上学习如何成为数据科学家就像学习滑雪一样。 你必须要去滑。 你可以观看足够多的视频,并观察滑雪是如何滑起来的。 在一天结束的时候,你必须穿上你该死的滑雪板,然后沿着那个山丘滑下去。 你会在途中摔倒几次,这很好。 那是你需要的学习经验。 实际上我更倾向于向应聘者询问他曾进展不顺利的工作,而不是那些做过的事情。因为这能可以告诉我他们在这个过程中学到了什么。


每当有人问我“我该做什么?”时,我会说:“你可以参加机器学习技术的在线课程。 毫无疑问,这是有用的。 你显然必须会编程,至少懂点。 你不必是一个Java程序员,但你必须以某种方式完成某件事情。 我基本不在乎你是如何做到的。”


最后无论是作为DataKind的志愿者在NGO上花时间去帮助大家,还是去Kaggle的网站参加一些数据挖掘比赛 - 只管让雪湿了你的手和脚。


尤其是在Kaggle上,请阅读其他人在论坛上关于问题的讨论,因为那是你学习人们在做什么,怎样子有用,以及哪些对他们没有用的地方。 所以即使你没有为此付钱,实际上涉及数据处理的任何事情都是一件好事。


记住你必须滑下那座山,没有其他办法了。 你不能学习旁门左道。 所以奉献你的时间,以任何你能想到的方式把你的手弄脏,如果你有机会实习 - 那非常完美。 也许你有很多机会可以从其他地方开始。 总之说做就做吧。”



9 - Jonathan Lenaghan

首席科学家,PlaceIQ产品开发高级副总裁。

“首先,会自我批评是非常重要的:


总是质疑你的假设,对你的结果保持怀疑。这是很容易的部分。如果要在数据科学领域有所成功,在应具备的技能方面中,具备良好的软件工程技能是至关重要的。


所以,尽管我们可能会聘请那些几乎没有编程经验的人,但是我们很努力地并且很快地灌输他们软件工程的重要性,包括软件工程实践和大量的敏捷编程实践。无论对他们还是我们都是有帮助的,因为现在这些工程实践几乎都和数据科学有着一对一的对应。


现在如果你看看开发工具,他们有持续集成、持续构建、自动化测试和测试工具等等 - 所有这些从开发者世界到数据操作系统(我从Red Monk偷来的一个概念)世界都是非常友好、非常容易的。 我认为这是一个非常强大的概念。


为你的数据创建测试框架非常重要。如果您更改了代码,则可以返回并测试所有数据。 可见拥有软件工程学思想对数据科学领域的高速发展至关重要。


比起阅读机器学习的书籍,阅读‘Code Complete’和 ‘The Pragmatic Programmer’ 可以让你走得更远。当然阅读机器学习的书籍也是必须的。”


10 - Anna Smith 

Spotify的高级数据工程师,Rent the Runway 分析工程师

“如果有人刚刚开始从事数据科学工作,最重要的是要知道问大家问题没有什么不好的。我也认为谦逊是非常重要的。你必须确保你没有被束缚在你正在做的事情中。 您可以随时进行更改并重新开始。 当我们开始后删除代码真的很难,但最重要的是说做就做。


即使你没有数据科学方面的工作,你仍然可以在你的闲暇时间探索数据集,并可以向你的数据提出问题。


在我个人的时间里,我玩过Reddit的数据。 我问自己:“我可以用我有或没有的工具来研究Reddit,我可以做些什么?”这很好,因为一旦你开始了,就可以看到其他人是如何处理同样的问题的。


只要用你的内心去阅读别人的文章,就像“我可以用我的方法使用这个技巧”。慢慢地开始,慢慢地有所进展。 我在开始的时候读了许多文章,但是我认为这并没有什么帮助,除非你真正使用代码和数据来了解它是如何工作的,以及它是如何改进的。 当人们把它写在书里的时候,看似一切都很完美。 然而事实并非如此。


我觉得尝试很多不同的东西也是非常重要的。 我不认为我曾经想到我会在这里。我也不知道五年后我会在哪里。但是也许这就是我学习的方法,在各种不同的学科间尝试各类事情来理解哪些东西最适合我。”


11 - Andre Karpistsenko

Taxothe数据科学主管,PlanetOS联合创始人兼研究主管

“虽然有点泛泛的建议,但我相信你应该相信自己,并且追随你的激情。 我认为媒体的新闻和期望很容易让你分心,并让你选择一个不想去的方向。 所以说到数据科学,你应该把它看作是你职业生涯的起点。


拥有数据科学相关的背景对你在任何事情上都是有益的。拥有创建软件的能力以及使用统计数据的能力将使你能够在你从事的任何领域做出更明智的决策。 例如,我们可以通过数据了解运动员的表现是如何提高的,比如某人成为跳远金牌得主,因为他们做了优化并在跳跃的角度等反复练习。 这一切都是以数据驱动的方式引领体育。


如果需要我提供更具体的技术建议,那么这取决于接受建议的人的抱负了。 如果这个人想要创造新的方法和工具,那么建议就会非常不同。 你需要坚持并继续朝着你的方向前进,并且你会成功的。 但是如果你想要多才多艺,并且适应多种环境,那么你可能需要一个集合不同方法算法的大工具箱。


我收到最好的建议是来自一个斯坦福大学的教授。我不久前学习过他的课程,他建议要成为一个T型人才,即横向多专业多系统,纵向的核心竞争力表示至少深入一个专业或系统,但是在核心竞争力旁边要有一个小的第二能力,这样在你需要或者想要的情况下,你总可以选择另一条人生路线。


除了纵向单一领域的专业知识之外,他建议你有足够宽阔的横向背景,以便在诸多的不同情况下与许多不同的人一起工作。


所以在大学期间,建立一个T型能力辅以一个次要能力可能是最好的选择。


也许最重要的事情就是在比你更牛的人身边一起工作,向他们学习,这是我最好的建议。 在大学里,是能看到人的多样化能力的最好环境。 如果你能够与最优秀的人一起工作,你会在很多事情上收获成功的。”


12 - Amer Heineike

Primer技术副总裁AI,Quid数学前任主管

我想也许他们需要先审视自己,搞清楚他们真正关心的是什么。 他们想做什么? 现在数据科学是一个热门话题,所以我觉得有很多人认为如果能够拥有“数据科学”的标签,那么魔法、快乐和金钱就会滚滚而来。


所以我真的建议搞清楚你真正关心的是哪种数据科学。 这是你应该问自己的第一个问题。 然后你要想方设方搞清楚如何熟练的做到做好。 你也需要开始考虑那些真正使你感兴趣的工作。


一种策略是深入到你需要知道的那部分。在我们的团队中有自然语言处理的博士,或者物理学博士,他们使用了许多不同的分析方法。 所以你可以深入到一个领域,然后找到那些认为这类问题重要的人或有类似问题的人,以便用同样的思维来解决。 所以这是一个途径。


另一种途径就是要用于尝试。数据集随处可见。试着想一下,在现在的工作中是否有可用的数据,可以用有趣的方式去处理。


要想方设法去尝试一下,看看你真的想做什么。即使在家里你仍然可以得到开放的数据集。 随便在数据中翻一翻,看看你能找到什么,然后随意地摆弄它。 我认为这是一个很好的起点。 现在有很多不同的角色都以“数据科学”自居,而且还有很多角色可能你也觉得属于“数据科学”范畴,但却没有添上数据科学的标签,因为人们并不一定需要使用它。总之,想想你真正想要的是什么



13 - Victor Hu

QBE保险公司数据科学负责人,Next Sound Sound公司前首席数据科学家

首先是你一定要会讲故事。 在一天结束的时候,你所做的就是深入挖掘一个系统、组织或行业的最核心和最重要的信息。 然而要想让大家知道和了解它的用途,你就必须要讲好一个故事。


能够写清楚你在做什么和说清楚你的工作内容是非常关键的。另外值得一提的是,你应该少担心你正在使用的算法。 更多的数据或更好的数据胜过一个更好的算法,所以如果你能创建一种方法来分析和获得大量优质、干净且有价值的数据 - 那就太好了!”


14 - Kira Radinsky

eBay首席科学家兼数据科学主管,Sales-Pre-CTO和联合创始人

寻找一个让你为之兴奋的问题。 对我来说,每当我开始了解新事物时,要是没有带着问题只是一味地学习,就真的很无聊。先尽可能快速地阅读相关材料,在工作的过程中开始了解其中的内容和你的问题,很快你就能发现问题之所在。这将引导去探索其他学习资源,无论是书籍、论文还是某人。 所以把时间花在问题和人的身上,你会感到轻松自在的。


深入了解基础知识。 了解一些基本的数据结构和计算机科学。 了解与你使用工具的相关基础知识,理解他们背后的数学原理,而不仅仅是知道如何使用它们。理解模型输入和输出以及内部究竟发生了什么,否则你将不知道什么时候该应用它。 另外这取决于你正在处理的问题。


为了处理许多不同的问题,有很多不同的工具可以使用。 你必须知道每个工具能做什么,而且你必须十分了解问题,才能应用更合适的工具和技术去解决。”


15 - Eric Jonas

UC Berkeley EECS博士后,Salesforce首席预测科学家

他们应该来回反复地去理解概率理论。我现在了解到所有我学过的东西,最后都会再回到概率论。这当然很好,因为概率论为我提供了一个令人惊奇的、深刻且丰富的数学基础,我可以把其他的知识都通过概率论来理解。


E. T. Jaynes的书Probability Theory: The Logic of Science,相当于是我们的圣经。 我有很多购买它的理由。我喜欢概率生成方法的原因是你有两个正交轴 - 建模轴和推理轴。 这基本上转化为如何表达我的问题,以及如何计算给出数据的概率假设? 从贝叶斯的角度来看,我喜欢的是你可以独立设计每个轴。 当然他们不是完全独立的,但他们可以尽可能的接近独立,你总是可以这样处理他们。


当我研究深度学习或者基于最小绝对值收敛算法(LASSO)的某类型的线性回归系统时(如今都是机器学习的重要组成部分),它们各自沿着其中一个轴进行建模。 这样直接就崩溃掉了。


作为一名使用基于最小绝对值收敛算法的技术工程师,我很难想象到:“如果我稍微改变这个参数,这究竟会意味着什么呢?”


线性回归模型是一个非常清晰的线性加性高斯模型。如果我想让事情看起来有所不同会如何呢?突然间,所有这些正则化最小二乘的东西都土崩瓦解了。那些推理的手段甚至根本不允许你想做的事情。


16 - Jake Porwar

 DataKind的创始人和执行董事

我认为一个强大的统计学背景是先决条件,因为你需要知道你在做什么,并且了解你构建的模型核心。另外我的统计学项目也教了很多关于道德的东西,这是我们在DataKind上经常探讨的话题。


你总是想让你的工作能够落地应用的实处。你可以给任何人一个算法。你可以给某人一个能够拦截盘查数据的模型,警察可能在伺机逮捕你,但是究竟是为什么以及最后到底会怎样呢?这就像发明任何一项新技术一样。你必须考虑风险和收益,权衡利憋,因为你要对你所创造的东西负责。


不管你来自哪里都是没有关系的,只要你理解清楚了你用来得出结论的工具,这就是你能做的最好的事情。 我们现在都是科学家,探讨的不仅只是产品设计。


我们都为我们所生活的世界给出理解和结论。这就是统计学 - 不断收集数据来证明一个假设或构造一个行之有效的模型。盲目地信任一个模型的结果是很危险的,因为那就是你对这个世界的解释,正如和这个现实世界本身就存在缺陷一样,你的理解也会印证结果是如何的充满着瑕疵。


总而言之,学习些统计学也要多加思考。



Data Scientists at Work(https://www.goodreads.com/book/show/22945255-data-scientists-at-work)展示了世界上一些顶尖的数据科学家是如何在这令人眼花缭乱的行业和公司中工作的 - 每个人都将自己的领域知识、统计学和计算机科学相结合来创造巨大的价值和影响力。


数据正在以指数形式增长。现在比以往任何时候都更需要那些能够理解数据和从中提取数据特征的人。 如果您渴望成为下一代数据科学家,那么这些睿智的从业者所获得的关于数据和模型的辛苦的教训和乐趣将非常有用。