参与文末话题讨论,每日赠送异步图书
——异步小编
唐亘,数据科学家,专注于机器学习和大数据。曾获得复旦大学的数学和计算机双学士学位;巴黎综合理工的金融硕士学位;法国国立统计与经济管理学校的数据科学硕士学位。热爱并积极参与Apache Spark和Scikit-Learn等开源项目。作为讲师和技术顾问,为多家机构(包括惠普、华为、复旦大学等)提供百余场技术培训。此前的工作和研究集中于经济和量化金融,曾参与经济合作与发展组织(OECD)的研究项目并发表论文,并担任英国最大在线出版社Packt的技术审稿人。 《精通数据科学:从线性回归到深度学习》作者。
图灵奖获得者Jim Gray将数据科学称作科学研究的“第四范式”(the fourth paradigm)。数据科学不仅会影响到科学的各个方面,也会在各领域的应用中发挥重要的作用。唐亘老师以其坚实的数据科学基础和多年的大数据分析经验,用浅显易懂的方式撰写了《深入浅出数据科学:从线性回归到深度学习》。
随着云计算和人工智能的发展,数据科学这门新的综合学科被越来越多的人所熟知,业界也普遍看好其在未来的发展前景。体现在就业市场上,与这个行业相关的数据科学家和数据工程师成为了“21世纪最吸引人的职业”。唐老师说:“数据科学涉及计算机编程和数学建模这两个方面。它们之间的交集并不多,所强调的技能也有很大区别。这体现在实际生产中就是懂模型的人不懂编程,懂编程的人不懂模型,两者兼备的人才非常稀缺。”
今天我们有幸采访了唐老师,以下是专访部分问题。
异步社区:可以介绍一下自己吗?目前正在做哪些事情?
唐亘:大家好,我叫唐亘,是《精通数据科学:从线性回归到深度学习》一书的作者,现就职于一家叫finogeeks的创业公司。在这家创业公司里面,我主要负责两个项目,一是利用市场上的各种信息,在金融领域里搭建知识图谱;二是构建量化指标体系用于刻画客户的投资行为,并以此为基础搭建个人专属的智能投顾机器人。
异步社区:是什么初衷开始创作《精通数据科学:从线性回归到深度学习》一书?这本书写给哪些人看?
唐亘:现在回想起来,有3个主要的原因促成我开始写这本书吧:目前大热的数据科学(data science)是一门新兴学科,它涉及计算机、计量经济学、机器学习等多方面的内容。但比较遗憾的是,将这3门学科融汇在一起的图书比较少见(在我有限的认知里),因此想通过自己的写作将这点遗憾弥补掉。
网上有关数据科学的资料很多,但这些资料都比较碎片化,不成体系。所以我希望能成体系地写一本书勾勒出有关数据科学的全景图。
从学习经历上来讲,我是一个比较喜欢自学和分享的人,因此很想将自己的学习心得和对学科的体会写出来,分享给大家。
这本书,我觉得比较适合两类人群吧,一是初学者,可以帮助他们了解什么是数据科学;二是对数据建模有一定基础的技术人员,可以帮助他们更好地理解模型(特别是在模型稳定性和可信度方面)。
异步社区:除了写作,您有开设视频课程的计划吗?
唐亘:长期有这样的打算,之前也尝试过比较短时间的公开课。但是,系统的视频课程需要比较长的准备时间,所以近期没有具体的计划。
异步社区:有一种说法,数据分析的工作终将被机器淘汰?您认同吗?
唐亘:不认同。我觉得数据分析工作包含3个部分:业务知识、分析模型搭建、模型计算。其中前两个部分都是机器无法替代的,因为这些需要人的经验积累以及人对模型假设的理解。而最后一个部分是机器可以胜任的,事实上,目前各种开源算法库比如scikit-learn、Tensorflow,它们做的事情就是让模型计算变得愈发自动化。
异步社区:对于刚入行的小白,您有什么建议?
唐亘:结合个人经历,我的建议是:多动手写代码,提高自己工程实现的能力。多掌握一点高等数学的知识,以便加深对模型的理解。多与业务人员接触,了解业务场景,加深对数据的理解。
异步社区:数据科学家必备的职业素养您认为最重要的3点是什么?为什么?
唐亘:在我看来,数学科学家必备的3点职业素养是:模型理解、工程实现以及沟通技巧。通俗点讲就是既懂数学,又懂代码,还会讲故事。
模型理解强调的是对模型数学细节和模型假设的深刻理解。只有真正地理解了模型,才能根据实际情况,选择适当的模型分析数据。
工程实现强调的是数据科学家的代码能力。在这个计算机无处不在的时代,没有良好的代码能力,再好的模型设计也只能是空中楼阁,无法落地。沟通技巧强调的是如何将模型结果(或者其他一些技术细节)清楚明白地解释给业务人员。这往往是一个数据分析项目成功的关键因素。
异步社区:您曾说,就像“一千个人眼里有一千个哈姆雷特”一样,对于什么是数据科学也有很多种不同的解读,并由此衍生出很多相关概念,比如数据驱动(data driven)、大数据(big data)、分布式计算(distributed computing)等。这些概念的应用场景有什么不同?为什么这么说?
唐亘:数据科学涉及的面特别广,也影响了人类社会的方方面面。不同的人对数据科学的关注点是不同的,因此衍生出很多侧重点不同的概念。比如数据驱动(data driven),它的侧重点是企业文化或者企业架构,指的是公司的决策应该从数据分析结果出发,而不应依赖于领导的个人经验;分布式计算(distributed computing)是一个技术概念,指的是如何利用计算机集群解决大数据量下的计算问题;大数据(big data)则是一个更加泛化的概念,更侧重于描述数据(数量越来越多,精细程度越来越高的数据)对人们生活的影响。
异步社区:数据科学所面临的工程挑战是什么?
唐亘:我认为在工程实现上,面临的挑战主要有3个:
特征提取。一个数据分析项目的成功在很大程度上依赖于分析前期的特征提取,而且在一个典型的数据分析项目中,这部分花费的时间远远大于选择和编写模型算法的时间。为了能较好地完成这部分工作,需要优秀的代码能力。
矩阵运算。在模型训练时(也就是估算模型参数时),往往涉及矩阵运算。使用传统的CPU架构来进行这样的运算往往速度太慢,因此需要将这部分计算移植到GPU或者特制的计算芯片上,比如TPU。
分布式计算。在实际的应用中,往往需要面对海量的数据,这些数据是一台计算机无法处理的,因此要将原本在一台机器上运行的模型算法改写成能在计算机集群上分布式运行的算法。
异步社区:您是如何平衡写作、工作和生活时间的?有什么心得可以分享吗?
唐亘:写作是一件极其耗费时间的工作,因此只能尽可能地挤压自己的休息时间来完成。要说有什么心得的话,就是在写作的时候(其实工作的时候也一样),最好断网断手机,在较长的时间内专心做一件事,不要写不到几个字就刷一次朋友圈。
异步社区:2018年的目标是什么?可以跟异步社区的读者分享下吗?
唐亘:2018年的目标是锻炼身体,成功减肥,还有就是多读几本历史书。
《精通数据科学:从线性回归到深度学习》
唐亘 著
数据科学入门到实战,介绍数据科学常用的工具——Python、数学基础及模型,讨论数据科学的前沿领域——大数据和人工智能,包括机器学习领域经典的模型、分布式机器学习、神经网络和深度学习等。
在数据学科的角度,融合了数学、计算机科学、计量经济学的精髓
为读者阐释了数据科学所要解决的核心问题—数据模型、算法模型的理论内涵和适用范围
以常用的IT工具—Python为基础,教会读者如何建模以及通过算法实现数据模型,具有很强的实操性。
本书还为读者详解了分布式机器学习、神经网络、深度学习等大数据和人工智能的前沿技术。
今日互动
你对本书的看法?为什么?截止时间6月8日17时,留言+转发本活动到朋友圈,小编将抽奖选出3名读者赠送纸书1本和2张e读版100元异步社区代金券,(留言点赞最多的自动获得一张)。
异步图书后台回复“5月新书”进入新书交流群,获得第一手新书信息
长按二维码,可以关注我们哟
每天与你分享IT好文。
在“异步图书”后台回复“关注”,即可免费获得2000门在线视频课程