北京时间 3 月的最后一天,ACM 公布了 2020 年图灵奖得主。

2020 年图灵奖得主 Ullman :做开源电子书,让肯掏钱买书的老实人免费读_数据挖掘

ACM 授予 Alfred Aho 和 Jeffrey Ullman 为 2020 年图灵奖获得者,以表彰两位在编程语言实现领域对基础算法和理论的贡献,同时表彰两位将相关成果系统成书,并通过他们的若干著作影响了几代计算机科学家以及广大程序员。

Alfred Aho 是哥伦比亚大学 Lawrence Gussman 荣誉教授,Jeffrey Ullman 是斯坦福大学 Stanford W. Ascherman 荣誉教授及 Gradiance 公司 CEO。

关于 Alfred Aho 和 Jeffrey Ullman 的个人介绍昨天已经有很多文章刷屏了,同时曝光比较多的还有 ACM 官网晒出来的他俩的著作 Principles of Compiler Design(1977 年版,中文版《编译原理》,外号龙书)、Design and Analysis of Computer Algorithms(《算法设计与分析》)。就算放到所有的计算机科学家里,Aho 和 Ullman 在著书上也绝对算得上名列前茅。

针对他们俩一起写的大部分书,网上已经有文章专门介绍。今天图灵君呢,就跟大家唠唠一本别人都没提的书。这本书呢,其实很多读者还算熟悉,但一般聊起来容易忘却,这就是 Ullman 和学生 Anand Rajaraman,以及当红青年 AI 专家 Jure Leskovec 一起推出的  MMDS(Mining of Massive Datasets),三个版本的外版封面如下:

2020 年图灵奖得主 Ullman :做开源电子书,让肯掏钱买书的老实人免费读_数据挖掘_02

外版的封面用了非常靓丽的颜色,然而,因为这几个颜色在印刷上都不太好呈现,容易偏色,拿到手里看起来不够显好,尤其是紫色。因此,针对第 3 版中文版,我们把封面改成了黑色,同时也把书名改了:

2020 年图灵奖得主 Ullman :做开源电子书,让肯掏钱买书的老实人免费读_人工智能_03

老版书名是《大数据:互联网大规模数据挖掘与分布式处理》,而新版的书名《斯坦福数据挖掘教程》是对读者来说更熟悉的一种叫法——三位作者的数据挖掘公开课被中国网友所熟知,翻译为“CS246 斯坦福海量数据挖掘课程”,而这本书的内容就来自相关的 3 个课程:

  • CS246:海量数据挖掘
  • CS224W:图机器学习
  • CS341:项目实战课

今天,为大家专门介绍这本书,不仅仅是曝光图灵奖得主的图书(那是必须要曝光的,跑~),还有一个原因,那就是这本书对于 Ullman 来说,是一本非常特别的书。

开源电子版先行,不想赚老实人的钱

这本书的第 1 版是 Ullman 和学生 Anand Rajaraman 写的。在第 1 版出版纸质书之前,Ullman 和 Anand 做了免费电子书。那时候是 2010 年之前,大数据概念正在席卷全世界。Ullman 和 Anand 为什么做了开源电子版?这得源于 Ullman 对于美国出版商及盗版环境的不满。美国的出版商为了营利,把书价抬得比较高,买书的人本来就不多,更可气的是,网上还存在盗版系统,真正买书的就只剩那些不用盗版文件分享系统尊重知识版权的老实人了。Ullman 坦言:“我们是最不想赚的就是这部分人的钱。” 于是,Ullman 和  Anand 干脆放弃那点可怜的版税,将图书开放,让更多真正需要这本书的人随时免费阅读。电子书刚上线的第 1 年,它的免费下载量是 Ullman  以前出版的任意一本精装纸质书销量的几十倍。

后来,剑桥大学出版社的编辑找到了 Ullman 和 Anand ,这才有了纸质书问世的故事。再后来,图灵 2012 年引入了这本书的第 1 版。

Ullman 个人怎么看这本书?

大数据这个词代表的是一类真正具有挑战性的问题的集合。然而,大数据被媒体用坏了,成为每个人口里的时髦词,但这对问题的解决没有任何好处。要知道,大数据算法是值得我们倾其所有的研究方向,解决问题才是根本。 

“海量数据集挖掘” 和“大数据”的含义基本相同。这并不是说 MMDS 这本书涵盖了大数据的所有内容。在第 1 版中,Anand 和我对书中所涉及的算法非常谨慎。特别是,我们并不强调“机器学”,“机器学习”只是某一类算法的标签,还有其他一些算法,在高效分析数据过程中同样重要,甚至更重要。举个例子,人们不把局部敏感哈希 LSH 看成是机器学习,然而,如果你真去调研那些有计算难题的人,他们很缺 LSH 的知识。

Jure Leskovec 几年前加入了斯坦福大学,他承担了数据挖掘课程的大部分教学工作。Jure 的观点与我和 Anand 有些不同,他挺看重机器学习算法的,他个人的研究涉及社交网络和图。从第 2 版开始,Jure 成了第一作者。第 2 版相比第 1 版新增三章内容,分别涵盖社会网络图挖掘、降维和大规模机器学习。

第 3 版新增一章,专门探讨神经网络和深度学习,此外,还在第 2 版基础上扩充了社会网络分析和决策树的相关内容,同时更新了不少零零碎碎的知识。

封面:我儿子设计的

据 Ullman 介绍,龙书和 MMDS 的封面都是他儿子 Scott  Ullman 设计的。不过,编辑有个问题想问问 Ullman ,你说的是哪一版的龙书?如果是 1977 年版,那一年 Ullman 35岁,不知道儿子多大了?编辑的好奇心被激发......

Ullman 生于 1942 年,分别于 1963 年和 1966 年拿了哥伦比亚大学数学学士学位和普林斯顿大学电气工程博士学位,此后在贝尔实验室工作多年。从 1969 年到 1979 年的十年担任普林斯顿大学教授,1979 年之后就去了斯坦福大学,最后从斯坦福大学荣誉退休。目前,做在线学习公司  Gradiance 老板。

数据挖掘经典

这本《斯坦福数据挖掘教程》与《数据挖掘导论(完整版)》同为国内读者最喜爱的数据挖掘入门书之一。《斯坦福数据挖掘教程》由国内知名  NLP 专家王斌老师担纲翻译,王斌老师独自翻译了前两个版本。到第 3 版,曾就读于斯坦福大学 Jure 实验室的王达侃老师加入,共同翻译。

作译者团队

| 作者简介

尤雷·莱斯科夫(Jure Leskovec)

Pinterest 公司首席科学家,斯坦福大学计算机科学系副教授,研究方向为大型社交和信息网络的数据挖掘。他的研究成果获得了很多奖项,如 Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship 和 Okawa Foundation Fellowship,还获得了很多最佳论文奖,同时也被《纽约时报》《华尔街日报》《华盛顿邮报》《连线》及 NBC、CBC 等流行的社会媒体刊载。他还创建了斯坦福网络分析平台(SNAP)。

阿南德·拉贾拉曼(Anand Rajaraman)

数据库和 Web 技术领域领军者,硅谷连续创业者和风险投资人,斯坦福大学计算机科学系助理教授。自 1996 年起创立过多家公司,这些公司先后被亚马逊、谷歌和沃尔玛集团收购,而他本人历任亚马逊技术总监、沃尔玛负责全球电子商务业务的副总裁。之后创立了风投公司 Milliways Ventures 和 Rocketship VC,投资过 Facebook、Lyft 等众多公司。作为学者,他主要研究数据库系统、Web 和社交媒体,他的研究论文在学术会议上获得了多个奖项,他在 2012 年被《快公司》杂志列入“商界最具创造力 100 人”。

杰弗里·大卫·厄尔曼(Jeffrey David Ullman)

计算机科学家,美国国家工程院院士,2020 年图灵奖得主。早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是 ACM 会员,曾获 SIGMOD 创新奖、高德纳奖、冯诺依曼奖等多项科研大奖;合著有“龙书”《编译原理》、数据库名著《数据库系统实现》等多部经典著作;培养的多名学生已成为数据库领域的专家,其中包括谷歌联合创始人 Sergey Brin,本书第二作者也是他的得意弟子。目前担任 Gradiance 公司 CEO。

| 译者简介

王斌博士
小米 AI 实验室主任,NLP 首席科学家。中国中文信息学会理事,《中文信息学报》编委。加入小米公司之前,是中科院研究员、博导及中科院大学教授。译有《信息检索导论》《大数据:互联网大规模数据挖掘与分布式处理》和《机器学习实战》等书。

王达侃
优刻得 AI 部门负责人,曾任 WeWork Research & Applied Science  中国区负责人,并曾在 LinkedIn、Twitter 和微软亚洲研究院负责 AI 以及大数据方向的研发工作。硕士毕业于斯坦福大学计算机系,本科毕业于上海交通大学 ACM 班。