1950年10月,“人工智能之父”图灵发表划时代作品《机器能思考吗》;2016年3月Alphago3比0战胜人类一流围棋高手韩国国手李世石,2017年5月又完胜世界上最年轻的围棋三冠王柯洁;AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序,其主要工作原理是“深度学习”。

当我们讨论人类学习时,我们会对死记硬背或记忆和智力进行区分。记住一个电话号码和一系列指令无疑是学习,但当我们讨论学习(learning)时,通常具有更广泛的意义。


当我们讨论机器学习时,我们到底在讨论什么?_机器学习

当孩子们一起玩耍时,会观察其他孩子对他的反应,这种体验形成他们将来的社会行为。他们的过去不会重演,通常和他们交互的可认识的特征——操场,教室,妈妈,爸爸,兄妹,朋友,陌生人,成年人,小朋友,家里的人,外面的人——向他们提供一些暗示,依据过去的经验对新的情况做出判断。他们的学习不仅仅是收集知识,而是构建自己的洞察力(insight)。

想象一下使用卡片教孩子认识狗和猫的情景,你出示一张卡片,根据孩子的选择把卡片放在正确或错误的位置上。随着孩子的练习,他的表现得到提升。有趣的是,没必要事先教孩子认识猫和狗的技巧,因为人类的认知内建分类机制,所需要的只是样本(examples)。随着孩子对卡片的熟悉,他不仅能够区分卡片上的图像,还能够区分绝大多数猫和狗的图片,更不用说实物了。这种以经验获得知识,并推广到未知的概括(generalize)能力,无论是人类还是机器学习都是非常关键的。


当我们讨论机器学习时,我们到底在讨论什么?_人工智能_02柯洁表示:“阿尔法狗真的下得非常好,如果阿尔法狗是人,跟去年比,真的是两个人了。原来它还是很接近人的,现在越来越接近上帝了。”

当然,人类学习远比最先进的机器学习算法要复杂的多,但计算机在记忆容量、查找和数据处理方面更有优越性。它们的经验来自处理的历史数据——使用本书描述的技术——通过经验创造和优化实现的算法。如果这不能算作是真正的洞察力,至少也是一种概括能力。

人类和机器学习非常相似,以至于使我们联想到人工智能(artificialintelligence, AI)这个术语和一个非常明显的问题,“人工智能和机器学习有什么区别?”关于这个问题还没有达成共识,但大多数人认为机器学习是人工智能的一种,而人工智能则含义更广,它包括机器人技术、语言处理和计算机视觉。机器学习更频繁的应用到人工智能相关的领域,使这两个概念的区别更加模糊。我们可以这么说,机器学习的训练指的是知识的特殊形式和相互关联的一套技术。可以很清楚的说机器学习是什么,不是什么,但人工智能不能这么说。引用汤姆米契尔的定义,如果计算机程序对于某个任务,它的性能能够通过可计算的值进行衡量,并能通过经验得到提高,我们就称之为学习。


当我们讨论机器学习时,我们到底在讨论什么?_机器学习_03

 “对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序从经验E学习。”

机器学习顾问凯格进行了程序精确识别狗和猫的图片的比赛。参加者使用提供的25,000张打了标记的样本图片进行训练各自的算法,然后通过12,500张未标记的图片测试他们的程序识别能力。

当我们向人们解释凯格的比赛时,他们首先想到的是成功识别狗和猫的一套规则。猫的耳朵呈圆三角形而且是直立的;狗的耳朵是下垂的——但并不总是如此。试想一下对于一个从来没见过狗或猫的人,在没有样本的情况下你如何教他区分。

人们对样本使用形状、颜色、质地,比例和其他特征进行学习和归纳。机器学习根据要解决的问题,使用一系列策略或策略组合进行学习。

这些策略体现在近十几年间学者和从业者开发的算法,涵盖统计学、计算科学、机器人科学和应用数学,应用于在线搜索、娱乐、数字广告和语言翻译。它们各有优缺点,有一些是分类器,另一些对数值测量进行预测,还有一些对可比较实体(例如,人、机器、处理过程、猫和狗)辨别异同。它们的共同特性是从样本(经验)学习,并应用到新的未知情况——都具备概括归纳能力。

在猫和狗的识别比赛中,学习阶段参加者尝试了许多算法进行正确的分类。在几万次的学习中,程序执行分类算法,评测结果,然后进行细微的调整并取得一定的进步。获胜者对于未知情况分类准确率达到98.914%。考虑到人的错误率大约7%,这已经是非常不错的成绩了。图1-1示出了这一过程。机器学习分析已标记的图片并构建模型,然后用于识别未标记的图片。在示例中只有一个猫的图片标记错误。


当我们讨论机器学习时,我们到底在讨论什么?_机器学习_041-1 猫和狗识别比赛的机器学习过程


机器学习可广泛的应用于商业领域,从欺诈检测到客户定位和产品推荐、实时工业监控、情感分析和医疗诊断。可解决数据量巨大而不能手工处理的问题,对于大数据量应用,机器学习有时可发现数据之间微妙的联系,而这种联系人工审查时很难发现。当这些“微弱”联系组合在一起,就变成了强大的预测器。

从数据中学习,并将获得的知识用于将来决策的过程是非常强大的。事实上,机器学习迅速成为推动现代“数据驱动经济”发展的强力引擎。

表1-1描述了机器学习技术的广泛应用和某些实际应用,这并不全面,因为潜在的应用有可能几页都写不完。

1-1 监督机制机器学习应用实例,按解决问题的类型分类

问题

描述

应用实例

分类

基于输入确定每个输入所属的分类。

垃圾邮件过滤、情感分析、欺诈检测、客户广告定位、流失预测、支持案例标记、内容个性化、制造缺陷检测、客户细分、事件发现、基因组学,药效学。

回归

基于输入预测每个输入的实际输出。

股票市场预测、需求预测、价格估计、广告竞价优化、风险管理、资产管理、天气预报、优育预测。

推荐

预测用户喜欢的方案。

产品推荐、工作招聘、Netflix奖金、在线约会、内容推荐。

插补

对于缺失的数据推断其价值。

不完整的医疗记录、客户数据缺失、人口数据普查。

(未完待续)


当我们讨论机器学习时,我们到底在讨论什么?_机器学习_05