为什么要学习和了解机器学习?

Benedict Evans 认为,最终几乎所有的东西都会有机器学习,到那时人们对机器学习已经是习以为常、见怪不怪了。到这一步还有多久呢?10-15年。

这不禁让人思考:这10年,我们能利用这个契机在各自的领域做点什么呢?正如以往的各种技术浪潮兴起时,比如工业革命、电力革命、互联网、移动互联网,还有作者在文中说到的关系数据库技术等,那时各领域的创新者们都是如何响应的呢?

如果希望10年后能在自己的领域有所影响力的,利用机器学习应该是一个好的机会。跟自己相关的是学习领域,所以如何利用机器学习来提升学习的效率,是这一年多来在探索的命题。

假若10年机器学习技术真的对人类的学习方式、方法及效率带了本质的改变,希望其中能有一点自己的贡献。

下面是学习 Benedict Evans 这篇文章记的笔记以及自己的一点思考。

讨论机器学习务实方式

机器学习又被称作“人工智能 (AI)”。这个名字有好有不好。好的方面是,很容易抓眼球,获得大家(包括投资人)的注意力。不好的是,容易跑偏。大家容易想象成一种具有通用智能的东西。

作者举了很好的例子:

在自动化的每一波浪潮中,我们都想象我们正在创造一些拟人化的东西或具有通用智能的东西。在上世纪20、30年代,我们想象钢铁侠拿着锤子在工厂里走来走去,在50年代,我们想象人形机器人在厨房里走来走去做家务。但我们没有机器人仆人,我们有用来清洗的机器。

所以“人工智能将接管所有的工作” “数据是新的石油” 类似的话题都过于高屋建瓴,对深入理解机器学习并无益处。

更务实且有助于理解和解决问题的方式应该是:机器学习可以看作是另一种意义上的自动化,在概念上跟传送带或取放机并没有什么不同。它每次只能解决一个单一问题,每个问题都需要不同的实现方式、不同的数据、不同的路径,而且往往需要不同的公司。洗碗机洗碗,洗衣机洗衣服,机器学习跟它们一样,都是自动化的一部分。

找到机器学习应用场景的两套工具

作者在文中提供了两个思维角度,来寻找具体产品中机器学习的应用场景。

工具一:从数据和要解决的问题的类型上来思考,主要有三类:

(1)如果你有相关数据,机器学习可以提供更好的结果(数据分析)

比如:Instacar 公司建立了一个系统,来优化个人购物者在超市中的路线,结果是相关超市有50%的提升。这是由三名工程师利用谷歌的开源工具 Keras 和 Tensorflow 建立的。

(2)机器学习可以对已有数据提出新的问题(数据挖掘)

比如:就像正在找线索的律师,可以通过寻找有关“愤怒的”或“焦虑的”以及其他异常的线索,带来新的发现。

(3)机器学习可以用来直接分析音频、图像或视频数据,以前无法做到。这意味着图像传感器和麦克风变成了一种全新的输入机制(增加可分析数据类型)

比如:一家为汽车公司提供座椅的公司,在一个便宜的DSP芯片上安装了一个神经网络,并配有一个便宜的智能手

机图像传感器,用来检测面料是否有褶皱。

作者还特意指出,这个识别面料是否有褶皱,跟识别一张图是否是猫并不是同一个问题。我想他的意思应该是,用于工业界和实际产品中技术,并不需要像识别一张照片是否是猫这种认知层面的技术。能低成本地解决环节中任何一个哪怕是细小的问题,都是好的。至于能不能叫“人工智能”又有什么关系,它的本质是将以前无法自动化的任务给自动化了。

工具二:自动化的感觉(上面讲的这种自动化)

这个似乎有点虚无渺茫。你要想象这种自动化是一种低层次的自动化,并不需要像有20年经验的专家那样。

作者打了一个比方,还挺有意思的。他说有了机器学习这个工具,就像是给了你无数个可以用的实习生,或者是10岁的孩子。

5年前,机器能区分只能是照片的大小。一位10岁的孩子,可以分出男女。一位15岁的青少年可以分出酷或者不酷。一位实习生则能区分出有趣的人或无趣的人。现在的机器学习,已经可以达到10岁孩子甚至是15岁青少年的能力,但也许永远达不到实习生的水平。

那么问题来了:在这种情况下,如果你有一百万15岁青少年(即机器学习)来帮忙看照片,你会怎么做呢?同理,你会怎么通过他们来听电话,来识别图片,来监测信用卡转账信息呢?

(也许可以想一想再看答案...)

我们可以要求“他们” 听完所有的电话,找出其中听起来有些生气的那些;读完所有的邮件找到显得“焦虑”的那些;看完所有照片,找出酷的(至少是‘有点怪’)的,而在这之后的事情可以交给人来处理。所以,机器学习并不需要成为专家本身。

而这本质上就自动化一直在做的事,就像是 Excel 和 Photoshop 一直在为我们做的事情一样。

将一个重复多次的独立任务自动化,这同样是机器学习要做的。

当然上面这个比喻也有不适用的时候,比如机器在有的领域会超越人类,比如围棋。AlphaGo 就是一个很好的例子。但是这种领域足够狭窄,有具体且有限的规则,机器通过规则推演可以看到全部数据,而人类反而做不到的情况,是非常少见的。所以绝大多数的机器学习应用,还是上面说的“自动化”。

最后,结合自己的一点实际经验,说一说自己的体会,主要有两个方面。

第一,先摘低垂的果实

“低垂的果实” 是从万维钢的得到专栏《精英日课》听来的译法,英文是low hanging fruit,指的是相对不需要费太大力气就能获得的。

不是所有的人或公司都要追求10倍创新,那些让希望赋予机器认知能力的事情可以由大公司来做。对于一个直接面向用户的产品来说,什么能提升体验、能创造新的用户价值,就用什么。不为所谓“人工智能”之名所累,一切以解决问题和提升效率为优先,是更务实的态度。

第二,机器学习在用户量级大的系统解决方案型产品中更能发挥出效能

一是因为机器学习是靠数据驱动,用户量级大,收集的数据多,训练和迭代模型都更有利。另一个原因是,因为机器学习优化的可能是整个体系的一个环节,其效能需要在多次重复使用中发挥出来。这种回报后置要求,一在获得成效前要有长远眼光,二在取得成效后,需要系统将其效能放大。

比如,一个自适应的英语水平测评做得非常精准,但人们不一定愿意持续为测评付费。更好的情况是,测评后面还有一整体套提升英语水平的付费课程。

总之,机器学习是一个我们不想也不能忽视的趋势。它已经被应用于各行各业的各个环节,也将被应用于更多的场景,以此来提升效率。