相信没有人是先上学然后才学会说话的,在我们张口开始学习说话的时候,爸爸妈妈也不会给孩子们说什么主谓宾定状补这样的语法,而是一句一句的教我们怎么说,那句对,那句错。在我们学习语法之前,早已可以和别人流畅的交流了。

        上世纪,蓝色巨人IBM公司决心利用计算机技术,开发一款翻译软件,于是将各种语言的字、词、语法都编进了程序,在随后的实际使用中发现,在联合国大会这种正式场合,翻译的准确率相当高,但是在其他日常场景下,完全无法使用。道理很简单,国际大会这种场合,发言稿都是教科书式的标准,而日常语言,完全毫无章法,不符合语法是正常情况。面对这种情况,IBM尝试了很多办法,最终都无法解决。

        大数据又是如何来解决这个问题,举个例子,我要表达我饿了,我可以有很多种说法“我饿了”,“现在给我吃什么都香”,“我都前胸贴后背了”,大数据就是将这些话全都收集起来,统一归类到一个意思,“我饿了”,那么为了能覆盖各种可能的说法,就需要去收集大量,海量的关于“我饿了”这个意思的各种说法,当收集的量足够大时,任何人说的一句这个意思的话,都可以在这个库里找到对应或者相似度很高的话,那么就可以定义是“我饿了”。

        现在超市里出现一种自动识别物品的承重称,你用袋子把水果装好,往称上一放,摄像头拍一下就知道你放的是什么水果,我想也是这个原理,程序里并没有定义苹果应该是什么样子,多大,多圆,表皮什么颜色,等等,而是放上几百上千张各种苹果的照片,比对一下就知道了。

       从上面可以看出来,大数据、机器学习,会需要海量的存储空间和算力去处理数据。其实我们人脑的学习过程,不也就是这样的吗,妈妈告诉你这是苹果,那个是苹果,你就记住了,这样的就是苹果。这么看起来,人脑还真是厉害,消耗那么一点点能量,却能完成需要那么多空间算力才能解决的事情。