因果推断:赋予AI常识
- 数据是深度愚蠢的
- 洞见因果:人类的思维到了什么程度
- 观测:这件事儿发生了,那件事儿是否也跟着会发生?
- 干预:我采取这个行动,会有什么后果?
- 想象:如果当初我没有这么做,现在会是怎样的?
- 不存在因果:世界上有些事,就是无缘无故发生的
- 因果分析:所谓因果关系,其实是你的主观假设
- 贝叶斯网络:不追求绝对的因果关系,只追求三种实用的因果问题
- 使用各种科学方法研究因果关系:怎么知道一个东西到底是不是真有效?
- 反事实问题与反事实分析算概率:非典型的杀人案件,到底该怪谁?
数据是深度愚蠢的
最近清华大学的AI机器人,华智冰像一个高智商的人,颠覆对 AI 的认知。
之前我们有一个已经训练好的数据模型,哪怕这个数据模型完成的任务和我们要完成的任务相似,但只要任务不完全一致,我们还是要做模型的微调。即使是做模型的微调,我们也需要成千上万的数据。
比如,想让小孩子认识什么叫 “车”,就不需要让他们看上万张车的图片才能认出来,他们会总结——带轮子的、能在地上跑的就是车。
哪怕下次碰到的是之前从来没见过的拖拉机,小孩子也能知道这算是一种车。
但人工智能就做不到,它能准确识别一万次车,但它依然不理解车是什么。每次要辨认新种类的车,它都必须从头开始学习,每一次学习都要靠海量的数据来训练。
所以说,机器学习少了一种推理能力。这种能力最大的好处,就是让人不用依赖大量的数据就能学习。
但是,像华智冰、GPT-3新一代人工智能是不需要的。
对于他们来说,你可以:
- 让ta当翻译官,去翻译任意两种语言;
- 让ta当程序员,直接完成自然语言表达的需求;
- 让ta当诗人去,写出各种风格的诗;
- 让ta当作家,去写出各种类型的故事;
你甚至可以让ta给你生成笑话,或者直接生成一个 ppt 演讲稿。
而这一切,你顶多给十个以内的例子,ta就自己学会如何去做了。
可如果想让现在的机器做中英翻译,那么就给机器成千上万甚至是百万千万的中英对应的句子,作为训练样本,期待机器学习到其中的规律。这样,当我们给出机器一个新的中文句子的时候,机器可以尝试翻译成英文;
如果想让机器写文章,则喂给机器成千上万甚至是百万千万的文章,让机器学习这些文章中的规律。这样,机器可以尝试写出新的文章。
但是,一个可以做中英翻译任务的机器,不要说去写文章了,可能连英中翻译都做不了。
可新的人工智能突破了这一点。没有样本,或者只需要极少量的样本,就可以完成新的任务,而且水平是大师级水准,出生技能满点的人——努力有用的话,还要天才做什么!
这在机器学习领域,也被称为是零次学习(Zero-Shot Learning)或者一次学习(One-Shot Learning),或者少次学习(Few-Shot Learning)。
顾名思义,零次学习就是一个样本都不给;一次学习就是只给一个样本;少次学习是只给极少的样本(个位数),就足以让机器进行任务。
华智冰、GPT-3 跟当前所有主流人工智能模型一样,都是基于深度学习神经网络的东西,仍然是海量数据训练出来的产物,提供的仍然是基于经验的知识……甚至不能说是知识,只能说是反应。
但是量变有时候就是质变,“大”有时候就是一种创新——量大,有时是取胜的构建。
衡量一个神经网络的大小可以看它有多少个“参数”。网络的每一个神经元结构点上都有若干个可调参数,参数描写了这个网络。
华智冰有1.75万亿参数规模,参数越多,神经网络就越复杂,会的东西就越多,但是参数多意味着计算量大。
神经网络根本的原理仍然是对经验的识别。
我的领域偏向自然语言处理,可以说一下ta背后的语言模型。
语言模型是干什么的呢?它的本质是判断一个句子在真实世界中存在的可能性。
比如下面这两句话 ——
- 我带着狗出去散步。
- 我带着香蕉出去散步。
语言模型知道第一句的可能性更大。这个知识不用特意教,模型并不知道狗和香蕉都是什么东西,散步是什么意思:它只是阅读了太多的文字,它知道当人们说“散步”的时候更容易提到“狗”,而不是“香蕉”。
所有的能力,都是基于这一个简单的道理。但是你可能想不到,把这个道理用到极致,意味着什么。
华智冰对人类情感的学习包括两个过程,先是从数据中获得经验,再把经验运用到接下来的交流过程中并进行验证。
比如当一个人类对她说“我失恋了”,华智冰不理解嘲笑和关怀两者的区别,但她知道,当她表现出嘲笑的时候,人类不会跟她保持很强的持久的关系,但当她表达出温情的时候,人类就会和她有很好的关系。
所以现在华智冰谈话中多了很多正能量,这是她在跟人类交互过程中学习到的。
但是这种人工智能,也有边界,也有极限——算法可以解决问题,但不能建立问题。
虽然ta写出来的文章能给你惊喜,但是也会让你恼火。测试表明ta说的很多话仍然有前言不搭后语的现象,特别是ta有时候会说一些让人感到冒犯的话,比如说歧视女性。ta只是在根据经验做事,它并不真的理解自己在说什么。
ta知道所有的“最可能做法”,这对新手很有用。但是你的价值,是有一天对那些别人说:“现在我建议咱们换个做法,咱们应该这么做……”
所以说,像华智冰、GPT-3这个热度其实是个 hype。
而后,这里之后,人工智能就分成了俩个派别。
- 量变到质变,用更大的模型、更多的数据,就如深度学习之父Geoffrey Hinton说的,宇宙和万物的答案不过4.398万亿个参数而已。
华智冰现在是1.75亿个参数,比人脑还少关键在于,相较于人脑,我们的算力其实还远远不够。人的大脑大概有 1000 亿个神经元,1000 兆到 5000 兆个神经突触。按照这个数据规模计算,华智冰比人类的大脑,还要小 100 倍,这离质变的距离还是有点远。
我感觉,这种人工智能的确非常非常大的想象空间,而且解决了其他机器学习模型的两个重要的问题:
- 过于依赖领域内的标记数据;
- 算法模型过拟合领域数据,导致只能解决某个特定领域问题。
这种用更大的模型、更多的数据解决问题,可能是人类历史上,自区块链以后,最重要的技术突破,但是还不是真正的人工智能。
- 机器有自己的推理能力,就如机器学习的开山鼻祖Judea Pearl说的,数据是深度愚蠢的,现有的基于机器学习的人工智能应该叫“人工不智能”,而珀尔,研究的恰恰是真正的人工智能。
好吧,其实我是认可这派,才这么说的。
这派主要研究到是因果关系的科学,让机器拥有因果思维有三个级别:
- 第一级是观测,你要处理的是已经观测到的世界。
- 第二级是干预,你要处理一个可以被观测的新世界。
- 第三级是想象,你要处理一个不可被观测的、你想象中的世界。
对于观察、干预和想象这三种因果问题,目前也都有了办法。
现在珀尔的学生们正在致力于把因果分析算法化,让 AI 能够根据因果关系模型自动去回答三种问题。
洞见因果:人类的思维到了什么程度
观测:这件事儿发生了,那件事儿是否也跟着会发生?
干预:我采取这个行动,会有什么后果?
想象:如果当初我没有这么做,现在会是怎样的?
不存在因果:世界上有些事,就是无缘无故发生的
因果分析:所谓因果关系,其实是你的主观假设
贝叶斯网络:不追求绝对的因果关系,只追求三种实用的因果问题
使用各种科学方法研究因果关系:怎么知道一个东西到底是不是真有效?
反事实问题与反事实分析算概率:非典型的杀人案件,到底该怪谁?