锁死AI基础研究的两个「智子」是什么？

转载

SAP虾客 2021-08-27 13:33:15 博主文章分类：人工智能

文章标签 AI基础研究深度学习人工智能神经网络数据 文章分类 代码人生

锁死AI基础研究的两个「智子」是什么？_数据

作者 | 青暮、维克多

编辑 | 王亚峰

不像20世纪初飘在物理学上空的两朵乌云，如今AI面对的两个困境似乎更加飘渺无踪。

在小说《三体》中，当物理学家杨冬得知地球基础科学是被“人为”锁死的真相之后，她陷入了绝望的深渊。

她毕生所坚信的“自然是客观的、可理解的”理念，在顷刻间被完全推翻。

看着杂乱无章的数据，杨冬似乎感觉到她做的每一次实验，在每一个基本粒子背后，都有一个比麦克斯韦妖还要顽皮的智子，在嘲笑着她困惑的表情。

智子，是三体人打造出来的人工智能，它能以基本粒子的形态存在，并可同时攻击地球上的大量基本粒子实验装置，使得实验数据出错，或者随机化，从而锁死地球的基础科学。

回到现实，当今人类创造出来的人工智能，仍旧十分幼稚，能处理的问题非常有限，尤其是在深度学习似乎触达瓶颈后，不少人开始质疑，现阶段的人工智能基础理论研究，似乎已经进入了停滞期。

人工智能真的停滞了吗？智子隐藏在什么地方？

锁死AI基础研究的两个「智子」是什么？_人工智能_02

图源：《三体艺术插画集》

1 第一个智子：官僚、抱团、急功近利

物理学家费米说过，科学永远是理论和实验两条腿走路。理论和实验两者之间存在gap，在科学发展史上其实是常态。

当前限制人工智能领域发展的第一个智子，却夹在现实世界的“人心”和“利益”中央。

这个智子，仿佛是小说里化身成人形的持刀少女一样，以武力胁迫人们在狭窄的领域里拼抢和艰难生存。

但同时，很多人还是既得利益者，或者浑然不自知。

锁死AI基础研究的两个「智子」是什么？_神经网络_03

学术“抱团”与论文“放水”

抱团，是学术界常见的现象。有时候适当的拉帮结派，往往有利于学术界的团结和交流融合。

但如果掺杂的利益过多，便会劣币驱逐良币。

锁死AI基础研究的两个「智子」是什么？_人工智能_04

图注：来源，2021年斯坦福AI指数报告

数据统计，2020 年， AI 期刊论文数量是 2000 年的 5.4 倍。arXiv上2020年发表的AI论文比2015年相比翻了6倍。

AI顶级会议投稿数量剧增，是好是坏，一直存在争议。

有人说它是AI崛起的捷径，也有人定性为AI技术“越来越水”的标志，有过AlphaGo在围棋领域围剿李世石的神来之笔，也有论文抄袭屡禁不止的悲哀。

但必须承认的是，人多就会造成鱼龙混杂，学术不端事件也正在损害AI社区。

今年5月份，ACM Fellow、美国里普罗维登斯布朗大学计算机科学卓越教学的罗伊斯家族教授迈克尔·利特曼（Michael L. Littman）在ACM通讯上发文指出一个或许普遍存在，但却没人注意的学术道德现象：共谋。

几位作者提前串通好，将他们的论文提交至顶会，并相互告知自己的论文标题，故意违反盲审规则，并造成重大未披露的利益冲突。
更有甚者，如果其他评审者有影响评审结果的可能，这些共谋者会向这些评审者发送威胁性电子邮件。

对于上述事件的发生，罗切斯特大学教授、ACM Fellow罗杰波在接受雷锋网的采访中表示，这背后只有一种原因：学者急功近利。“顶级会议、期刊中的署名论文数量和研究者的声誉、晋升息息相关。”

“学术界要有学术界的规范，不能够什么事情都没有底线，不能跟熟人打招呼，不能抄袭，更不能看到别人正在进行好的工作就打压，对学术要有敬畏之心。”

罗杰波一再强调，同行评审是评价学术成果的重要手段，凡是重大的理论突破，只有经过同行认可，才能发挥它最大的作用。但同行评审的基础是建立在信誉基础上，“通俗的讲，就是不放水”。

而对于学术界“抱团”的另一个现象，电子科技大学教授、IEEE Fellow李纯明表示，其带来的影响可能比想象的要严重：最早一批在深度学习领域，通过调参、灌水成功发表论文的学者，他们已经形成了利益团体，事实上也已经掌握了一定的学术资源，他们在会议、论坛、期刊拥有审稿权，能够决定一些没有创新的论文（灌水）被接收。

“反复调参、只对原有网络做修修补补和各种组合、缺乏理论指导......只要恰好调出好的效果，就能写出一篇论文，甚至可以发表在顶会顶刊上，而文章里面大多都‘只写how不写why’，甚至连how也没说明清楚。其中有少数是出于DL不可解释性的无奈，但多数还是为了发文章而发文章，并不是为了解决一个问题，而这种做法通常能快速提高论文数量。”李纯明说道，“近几年各种AI相关的期刊和会议论文数量暴涨好几倍，深度学习论文泛滥成灾，离不开这种风气的推动。”

锁死AI基础研究的两个「智子」是什么？_深度学习_05

这种风气甚至被一些学者利用，来“忽悠”审稿人，“比如，为了体现论文的创新性，他们会在论文中写一些创新点，而在他们的算法实现中并没有都用到它们，或者起的实质作用并不大，实际上主要还是靠现有的深度学习方法或者加上一些小的implementation trick。另外，以图像分割的论文为例，有人在论文中不仅采用了深度学习，也用了传统方法对深度学习分割结果做了后处理，有时还能够显著改进深度学习直接得到的分割结果；但为了迎合做深度学习的审稿人，他们可能会轻描淡写甚至不提传统方法的作用，而是突出在深度学习框架里的创新点所起的作用。这几种文章发表以后，作者通常也不愿意公开所有的源代码。”

这批人有的已经博士毕业，走上学术舞台，成为导师，他们的学术风格又影响了他们的学生，然后这些学生博士毕业，也走上了学术舞台........目前来看，可能有第二代甚至第三代这种“灌水学者”都已经成为导师。

弦外之音、话里话外，深度学习甚至人工智能可能会败于“传承”。

“所以，为了鼓励其他AI领域的发展，顶级学术会议能否规定某些方向论文接收比例？毕竟，通过人工智能道路上，不止深度学习这一条路径，”李纯明表示。

江湖不是打打杀杀，江湖是人情世故。这一著名影视经典名句是对社会人际关系的最好写照。但在学术领域，却恰恰相反，只有凭真本事，拿出过硬的工作成果，才有研究者follow，才能推动AI理论的突破。

工业界的“学术短视”

谈完学术界，再看工业界。

“近年来国内在人工智能会议上屡创佳绩，但其实这背后更多反映的，是国内人工智能的人力物力投入领先全球，而不代表学术层面上的领先。”在对话过程中，罗杰波突然向我们抛出了一个尖锐的观点。

“科技企业，在人工智能顶会上频频刷足存在感，其实更多是工程能力的证明，而非基础研究的成就。”一AI顶会的大会主席向雷锋网评价到。

据斯坦福大学在《人工智能指数年度报告）中称：更多的 AI 博士毕业生选择在工业界工作，增长比例约为48%。

在2018年计算机视觉Top100的论文中，来自工业界的论文数更是一度超过学界，这意味着，不仅在量上，在质上，业界的学术能力正在“追赶”学术界。

业界搞学术，这可能是AI圈独有的风景。

据李纯明介绍：“当前的AI，深度学习是主流，深度学习需要算力和数据加持，业界在这方面资源丰富，发起论文来更加得心应手。”

例如，医疗AI的训练数据，简单的“拷贝”并不能满足模型训练的需要，只有让医生耗费精力标注、分割才能在在模型上使用，这会耗费很大的成本，学术界很难做到。

所以在拼钱和计算资源上，学术界甘拜下风。

锁死AI基础研究的两个「智子」是什么？_深度学习_06

但企业搞学术也存在问题。在生存压力的迫使下，其研究往往短视。

例如在高校和公司的合作项目中，资助的一方往往会在合同中表明：实习生三个月出成果，教授一年完成任务。但是一般真正“有突破”的研究需要3~5年甚至更多年的时间。

大家常常说学者要坐10年冷板凳，但实际上，在业界用算力+数据和学术界的“脑力”合作的过程中，在时间维度上没有足够的耐心。

锁死AI基础研究的两个「智子」是什么？_人工智能_07

即使业界自己的AI Lab开始会打着“不做业务，只做基础研究和技术积累”的旗号。但对自己的研究员也会设置论文数量KPI、限定研究方向，甚至制定营收考核指标。这可能也是最近AI大牛纷纷离职、网友在知乎上发出疑问“2021年各家大厂的AI lab现状如何？”的原因之一。

另外，学术论文和工业应用落地存在巨大的差距。

例如当前的一些算法可能在数据集上表现非常好，大数据确实也对模型训练有非常多的帮助，但是模型的泛化能力如何还有待考证。

再者，工业实际场景非常复杂，学术论文中的描述非常有限。例如基于人脸识别的驾驶员疲劳检测系统，在学术层面的讨论似乎非常简单，但是在实际场景中，则需要考虑到是否有遮挡等因素。

最后，学术论文和工业落地在评估指标上也存在差异。学术论文主要关注一些非常技术性的指标，而在实际落地场景中，关心的是业务指标，闯红灯检测多大程度上能阻止事故的发生率？节省了多少成本？安全性能提高了多少？这些指标才是企业所关心的。

理想的丰满与现实的骨感造成的落差导致人们开始对AI期望降低，投入减少，进而导致AI进展缓慢。

但罗杰波也认为，学术会议充斥着大量的工业界论文将只是短暂的现象：算力驱动终究存在瓶颈，而算法创新才能带来颠覆，新算法idea的产生主要来自学术界，“虽然缓慢，但一直在进行。”

“这几年先是一窝蜂涌上来鼓吹深度学习，现在又大泼冷水，这其实都是不成熟的表现。即使人工智能在理论上最近没有什么进步，但这不代表人工智能没有进步。”

2 中国的AI困在哪里？

著名的经济学家林毅夫曾在2017年发表过题为“李约瑟之谜和中国的复兴”的演讲。在演讲中，他从科学革命的角度尝试回答了“为什么工业革命没有发生在中国？”这一问题。

他说：

科学革命的精髓是通过运用数学模型来归纳宇宙与自然运行的规律，并且运用可控实验来验证数学模型中产生的假说。为什么中国没有发现这种理解世界运行的新方式？发生科学革命首先必须有对自然现象充满好奇心和很有悟性的人。对于自然现象充满好奇心与悟性是一种与生俱来的能力，在人口众多的中国，应该会有更多具有这种天赋的人。那为什么这些天之骄子没有找到这种更好的研究自然现象的新方式？

我的解释指向了中国的社会政治制度。中国有其独特的科举制度让平民百姓可以通过科举晋升为统治阶级。在传统社会中，成为官员是光宗耀祖且收益最高的工作。所以，考取功名、成为官员对大众来说极具吸引力。宋朝以后科举制度要求考生熟记儒家的四书五经，这就导致有才华的年轻人都投身于儒家经典的学习以准备科举考试。他们没有学习数学和可控试验的动力。因此，中国缺乏拥有这两样人力资本同时又充满好奇心的人才，科学革命也就未能应运而生。

当谈到新兴技术在改善世界各地人们生活的潜力时，你首先想到的可能不是电子游戏。然而，虚拟游戏可以在训练人工智能 (AI) 以对现实世界产生积极影响方面发挥重要作用。

知史以明鉴，查古以至今。中国五千年的传统文化影响着当代中国的每一个人，也影响着各个领域。当年的科举制度已经“变异”成帽子、职称以及地位。拿到了一定的帽子就有相应的物质资源，用这些资源继续换“帽子”........这导致有才华的年轻人都在想办法提高论文数量，以应对职称考核、学校评奖。

“不管是论文数目，还是引用数据，只要给学者设定了这种KPI，中国人一定有各种办法找到方法去解这个目标函数。”在谈到中国的学术环境的时候，罗杰波如是说道，“科学研究需要时间来检验的，现在正规的AI学术会议都会设置一个时间检验奖，目的是回到十年前，看看到底哪些论文是经得起检验的工作，因此学术要自由，不能拼数字也不能拼引用。”

他也转而补充道，“其实，中国也在变好，前段时间有国家也发文，对破除论文“SCI至上”提出明确要求，大家已经注意到了当前科研评价中存在SCI论文相关指标片面、过度、扭曲使用等现象。”

中国改革开放才40多年，但也已经过去40多年了，这意味着还有些时间让学术界学习大洋彼岸的自由、包容的学术氛围，同时融汇贯通。但也必须警醒的是：中国仅靠后发优势，仅靠“模仿”取得的重大突破，无法支撑中国的AI声震寰宇。留给中国能够“模仿”的时间不多了。

2000年~2020年间，中国的 AI 期刊论文发表数量超过美国和欧洲，某种程度上象征着影响力的论文引用数在2020年也超过美国。中国宏大的市场，广阔的AI应用场景，海量的数据，甚至人海战术，带来了中国在AI应用端独特优势。

但当我们习惯于仰视和羡慕俊俏的山峰时，是否也应注意其脚下根基深厚的辽阔平原？随着逐步逼近香农定理、摩尔定律的极限，应用落地必定被基础理论所限制，而基础理论的发现和创造，不仅靠人民大众，更是要给那些“对自然现象充满好奇心和很有悟性的人、团队”更干净的学术氛围。

3 第二个智子，藏在神经网络里

尽管近十年来，深度学习展现的威力令人惊奇。

但有一个令科学家困惑不已的地方是，即便不刻意引入随机性，拥有庞大容量的深度学习模型（神经网络）似乎在吞食数据的时候仍然不是囫囵吞枣，或者说单纯记忆数据，而是细嚼慢咽，消化出了自己的领悟，也就是说，它有很好的泛化能力。它甚至能自发生成对事物的分层解析，类似于我们的大脑结构。

智能有一个简单的理解就是信息压缩，比如当我们把一斤苹果加上两斤苹果等于三斤苹果，抽象成1+2=3（斤），就经历了一个智能过程，这其中把苹果的信息过滤了。因为我们注意到，一斤XX加上两斤XX等于三斤XX的现象，不止在苹果上出现，还有梨、水等等。然后，我们会尝试把这个规律应用到其他事物上，发现也是合适的，这样就实现了泛化，也就是实现了智能的目的。

那么，如何理解上述深度学习的泛化能力奇异现象呢？如果开会的时候，我们手里只有一张纸，那么对于讲者的话，我们只能做笔记。但如果有一只录音笔，我们就会录音。甚至有手机的话，我们会把整个过程拍下视频。从纸到录音笔到手机，它们的容量是逐渐增大的，同时记录的信息压缩程度就越小。对比深度学习，在如此大的容量之下，却能自发形成有序的结构，而不是单纯记忆数据，着实令人困惑。

科学家猜想，神经网络的优化过程存在自发的随机性，这会使得数据复杂性增大，从而使其容量相对减小。

但这种随机性的本质是什么？至今没有得到回答。它仿佛也像智子那样，在给人类的理解力出难题。幸运的是，这没有阻碍深度学习的应用。现在人脸识别、语音识别等应用已经走入了我们的日常生活，我们甚至习以为常。

然而一旦出了问题，它所展现出来的缺点，总是让人跳脚和手足无措，无论是被看不见的东西误导（对抗攻击），还是说出“太阳有三只眼睛”（缺乏常识）等等。令人不禁怀疑，这背后仍然是智子在悄悄作怪，就像干扰基本粒子实验那样，给深度学习带来不确定性和不可解释性。

其实，深度学习的这种不确定性和不可解释性，或许也来自于其巨大的复杂性。“虽然都会因为问题复杂度增加而使数学变得复杂，但深度神经网络的数学表达式之复杂程度（非线性激活函数和线性函数的多重复合），以及其中的变量和参数的数目之巨大，远远不是一个物理公式可比的，而且前者的表达式里的每个参数（包括每个神经元的权重），都没有对应的可解释的意义，没法描述这些参数的变化对神经网络输出结果的影响，这也是深度学习的不可解释性的主要原因之一。不像物理公式那样，其中的每个变量和系数都有物理意义，并且可以解释其中每个量的大小变化对公式计算结果的影响。”李纯明表示。

锁死AI基础研究的两个「智子」是什么？_人工智能_08

智子计划是基于大时间尺度的考虑，不会立马显现效果。类似地，如果理论研究一直原地踏步，AI很可能会在将来遇到瓶颈。

如何理解理论研究的停滞呢？近两年AI领域在学术研究上似乎正在显现颓势，“基本上只有大规模预训练模型。”罗杰波说道，但他紧接着补充，“本质上，大规模预训练模型和2012年的AlexNet、2016年的AlphaGo相比，属于实验、工程方面的突破，虽然是有应用价值的突破”

就连近期非常受关注的AlphaFold2，在底层算法原理上仍然基于Transformer架构。“实现这些突破的关键，自然还是大数据、大算力。”

锁死AI基础研究的两个「智子」是什么？_人工智能_09

罗杰波认为，深度学习在应用落地上还有很大的空间，但大多局限于感知层面，“我们下一步需要在认知、决策层面上努力”。要实现这一点，或许得在理论上取得突破。

感知结合认知是实现智能的关键，然而对于智能这个概念，其实还并没有一个明确的数学定义，因此也尚未有理论去对此进行量化研究，深度学习理论主要集中在已有算法的改进和理解上。因此，AI的理论和实验之间，似乎存在对话的隔阂。

尤其是在解释的层面，AI的可解释性研究大部分集中于复杂模型，而理论层面的解释型研究则经常选择在应用中非典型的模型。

接下来，我们将探讨AI领域的几个关键方面，涉及感知和认知、可解释性、理论研究等等，试图理解人工智能的理论和应用之间的鸿沟，并揭开隐藏于神经网络的第二个智子的真面目。类似于《三体》中的初次登场形式，第二个智子看不见、摸不着，藏于黑盒子之中，不仅在理论研究中存在，在实验研究中也存在。

首先，如何理解认知？其实，对于图像识别这个问题，我们可能都还没有问对问题。

4 AI解决“猫识别”问题了吗？

“猫识别”问题是一个经典的AI问题，尽管吴恩达2011年在谷歌开发的“猫识别”系统，远远晚于Yann LeCun的手写数字识别系统，但正是这个系统让深度学习声名远播。如今吴恩达在《深度学习》课程中，也会经常以“猫识别”问题为例子介绍神经网络的基本原理。

锁死AI基础研究的两个「智子」是什么？_深度学习_10

当时这个“猫识别”系统的训练和现在无异，系统在输入了数百万张猫脸图片后，就能识别一张图片是不是猫。

后来很多新的图像识别模型都没有走出这个“暴力训练”的框架，而只是在探索如何更加高效地进行识别。

那么反过来，人类也是以这种方式进行视觉识别的吗？比如，在对于这只动物，你认为它是什么呢？

其实，这是一只长得像狗的猫。

锁死AI基础研究的两个「智子」是什么？_神经网络_11

不对，说错了。这是一只长得像猫的狗。

正确答案倒不重要，问题是光看照片，是不是两种说法似乎都能够接受？

实际上，关于视觉识别这个问题，人工智能领域有一个长期的争论：识别究竟是目标问题，还是场景问题？

目标问题也就是打标签，就像上述的猫识别系统和手写数字识别系统，对一张图片，打上“是XX、不是XX”的标签就行。

场景问题则不满足于打标签，而是要先回答：我们要识别的对象，和周围环境是什么关系？对这个问题的回答，决定了该对象应该打上什么标签。

比如对于上图中的“猫狗”，我们最终要判断它是猫还是狗，可以在现实中接触它，用你的双手捧起它的两只前爪，看它是摇尾巴，还是挠你一脸。

也就是说，我们要通过获得识别对象和其他对象（比如人）之间的交互信息，来判断对象的类别。当然，如果照片中刚好有它跑去追飞盘或者趴在猫抓板上的信息，就不用冒这个险了。

如今的深度学习，在某种程度上，可以基于场景去进行视觉识别，比如它也可以基于狗的图片中的草坪，帮助判断图片中的对象更可能是狗。

但它不能给出这种关系判断的显式依据。同时，这种语境判断甚至会给模型带来问题，比如如果模型看到的训练数据中，狗总是在草坪里出现，那么深度学习就会把草坪的存在当成狗出现的依据。这也是深度学习一直被诟病的捷径学习问题。

所以，场景不是简单地通过增加输入信息就能解决。归根结底，识别不是简单的感知问题，而是感知、常识和目的融合的结果，深度学习只学会了感知，上述的“猫狗”识别还需要结合常识。

那么，目的要如何理解呢？简单来说就是，“拿着锤子，看啥都是钉子。”

如下图所示，我敢打赌你是第一次见到这种“东西”，通过常识你可以大致判断这可以作为椅子，因为你可以坐上去，并放松全身肌肉。但如果你不是想坐着看电视，而是在玩躲猫猫呢？这时它就是很好的防护罩了。还有，如果你要搬家，这是不错的临时容器。

锁死AI基础研究的两个「智子」是什么？_人工智能_12

一般情况下，当一个物体存在二义性的时候，就需要依靠场景识别，而不止是目标识别。

所以，深度学习并没有解决AI最基本的识别问题。为什么我们还没有放弃它？

无所不能的黑盒子

是深度学习的无限潜力，让我们舍不得放弃。

通用近似定理表明，单一隐藏层、无限宽的前馈神经网络，可以逼近任意的函数（完备的表达能力）。也就是说，如果任意的问题都可以转化为一个函数问题，深度学习可以解决任何问题。

那么，只要有大数据、大模型和大算力，未来我们就能利用深度学习实现通用人工智能？

的确，支持这条路线的学者不少，比如获得2018年图灵奖的深度学习“三巨头”，都对此坚信不疑。他们也认为，如今人们一直强调的常识，或者认知智能，也可以用深度学习来实现。

锁死AI基础研究的两个「智子」是什么？_神经网络_13

不考虑效率的话，这一说法没有问题。但同样，采用更加暴力的进化算法也能实现通用人工智能，DeepMind近期还专门发表一篇论文，讲述其如何设想利用强化学习来实现通用人工智能。

奥地利-捷克实验物理学家和哲学家恩斯特·马赫曾经提出，“思维经济是科学的主要任务”，思维经济原则就是“事实的经济陈述”。我们应该追求尽可能简洁高效的科学方法，这种思想其实和上述智能的简单定义（信息压缩，而且是尽可能压缩）也很相似，不够高效的智能算法算不上智能。如果深度学习在某一任务上不如其他方法，就不应该采用它。

锁死AI基础研究的两个「智子」是什么？_人工智能_14

他们也许在沉醉“深度学习/进化算法/强化学习就是通用人工智能”这样简单的描述，而没有考虑到暴力堆叠数据和算力带来的复杂性。当然，只要能产出有影响力的论文，喊喊口号不是问题。

那么，我们还有其他的候选吗？也就是拥有完备表达能力的其他架构体系？

实际上，在理论表达能力方面，SVM也可以实现任意的非线性变换，从而拥有和深度学习相同的表达能力，但它的优化非常困难（近似能力差），并且不适用于大数据训练。

图神经网络近年来受到热捧，但基于论文”How powerful are graph neural networks？“中的讨论，已有理论证明它的表达能力有一个确定的上界。有很多人在努力寻求改进的方法，以提高它的表达能力，并卓有成效，但仍然未能与深度学习匹敌。

其实除了表达能力，深度学习会得到重用，还有优化简单、认知门槛低、硬件支持、环境支持（数据）等等原因，可谓天时地利人和。

在这样的背景下，深度学习必然不会被断然放弃，人们也在尝试“深度学习+”的妥协路线，比如深度学习+传统机器学习、深度学习+人工编程等等。

在深度学习的框架内，感知和认知究竟有没有绝对的边界，不少学者试图通过打开深度学习这个庞大无边的黑盒子，去找寻线索。

5 语言和逻辑的源头

打开黑盒子，其实就是研究深度学习的可解释性。

如今人们已经开发出了非常丰富的解释神经网络的方法。比如可视化神经元，当初通过这项技术来可视化CNN，人们发现了CNN具有层级表征。而如今，OpenAI的CLIP网络可视化在这一点上做到了极致，并发现了神经元的“祖母细胞”现象和概念组合效应。

另外，在深度表征解耦上也有大量的相关工作，比如胶囊网络、InfoGAN等等。InfoGAN可以在向量空间控制生成图像的不同变量，并且不会互相干扰，比如MNIST数据集中的数字类型、旋转角度，以及人脸生成中的五官控制等等。

锁死AI基础研究的两个「智子」是什么？_深度学习_15

可视化倾向于感性理解，表征解耦倾向于数学理解，但人们更加熟悉的解释方式，还是逻辑和语言。

在逻辑方面，决策规则、决策树都是典型的方法，决策规则可以采用If-Then的结构来表示。

锁死AI基础研究的两个「智子」是什么？_AI基础研究_16

规则的基本形式是 If P, then Q。其中 P 被称为前因，Q 被称为结果，Q通常是网络的预测（例如，类标签）。P 通常是几个输入特征的条件组合。对于复杂模型，解释规则可以是命题规则、一阶规则或模糊规则等其他形式。

决策树的形式与决策规则很相似，在计算机视觉模型的可解释性研究中经常用到。

锁死AI基础研究的两个「智子」是什么？_神经网络_17

基于这些解释方法提取出来的模型，一般无法等价于原有模型。在学习新数据时，仍然需要用原有的深度学习模型来训练，深度学习模型代表着存储知识的数据库。也就是说，这些解释模型，只是一种相对的信息压缩，提取了部分缺乏足够上下文信息的知识，同时也意味着信息的丢失。

比如在InfoGAN中，模型的输入就被分成了两部分：

（1）不可压缩的 z，该部分不存在可以被显式理解的语义信息。

（2）可解释的隐变量 c，该部分包含我们关心的语义特征（如 MNIST 数据集中数字的倾斜程度、笔画的粗细），与生成的数据之间具有高相关性（即二者之间的互信息越大越好）。

解释模型并不包含关于不可压缩部分的信息。如何理解这些不可压缩、不可显式理解的部分呢？

CNN和人类视觉神经的识别原理有一个很相似的地方，那就是底层网络的特征提取阶段。而这一部分的识别过程，我们是意识不到的，永远也无法依靠自觉去分析背后的过程。

这其实也就是深度学习中不能被理解的部分，对应于人类的无意识。所以深度学习也和人类一样，分为有意识部分和无意识部分吗？并且，无意识部分就永远无法被我们所理解？这种表述倒是和精神分析中的经典冰山比喻很相似。

锁死AI基础研究的两个「智子」是什么？_深度学习_18

当然，这只是个比喻。由于意识不是一个具有明确定义的科学概念，这里仅作为讨论方便而借用一下。

首先，有意识和无意识只是相对的，有意识可以从无意识中不断挖掘出来。那么，有意识要怎么去挖掘呢？

一个长期独居在远离人类社会的地方的人，语言和逻辑能力会逐渐丧失，其也不能反思自己的行为，只能按照外界的刺激进行单调的反应，就像无意识状态一样。

也就是说，语言产生于沟通、解释的需要。因此，人类认知的有意识部分，可以基于沟通的需求推动，提炼成逻辑和语言。

在深度学习领域，已经有了基于类似思想的工作。论文“Mining Object Parts from CNNs via Active Question-Answering”描述了一种基于人机交互来提取目标检测CNN的模型解释的方法。

锁死AI基础研究的两个「智子」是什么？_神经网络_19

在交互中，比如对一张马的图片输入，计算机会不断重复问人类，现在的检测结果正确吗？人类根据情况提供5种不同的回答：

（1）边框正确；

（2）边框不正确，但提供了正确的参考模板（其他马的图片的检测结果）；

（3）边框不正确，参考模板也不对；

（4）应该采用新的模板；

（5）目标不存在于图片中。

如果收到答案 2-4，计算机会要求人类对目标部分进行重新注释。在答案3的情况下，计算机会要求人们重新指定模板，以及确定物体是否翻转。

基于这些信息，计算机就能构建起模型的“知识图谱”——AOG（与或图），AOG 有四层，它们对从语义部分、部分模板、潜在模式到 CNN 单元的清晰语义层次进行编码。如此，计算机就能逐步构建起输出结果和CNN神经元之间的关系。并且，计算机问的越多，AOG包含的知识就越丰富。

这种提取方法偏向于逻辑，那么语言解释要如何提取呢？在提炼语言解释的过程中，其需要借用现实的隐喻来表达。

在著名语言学家乔治·莱考夫的经典著作《我们赖以生存的隐喻》中就提到，人类是没有办法直接表述抽象概念的，必须借用隐喻。比如“我们在危机的包围中生存下来”这句话，就借用了“包围”的现实本体，比如一个羊圈，作为隐喻来表达“我们”和“危机”之间的关系，即它们是一种“找不到突破口”的关系。人类在理解这句话的时候，脑海里隐含地存在类似羊圈的本体形象，如果不刻意去深究，平常不会意识到。

锁死AI基础研究的两个「智子」是什么？_人工智能_20

这如何对神经网络的可解释性以启发呢？目前在多模态学习中，已经初有成效，但尚未有非常可靠的结果。还有另外一种方案就是，不解释。

不解释的意思就是，我们不去寻求对神经网络的解释，神经网络既然是个黑盒子，那就乖乖当个黑盒子。

但在这个网络中，我们可以随意插入已知的、有现实对应物的概念，作为网络的输入、输出（也就是隐喻的本体）。

如今很多AI模型都不是一步到位的，而是在整个pipeline中分成了多个阶段。

通俗来讲，现在的深度学习可以替代任何你想替代的程序模块，但对于一个蛋白质结构预测程序而言，只取代3D结构预测部分，其它部分沿用已有技术，整个系统就会可靠得多。相对于将整个程序用深度学习取代，我们不知道的部分也会相对简单得多。同时，我们知道黑盒子的边界是从“肽链”到“蛋白质3D结构”。这其中，“肽链”和“蛋白质3D结构”就是我们需要的可理解的“隐喻”，以及用于语言表达的词汇。

这提供了一个思路，就是解释从输入到输出的推理过程，我们可以人为地定义中间可理解输出。

比如发表在Nature的“Using deep learning to model the hierarchical structure and function of a cell”这篇论文中，就提出了一个多阶段输出的堆叠深度学习模型，可以从DNA序列开始，预测多个中间阶段过程（比如基于DNA序列制造蛋白质、细胞器反应等），一直到酵母细胞组成部分的形成，实现了对基因作用过程的结构化解析，并且能轻易观察DNA改变时细胞机制的变化。

研究人员训练了数百万个基因型，并模拟出了一个真核细胞，模拟细胞的生长几乎与实验室观察一样准确。这个真核细胞包含了2,526 个子系统的层次结构。

锁死AI基础研究的两个「智子」是什么？_人工智能_21

基于pipeline拆解的做法，可以对每个模型降低复杂度和解释难度，并在整体层面提高可解释性。

不可否认，即便人们提出了上述的解释方法，深度学习模型依然存在不可解释的部分，而被解释的部分，不可能完全代表深度学习模型。这就好像一个人说过的话不能代表一个人的全部，所有书本中的知识也不能代表世界一样，而且书本的知识如果不是由人类去解读，也没有意义。

人类终究能够接受这种一直存在的不可解释性吗？新事物通常缺少理解的参考物，不可避免被过分排斥。人类质疑一位医生的诊断的方式，除了自己成为医生，另一个办法就是找另外一位医生求证。同样，对深度学习的不可解释性的过分焦虑，或许也会在未来该技术普及的某个阶段，慢慢消失。

深度学习的可解释性研究给了我们很多感性上的理解，或许有一天我们能够在黑盒子中窥见感知转变为认知的节点。而智子似乎仍在实验层面以巨大的复杂性，阻碍我们去发现它。

接下来，我们将讨论深度学习的理论研究。可以看到，这个领域完全不关心感知、认知之类的问题，它们甚至没有被定义。可以说，这完全是两个世界。

6 智子的真面目

有人曾指出，如今深度学习存在理论和实践严重脱节的情况。最典型的现象就是，深度学习理论往往将无限宽神经网络作为研究对象，但现实中用的最多的，往往是非常深的网络，比如ResNet。

上文提到的神经网络的优化过程存在自发的随机性，其实是梯度下降中的隐式偏差现象。这种现象可以让梯度下降达到更好的局部极小值。

许多科学家都曾提到，如今深度学习缺乏理解是因为数学工具的匮乏，我们不能只把视野局限于梯度下降和反向传播。

实际上，反向传播算法是庞特里亚金斯最小原理 (PMP) 的近似，这是一种可追溯到 1960 年代的著名理论，它描述了最优控制问题的必要条件，深度学习本就是一个优化问题。

另外，人们也注意到，或许可以借用统计物理的思想，来揭开隐式偏差（即智子）的真面目。

深度学习的优化过程，其实和统计物理中的动力学系统很相似。在统计物理中，其研究问题可以是一杯被摇动的水的最终状态，最终这杯水会趋于平静。水会到达这个状态，一方面是基于能量最小原则，另一方面是基于熵最大原则。

在梯度下降中，基于神经网络的初始参数的损失函数，也是一杯被摇动的水，最终会基于能量和熵的变化规律走向平静状态，也就是局部极小值。也就是说，智子就是梯度下降过程中的熵驱动的现象。基于这种相似性，人们将梯度下降和统计物理中的布朗运动现象联系了起来。

锁死AI基础研究的两个「智子」是什么？_AI基础研究_22

其他类似的尝试还包括，将物理学中的有效场论来理解神经网络。在提出这个理论的新书《The Principles of Deep Learning Theory》中，作者Daniel A. Roberts甚至说道，基于他们的理论可以“对任何模型直接给出最佳超参数。”相信深度学习和物理学的交叉，可以带来非常丰富的成果。

基于上述讨论可以发现，深度学习的理论和实验之间确实存在较大的鸿沟，它们甚至采用了两种不同的语言体系来描述各自的研究对象。对比之下，在物理学领域，在理论和实验层面都可以用能量、动量、时间、空间的语言来描述。

因此有人提出，目前人工智能主要还在机器学习的范畴里，要想有一个大统一的理论，首先要从数学上定义什么是智能，就像信息论里的熵一样。

然而，由于人类对大脑的研究还很有限，对智能是什么尚未有定论。因此无论从AI的实验还是理论的角度，定义智能或许还是非常困难的事情。感知和认知的划分或许太粗糙，优化领域的视角或许太狭窄。换个角度来说，AI的研究其实也在逐步增进我们对人类智能的认知。

7 尾声

无论是藏在神经网络中的智子，还是现身人间蛊惑人心的智子，我们现在都还未能找到完全击败它们的办法。一方面，要追寻正确的研究问题，不局限于单一的领域视角，另一方面，也要有扎实的基础知识，严谨的治学态度。如此，我们才有可能在这场”三体人战争“中取得最终的胜利。

锁死AI基础研究的两个「智子」是什么？_AI基础研究_23

Disclaimer：本文作者感谢接受采访的专家。本文其他观点不代表专家个人观点。

参考资料

[1]A Survey on Deep Learning: Algorithms, Techniques, and Applications

https://courses.cs.duke.edu//spring20/compsci527/papers/Pouyanfar.pdf

[2]A State-of-the-Art Survey on Deep Learning Theory and Architectures

https://www.mdpi.com/2079-9292/8/3/292

[3][Deep Learning Theory Review: An Optimal Control and Dynamical Systems Perspective

https://arxiv.org/pdf/1908.10920.pdf

[4]TRUTH OR BACKPROPAGANDA? AN EMPIRICAL INVESTIGATION OF DEEP LEARNING THEORY

https://openreview.net/pdf?id=HyxyIgHFvr

[5]RANDOMNESS IN NEURAL NETWORK TRAINING: CHARACTERIZING THE IMPACT OF TOOLING

https://arxiv.org/pdf/2106.11872.pdf

[6]The Principles of Deep Learning Theory

https://arxiv.org/pdf/2106.10165.pdf

[7]A Survey on The Expressive Power of Graph Neural Networks

https://arxiv.org/pdf/2003.04078.pdf

[8]On the Expressive Power of Deep Neural Networks

https://arxiv.org/pdf/1606.05336.pdf

[9]A Survey on Neural Network Interpretability

https://arxiv.org/pdf/2012.14261.pdf

[10]Visual Interpretability for Deep Learning: a Survey

https://arxiv.org/pdf/1802.00614.pdf

[11]Mining Object Parts from CNNs via Active Question-Answering

https://arxiv.org/pdf/1704.03173.pdf

[12]How powerful are graph neural networks？

https://arxiv.org/pdf/1810.00826.pdf

[13]浅谈人工智能：现状、任务、构架与统一 | 正本清源

https://mp.weixin.qq.com/s/-wSYLu-XvOrsST8_KEUa-Q

[14]机器学习的可解释性

https://mp.weixin.qq.com/s/CYN5ZJhkdpI0DSg_9EapEQ

[15]计算机与数学证明

https://www.changhai.org/articles/technology/misc/compMath.php

[16]人工智能是否存在「大统一理论」？

https://mp.weixin.qq.com/s/V8HPSr1O1ucaSt7WzCSY7g

[17]张钹院士演讲PPT：第三代人工智能的特点、现状及未来趋势

https://mp.weixin.qq.com/s/7HrJt0_6vkaeBvqfrbbToQ

[18]Industry and Academic Research in Computer Vision

https://arxiv.org/pdf/2107.04902.pdf

[19]THE AI INDEX REPORT

https://aiindex.stanford.edu/report/

[20]从解决问题到定义问题：科研强国的必经之路

https://baijiahao.baidu.com/s?id=1704455248164936382&wfr=spider&for=pc

[21]林毅夫：李约瑟之谜和中国的复兴

https://finance.qq.com/original/caijingzhiku/lyf____.html

[22]论文作者和审稿人串通欺骗盲审，ACM Fellow发文痛斥！

https://mp.weixin.qq.com/s/2msL2KTVaMwltBg_rXyLsQ

上一篇：这些知名制药跨国企业都实施了SAP系统

下一篇：SAP QM In-process inspection in Discrete Manufacturing

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

锁死AI基础研究的两个「智子」是什么？

锁死AI基础研究的两个「智子」是什么？

51CTO博客