ICLR 2018和ICRA 2018参会见闻：机器学习并未被完全接受

原创

mb5fdb0a1b25659 2021-04-03 12:05:45 ©著作权

©著作权归作者所有：来自51CTO博客作者mb5fdb0a1b25659的原创作品，请联系作者获取转载授权，否则将追究法律责任

ICLR 2018

从研究的角度来看，对抗学习仍将是 ICLR 的一大主题。

深度学习领域中目前最流行的就是生成对抗网络。在本文中，我会统一介绍一下竞争事务里的对抗样本和环境。实际上，任何形式的极小极大化优化问题都可以看作是对抗学习。

我不知道 GAN 是不是真的很流行，或许这是我自己的偏见，因为我很喜欢这些方法，它们给人的感觉很强大。GAN 可以解释为：通过使用网络学习到的隐性损失来训练生成器，而不是用人为定义的损失函数。这使你能适应生成器的能力，并且可以定义无需人工解释的损失函数。

当然，这会使问题更加复杂。不过如果有足够强的优化和建模能力，那么隐性学习损失与其它方法相比，能提供更清晰的图像。使用学习组件替换系统的部件的一个好处是，优化和建模能力的优势能应用到问题的更多方面。学习损失函数的能力提升了，同时最小化这些学习损失的能力也提高了。

从更抽象的角度来看，这涉及到具有表达能力，可优化的函数集合，如神经网络。极大极小值优化算法（Minimax）不是一个新概念，它已经有些年头了。新的思想在于深度学习能基于高维度数据进行建模，并且学习复杂的损失函数。对我而言，GAN 的有趣之处不是图像生成，而是它们在复杂数据，如图像上的概念证明。整个框架并不要求使用图像数据。

学习过程还有其他的部分可以用学习方法来代替，而不是用人工定义的方法，深度学习就是这样一种方法。这样做有意义吗？也许有。问题是用的深度学习方法越多，让每件事都具有学习性也变得越难。如果系统不稳定崩溃了，什么也无济于事。（乌龟塔理论，乌龟崩溃了，地球就没有支撑点了）。

ICLR 2018和ICRA 2018参会见闻：机器学习并未被完全接受_java

最近 Quanta Magazine 上有一篇文章，Judea Pearl 在上面表达了他的失望：深度学习只是学习相关性或曲线拟合，而这并不涵盖所有的智能。我同意 Judea Pearl 的观点，但作为深度学习的拥护者，我认为如果你把一个足够大的神经网络进行足够好的优化，你可以学到一些看起来很像因果推理的东西，或者其它可以算作智能的东西。但这就接近哲学的领域了，所以我就讲到这里。

从与会者的角度来说，大量的海报展示相当讨人喜欢。这是我第一次参加 ICLR，之前参加过的机器学习会议是 NIPS。NIPS 规模大得惊人，要阅读每份海报是不可能的。而在 ICLR，这还是能做到的。

另一个值得称赞的是，ICLR 上的企业招聘也不像 NIPS 那样古怪。在 NIPS 上，有些企业会发放指尖陀螺等玩具，虽然这很独特，不过实际上会给人带来怪异的感觉。在 ICLR，我收到的最奇怪的东西就是一双袜子，有点古怪但还不是那么标新立异。

下面是我后续会关注的一些论文：

Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
https://openreview.net/forum?id=SkT5Yg-RZ
Learning Robust Rewards with Adverserial Inverse Reinforcement Learning
https://openreview.net/forum?id=rkHywl-A-
Policy Optimization by Genetic Distillation
https://openreview.net/forum?id=ByOnmlWC-
Measuring the Intrinsic Dimension of Objective Landscapes
https://openreview.net/forum?id=ryup8-WCW
Eigenoption Discovery Through the Deep Successor Representation
https://openreview.net/forum?id=Bk8ZcAxR-
Self-Ensembling for Visual Domain Adaptation
https://openreview.net/forum?id=rkpoTaxA-
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
https://openreview.net/forum?id=HyiAuyb0b
Online Learning Rate Adaptation with Hypergradient Descent
https://openreview.net/forum?id=BkrsAzWAb
DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
https://openreview.net/forum?id=ry1arUgCW
Learning to Multi-Task by Active Sampling
https://openreview.net/forum?id=B1nZ1weCZ

ICRA 2018

ICRA 是我参加的第一个机器人会议。我不知道该期待什么，我最开始做的是机器学习研究，后来对机器人技术产生了兴趣，所以我的兴趣更接近于学习控制，而不是制作机器人。我认为理想格局是可以将实际物理世界的硬件看作抽象的。

这种想法再加上对控制理论的不完全理解，我对会议中的很多讨论主题都不熟悉。不过，我还是很高兴能参加该会议，因为有很多的学习领域论文。

在我能理解的一些研究题目中，我很惊讶有这么多强化学习的论文。但没有一篇采用存粹的无模型 (model-free RL）方法，这十分有趣。

对于 ICRA，如果你的算法在机器人上验证过，相应的论文被采用的机会非常大。这会促使作者关注数据效率，因此对只采用 model-free 的 RL 有很大的偏见。在会场中，会不停听到类似“我们在 X 中结合了无模型强化学习”的话，其中 X 是基于模型的强化学习（model-based RL），或者从人类表达（human demonstrations）中学习，或从运动规划（motion planning）中学习，或从任何可以有助于问题解决的东西中学习。

从更广泛的层面上来看，会议有其实用性。它虽然是一个研究性会议，很多观点仍处于推理阶段，但感觉人们对于有限的，目标明确的解决方案是可以接受的。这可以看作是作者必须使用实际硬件的另一个结果。如果需要实时运行模型，则不能忽略推理时间。如果要从实际机器人那里收集数据，就不能忽视数据效率。真正的硬件不会关注你的问题是什么。

(1) 网络必须能够运行。
(2) 不管做何努力，也不管赋予何种优先级，我们都无法提高光速。

（RFC 1925）

这让许多 ML 领域中的人感到惊讶，但这个机器人技术会议并没有像 NIPS/ICLR/ICML 一样，完全地接受 ML，部分原因是 ML 并不总能奏效。机器学习是一个解决方案，但它不能确保总是有意义。我认为，ICRA 中只有少许人希望 ML 走向失败的道路。如果 ML 能够自证，其余的人对于使用 ML 是完全没意见的。而在某些领域，它已经证明了自己。我看到的每篇关于感知的论文都以不同的方式使用了卷积神经网络（CNN）。但很明显，极少数人使用深度学习来进行控制，因为控制有许多不确定因素。

和 ICLR 一样，ICRA 上很多公司也会进行招聘或设置公司展台。但和 ICLR 不同的是，ICRA 的展台更有意思。大部分公司会携带机器人来演示。这肯定比听一堆的招聘宣讲有趣的多。

在去年的 NIPS 上，ML 公司的展台让我联想到 Berkeley 招聘会上的一些问题。每个科技公司都想招聘 Berkeley 的应届毕业生。这就像一场竞赛，看谁能给出最好的待遇和最好的免费食物。感觉他们的目标是尽可能的让自己看起来是最酷的公司，但是他们并没有告诉应聘者以后要做的工作。同样的，ML 公司在高档酒吧举办的活动也越来越精致。机器人技术领域还没有走到这一步，它虽然在发展，但是没有这么多夸张的宣传。

在一些 workshop 上，人们会谈论在现实世界中怎样使用机器人技术，都很有趣。研究会议通常倾向于讨论研究和社交，这使人们容易忘记研究本身就具有清晰且即时的经济价值。曾经有一个“农业中的机器人”报告，谈到如何采用计算机视觉来检测到杂草以及精准喷洒除草剂。这听起来是很好的事情，用了更少的除草剂，杀死更少的农作物，同时降低了除草剂抗性的产生。

Rodney Brooks 也有一个类似的演讲，他以 Roomba 为例，讨论了将机器人转化成消费产品所需的东西。他指出，在设计 Roomba 时，就已经考虑到价格，并且将所有的功能模块控制在这个价格里面。结果是，几百美元的价位限制了传感器和硬件的选择，这样在进行设备级推理时就带来了很大的限制。

从组织的角度来看，ICRA 运转的很好。会议中心右侧紧邻一个印刷店，因此在注册时，组织者会说，如果与会者在特定期限内通过电子邮件发送 PDF 文件，他们会处理剩下的所有流程。与会者需要做的就是在线支付海报费用，并在会议上拿出来。所有的海报展示都在展台进行，每个区域都有一个白板和一个展示台，你可以在展示台上用笔记本电脑播放演示视频。

ICLR 2018和ICRA 2018参会见闻：机器学习并未被完全接受_java_02

下面列出后续我会关注的一些文章：

Applying Asynchronous Deep Classification Network and Gaming Reinforcement Learning-Based Motion Planner to a Mobile Robot
http://ghryou.me/assets/pdf/ghryou_icra_2018.pdf
OptLayer - Practical Constrained Optimization for Deep Reinforcement Learning in the Real World
https://arxiv.org/abs/1709.07643
Synthetically Trained Neural Networks for Learning Human-Readable Plans from Real-World Demonstrations
https://arxiv.org/abs/1805.07054
Semantic Robot Programming for Goal-Directed Manipulation in Cluttered Scenes

https://www.youtube.com/watch?v=kOcdqUmXRRo