ICLR 2018

从研究的角度来看,对抗学习仍将是 ICLR 的一大主题。

深度学习领域中目前最流行的就是生成对抗网络。在本文中,我会统一介绍一下竞争事务里的对抗样本和环境。实际上,任何形式的极小极大化优化问题都可以看作是对抗学习。

我不知道 GAN 是不是真的很流行,或许这是我自己的偏见,因为我很喜欢这些方法,它们给人的感觉很强大。GAN 可以解释为:通过使用网络学习到的隐性损失来训练生成器,而不是用人为定义的损失函数。这使你能适应生成器的能力,并且可以定义无需人工解释的损失函数。

当然,这会使问题更加复杂。不过如果有足够强的优化和建模能力,那么隐性学习损失与其它方法相比,能提供更清晰的图像。使用学习组件替换系统的部件的一个好处是,优化和建模能力的优势能应用到问题的更多方面。学习损失函数的能力提升了,同时最小化这些学习损失的能力也提高了。

从更抽象的角度来看,这涉及到具有表达能力,可优化的函数集合,如神经网络。极大极小值优化算法(Minimax)不是一个新概念,它已经有些年头了。新的思想在于深度学习能基于高维度数据进行建模,并且学习复杂的损失函数。对我而言,GAN 的有趣之处不是图像生成,而是它们在复杂数据,如图像上的概念证明。整个框架并不要求使用图像数据。

学习过程还有其他的部分可以用学习方法来代替,而不是用人工定义的方法,深度学习就是这样一种方法。这样做有意义吗?也许有。问题是用的深度学习方法越多,让每件事都具有学习性也变得越难。如果系统不稳定崩溃了,什么也无济于事。(乌龟塔理论,乌龟崩溃了,地球就没有支撑点了)。

ICLR 2018和ICRA 2018参会见闻:机器学习并未被完全接受_java

最近 Quanta Magazine 上有一篇文章,Judea Pearl 在上面表达了他的失望:深度学习只是学习相关性或曲线拟合,而这并不涵盖所有的智能。我同意 Judea Pearl 的观点,但作为深度学习的拥护者,我认为如果你把一个足够大的神经网络进行足够好的优化,你可以学到一些看起来很像因果推理的东西,或者其它可以算作智能的东西。但这就接近哲学的领域了,所以我就讲到这里。

从与会者的角度来说,大量的海报展示相当讨人喜欢。这是我第一次参加 ICLR,之前参加过的机器学习会议是 NIPS。NIPS 规模大得惊人,要阅读每份海报是不可能的。而在 ICLR,这还是能做到的。

另一个值得称赞的是,ICLR 上的企业招聘也不像 NIPS 那样古怪。在 NIPS 上,有些企业会发放指尖陀螺等玩具,虽然这很独特,不过实际上会给人带来怪异的感觉。在 ICLR,我收到的最奇怪的东西就是一双袜子,有点古怪但还不是那么标新立异。

下面是我后续会关注的一些论文:

  • Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play

    https://openreview.net/forum?id=SkT5Yg-RZ

  • Learning Robust Rewards with Adverserial Inverse Reinforcement Learning

    https://openreview.net/forum?id=rkHywl-A-

  • Policy Optimization by Genetic Distillation

    https://openreview.net/forum?id=ByOnmlWC-

  • Measuring the Intrinsic Dimension of Objective Landscapes

    https://openreview.net/forum?id=ryup8-WCW

  • Eigenoption Discovery Through the Deep Successor Representation

    https://openreview.net/forum?id=Bk8ZcAxR-

  • Self-Ensembling for Visual Domain Adaptation

    https://openreview.net/forum?id=rkpoTaxA-

  • TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning

    https://openreview.net/forum?id=HyiAuyb0b

  • Online Learning Rate Adaptation with Hypergradient Descent

    https://openreview.net/forum?id=BkrsAzWAb

  • DORA The Explorer: Directed Outreaching Reinforcement Action-Selection

    https://openreview.net/forum?id=ry1arUgCW

  • Learning to Multi-Task by Active Sampling

    https://openreview.net/forum?id=B1nZ1weCZ

ICRA 2018

ICRA 是我参加的第一个机器人会议。我不知道该期待什么,我最开始做的是机器学习研究,后来对机器人技术产生了兴趣,所以我的兴趣更接近于学习控制,而不是制作机器人。我认为理想格局是可以将实际物理世界的硬件看作抽象的。

这种想法再加上对控制理论的不完全理解,我对会议中的很多讨论主题都不熟悉。不过,我还是很高兴能参加该会议,因为有很多的学习领域论文。

在我能理解的一些研究题目中,我很惊讶有这么多强化学习的论文。但没有一篇采用存粹的无模型 (model-free RL)方法,这十分有趣。

对于 ICRA,如果你的算法在机器人上验证过,相应的论文被采用的机会非常大。这会促使作者关注数据效率,因此对只采用 model-free 的 RL 有很大的偏见。在会场中,会不停听到类似“我们在 X 中结合了无模型强化学习”的话,其中 X 是基于模型的强化学习(model-based RL),或者从人类表达(human demonstrations)中学习,或从运动规划(motion planning)中学习,或从任何可以有助于问题解决的东西中学习。

从更广泛的层面上来看,会议有其实用性。它虽然是一个研究性会议,很多观点仍处于推理阶段,但感觉人们对于有限的,目标明确的解决方案是可以接受的。这可以看作是作者必须使用实际硬件的另一个结果。如果需要实时运行模型,则不能忽略推理时间。如果要从实际机器人那里收集数据,就不能忽视数据效率。真正的硬件不会关注你的问题是什么。

(1) 网络必须能够运行。

(2) 不管做何努力,也不管赋予何种优先级,我们都无法提高光速。

(RFC 1925)

这让许多 ML 领域中的人感到惊讶,但这个机器人技术会议并没有像 NIPS/ICLR/ICML 一样,完全地接受 ML,部分原因是 ML 并不总能奏效。机器学习是一个解决方案,但它不能确保总是有意义。我认为,ICRA 中只有少许人希望 ML 走向失败的道路。如果 ML 能够自证,其余的人对于使用 ML 是完全没意见的。而在某些领域,它已经证明了自己。我看到的每篇关于感知的论文都以不同的方式使用了卷积神经网络(CNN)。但很明显,极少数人使用深度学习来进行控制,因为控制有许多不确定因素。

和 ICLR 一样,ICRA 上很多公司也会进行招聘或设置公司展台。但和 ICLR 不同的是,ICRA 的展台更有意思。大部分公司会携带机器人来演示。这肯定比听一堆的招聘宣讲有趣的多。

在去年的 NIPS 上,ML 公司的展台让我联想到 Berkeley 招聘会上的一些问题。每个科技公司都想招聘 Berkeley 的应届毕业生。这就像一场竞赛,看谁能给出最好的待遇和最好的免费食物。感觉他们的目标是尽可能的让自己看起来是最酷的公司,但是他们并没有告诉应聘者以后要做的工作。同样的,ML 公司在高档酒吧举办的活动也越来越精致。机器人技术领域还没有走到这一步,它虽然在发展,但是没有这么多夸张的宣传。

在一些 workshop 上,人们会谈论在现实世界中怎样使用机器人技术,都很有趣。研究会议通常倾向于讨论研究和社交,这使人们容易忘记研究本身就具有清晰且即时的经济价值。曾经有一个“农业中的机器人”报告,谈到如何采用计算机视觉来检测到杂草以及精准喷洒除草剂。这听起来是很好的事情,用了更少的除草剂,杀死更少的农作物,同时降低了除草剂抗性的产生。

Rodney Brooks 也有一个类似的演讲,他以 Roomba 为例,讨论了将机器人转化成消费产品所需的东西。他指出,在设计 Roomba 时,就已经考虑到价格,并且将所有的功能模块控制在这个价格里面。结果是,几百美元的价位限制了传感器和硬件的选择,这样在进行设备级推理时就带来了很大的限制。

从组织的角度来看,ICRA 运转的很好。会议中心右侧紧邻一个印刷店,因此在注册时,组织者会说,如果与会者在特定期限内通过电子邮件发送 PDF 文件,他们会处理剩下的所有流程。与会者需要做的就是在线支付海报费用,并在会议上拿出来。所有的海报展示都在展台进行,每个区域都有一个白板和一个展示台,你可以在展示台上用笔记本电脑播放演示视频。

ICLR 2018和ICRA 2018参会见闻:机器学习并未被完全接受_java_02

下面列出后续我会关注的一些文章:

  • Applying Asynchronous Deep Classification Network and Gaming Reinforcement Learning-Based Motion Planner to a Mobile Robot

    http://ghryou.me/assets/pdf/ghryou_icra_2018.pdf

  • OptLayer - Practical Constrained Optimization for Deep Reinforcement Learning in the Real World

    https://arxiv.org/abs/1709.07643

  • Synthetically Trained Neural Networks for Learning Human-Readable Plans from Real-World Demonstrations

    https://arxiv.org/abs/1805.07054

  • Semantic Robot Programming for Goal-Directed Manipulation in Cluttered Scenes

https://www.youtube.com/watch?v=kOcdqUmXRRo

  • Interactive Perception: Leveraging Action in Perception and Perception in Action

https://arxiv.org/abs/1604.03670