• 摘要:近期,DRL领域中,关于 batch RL 的研究激增。batch RL 旨在从给定的数据集中学习高性能策略,而无需与环境进行额外的交互。我们提出了一种新算法 BAIL,力求同时满足简单性和高性能。BAIL 学习一个
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL

  • 函数,以此评估并选出高性能的动作,然后对这些动作数据做模仿学习来训练策略网络。利用 MuJoCo 基准任务,我们在多种批量数据集上比较了 BAIL 与其他四种 batch Q-learning 和 imitation learning 方法的性能。实验表明,BAIL 的性能远高于其他方法,并且在计算上也比 batch Q-learning 方法快得多
文章目录
  • 1. Offline RL 背景
  • 2. 本文方法
  • 2.1 思想
  • 2.2 算法细节
  • 2.2.1 上包络网络(upper envelope)
  • 2.2.2 选择最优动作
  • 2.2.3 更好的收益计算方式
  • 2.3 伪代码
  • 3. 实验
  • 3.1 生成 batch 数据
  • 3.1.1 Training batches
  • 3.1.2 Execution batches
  • 3.2 实验结果
  • 3.2.1 Training batches
  • 3.2.2 Execution batches
  • 3.2.3 上包络网络消融实验
  • 3.2.4 训练耗时
  • 4. 结论 & 讨论

1. Offline RL 背景

  • ​Offline RL​​ 是这样一种问题设定:Learner 可以获取由一批 episodes 或 transitions 构成的固定交互数据集,要求 Learner 直接利用它训练得到一个好的策略,而且禁止 Learner 和环境进行任何交互,示意图如下
  • 关于 Offline RL 的详细介绍,请参考 Offline/Batch RL简介

2. 本文方法

  • 本文方法属于 IL-based 方法,适用于确定性MDP

2.1 思想

  • 形式化地讲,假设对于任意
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_02

  1. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_03

  2. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_04

  3. 代表从
  4. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_05

  5. 任意满足
  6. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_06

  7. 的动作即为状态
  8. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_07

要学习一个好的策略,等价于对

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_08

,找出对应的最优动作

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_09

  • 本文思想很直接,分为三步
  1. 利用有限的 batch 数据,给出对最优价值函数

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_10

    的估计

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_11

    。为了实现这种最大化函数的估计,作者在此提出了 “上包络网络” 的概念
  2. 在 batch 中挑选那些

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_12

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_13

  3. 在选出的

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_14

2.2 算法细节

2.2.1 上包络网络(upper envelope)
  • 假设现有 batch 数据集
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_15

  • ,假设这些数据是以轨迹形式生成并组织着的,可以计算任意状态
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_16

  • 的 MC return
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_17

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_18

  • 表示
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_16

  • 所在 episode 的 horizon),从而组成状态收益集合
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_20

  • ​上包络网络​​​:设
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_21

  • 是由参数
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_22

  • 参数化的神经网络,对任意的
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_23

  • ,若
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_24

  • 是以下约束优化问题的最优解,则称
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_25

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_26

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_27

  • -regularized 上包络
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_28

  • 直观地看,这个上包络网络
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_29

  • 的输出就是
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_16

  • 的真实 return
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_31

  • 上极限
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_27

  • 作者对上包络网络进行了分析,假设
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_21

  • 是一个使用 ReLu 激活函数的全连接网络,给定任意
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_34

  • ,上述约束最优化问题对应的最优解为
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_35

  • ,使得
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_25

  • 是数据集
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_26

  • 的上包络网络,那么有
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_38

  • 可见,当
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_39

  • 时,网络输出为整个 batch 上的最大 return;当
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_40

  • 时,如果网络容量足够,则退化为一个简单的回归情况(证明过程见原文)。因而在二者之间一定存在一个合适的

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_41

    值(sweet point),使得上包络网络

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_42

    能够最好地为各个状态

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_07

  • 解这个约束优化问题时,作者采用了一般的方法:把 “约束转化为惩罚项”,从而将其转换为无约束优化问题,即最小化以下损失函数
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_44

  • 其中
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_45

  • 是惩罚系数,显然,当
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_46

  • 时,两个优化问题同解;当 K 是一个有限值时,得到近似的上包络(存在少数
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_47

  • ),经过测试,作者在此选择了
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_48


  • 在四个环境中,使用含100万 transitions 的训练集学习上包络网络,结果如下(为了帮助可视化,状态按照其上包络值排序)
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_49

  • 注意这些环境都是确定性的连续控制任务,每个状态对应的动作空间是连续的,因此图中任取一列(即固定一个状态
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_50

  • )都有很多
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_02

  • 另外,在实践中,作者没有使用

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_52

2.2.2 选择最优动作
  • 计算价值上包络,其实就是对数据集覆盖状态
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_50

  • 的最高 return 做了一个估计
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_21

  • ,于是可以认为,那些 return 靠近

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_55

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_05

    二元组,其动作

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_57

    。自然地,下一步我们就要从 batch 中选出这些好的
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_02

  • 作者在此提出了两种最优动作选择方法
  1. BAIL-ratio:选择所有
  2. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_59

  3. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_60

  4. ,其中
  5. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_61

  6. BAIL-difference:选择所有
  7. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_62

  8. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_60

  9. ,其中
  10. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_61

其中

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_65

是一个超参数,它和二元组的占比

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_66

是一一对应的。在实践中,作者先设置比例值(比如

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_67

),从而确定

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_65

  • 样本点选取示意图如下
2.2.3 更好的收益计算方式
  • 和 BCQ、BEAR 等文章一样,本文作者选用 MuJoCo 连续控制任务进行实验。这些任务是都是无限 horizon 不分幕形式的,因此训练通常的做法是:人工收集定长的交互轨迹(比如 1000 步长度),之后随机选择一个状态重新开始新轨迹。这里暗含着一个问题
  1. 无限 horizon 不分幕的任务形式,意味着轨迹都是无限长,因而每个
  2. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_05

  3. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_07

  4. 人工划分采样轨迹长度,意味着实践中的 return 只能使用有限长度 episode 计算
  • 使用有限轨迹上的 return 估计无限长轨迹上的 return,显然是不准的。虽然有折扣系数
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_71

  • ,采样轨迹头部的
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_72

  • 计算误差较小,但是对于采样轨迹尾部的

    论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_02

    ,这种误差就不能忽略了

一个极端的例子是:设轨迹都是1000步长度,950步时某个动作使得机器人重心偏右,将在100步后摔倒,但是只过了50步这个轨迹就被打断了,因此摔倒的巨大负奖励没能传回来影响950步时这个动作的价值

  • 为了缓解上述问题,作者在此提出了一个启发式的方法。设
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_74

  • 是一个轨迹,
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_75

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_76

  • 的最后一个状态,为了计算低
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_77

  • 的 transition
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_78

  • 的 return,设
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_79

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_80

  • 中第一个欧式距离最靠近
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_75

  • 的状态,如下计算 return
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_82

  • 可见,这个就相当于在轨迹中截取一段接在最后面。极端情况下,重新拼接后的轨迹长度也至少有 800 步(
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_83

  • ),在这种长度下,
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_71

  • 举例如下:总长度1000步,以
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_75

  • 状态终止的蓝色轨迹,为计算
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_86

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_78

  • 的 return,在前
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_88

  • 步中找到距离
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_75

  • 欧式矩阵最近的状态
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_79

  • ,将
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_91

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_92

  • 两段轨迹拼接在一起作为从
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_93

  • 开始的轨迹计算 return
  • 对于这种修正方式的实验如下:该实验在 Hopper-v2 环境中进行,使用 SAC 和 DDPG 在训练中收集 batch 数据,一共训练 100 个 epochs,每个包含 100 万交互 transition。对于 BAIL,前 50 个 epochs 的交互数据用于计算上包络网络。

    为了评判修正 return 的准确程度,此实验中所有轨迹都运行了 2000 步,考察前 1000 步中各个
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_72

  • 的平均 return。红线是(BAIL)修正计算结果,棕色线(oracle)是用 2000 步计算的结果(这样每个
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_72

2.3 伪代码

  • 这里,作者使用了早停策略避免过拟合:使用参数 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_96论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_97
    在每个 epoch 之后,在验证集 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_98 上计算验证损失 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_99,将其与 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_100
  1. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_101

  2. ,则设置
  3. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_102

  4. 反之若
  5. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_103

  6. ,则计算这种情况连续发生的次数,连续出现
  7. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_104

  8. 次时训练结束,最终参数为
  9. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_105

作者在实践中使用

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_106


  • BAIL 的伪代码如下
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_107


  • 上面的方法是先训练上包络网络再训练策略网络,作者也也提出了另一种同时训练两个网络的方法,如下
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_Offline RL_108

  • 相比而言,二者的性能差不多,但是普通 BAIL 训练速度要快一些

3. 实验

  • 这篇文章做了非常多实验,事实上,他们声称详尽的实验结果也是其贡献的一部分,这里仅放出部分进行说明
  • 所有实验是在 MuJoCo 环境中的连续控制任务上进行,和 BCQ 及 BEAR 论文保持一致。

3.1 生成 batch 数据

3.1.1 Training batches

  • Training batches 是在强化学习算法训练过程中的交互数据组成的 bacth
  1. 使用 DDPG 在 Hopper-v2、Walker2d-v2、HalfCheetah-v2 三种环境上训练并收集数据,包含探索噪声
  2. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_109

  3. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_110

  4. 使用 SAC 在 Hopper-v2、Walker2d-v2、HalfCheetah-v2、Ant-v2, and Humanoid-v2 五种环境上训练并收集数据

其中每一项,都使用不同的随机种子生成两个 batch 数据,这样一共有

论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_111

  • Training batches 中的数据来自从差到好的多个策略,含有很多很差的 transition,因此直接做 BC 肯定行不通

3.1.2 Execution batches

  • Execution batches 是用固定策略和环境交互生成数据组成的 batch。这里作者使用了 BEAR paper 中相同的方法:先对 SAC 训练一定的次数,然后固定得到的 policy 和环境交互,得到 100万 “execution” transition 。分别在 SAC 训练到 “中等” 程度和 “最优” 程度时收集两次数据
  • 在固定 policy 和环境交互时,作者考虑了带探索噪声
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_论文解读_112

  • 和不带噪声的两种情况,并且对每种情况测试了两个随机种子,这样一共有
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_113

3.2 实验结果

3.2.1 Training batches

  • 对于每个算法,训练100个 epochs(每个 epoch 由一百万 transition 组成),每 0.5 个 epochs,使用当前策略运行10个 episodes 来评估性能(对五个种子重复该过程,以获得学习曲线中显示的平均值和置信区间)

  • 篇幅有限,这里仅呈现使用 DDPG,在
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_114

  • 情况下 Training batches 的效果(对应于BCQ论文中的数据集,其余实验请参照原文支撑材料),如下
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_115

  • 注:BAIL 曲线从第 51 个 epochs 开始,是因为前 50 个 epochs 的交互数据用于训练上包络网络;水平灰色虚线表示 batch 中包含的 episodes 的平均收益

  • 另外,对于 22 个 training batches 的测试结果如下。这里作者计算了 95.5 到 100 这最后 10 个策略的平均性能,与最高平均收益差距小于 10% 的都看作 “优胜”,以粗体表示(注:下表第7~12行对应上图;由于没有针对每个任务调节超参数,BEAR 性能较差)
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_116



  • 可见,BAIL 在 training batches 中表现出色,有很大潜力应用于 Growing-batch RL

  1. 在 22 个 batches 上取 BAIL 性能与 BCQ、BC 性能的比率,发现 BAIL 的表现比 BCQ 好42%,比 BC 好101%
  2. BAIL对于不同的随机种子也更稳定:在22个批次中,BAIL的标准化标准差(标准偏差除以平均性能)的平均值约为BCQ的一半

3.2.2 Execution batches


  • 40 个 Execution batches 上的对比结果如下
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_117


  • 这种情况下,虽然 BAIL 仍略优于其他 Batch DRL 策略,但是 vanilla BC 显然是最强的。这是因为 batch 数据来自单个固定策略,BC很容易学习。这一结果表明,Batch DRL 的未来研究重点应放在 Training batch 或其他由不同策略收集的数据集上,因为vanilla BC 已经很好地适用于固定策略数据集

3.2.3 上包络网络消融实验

  • 这部分测试上包络网络的作用。直观地看,我们要依靠上包络网络选出那些 “近似最优策略” 诱导的 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_05,从而模仿学习这个策略。如果上包络网络预测不准,那么我们就无法良好地估计近似最优动作,也就找不准 “近似最优策略” 诱导的 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_05,性能肯定会下降

  • 首先,如果不学习上包络网络,直接简单地从 batch 数据集中选择相同比例的,具有最高
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_31

  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_121

  • 进行训练,效果如下
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_122

  • 可见,性能下降明显,因此上包络网络对于性能至关重要
  • 其次,如果不训练上包络,而是简单地做个回归,效果也会变差。直观地看,假设 batch 中某状态 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_50 对应 10 个动作,9个的 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_02
  1. 简单回归时,
  2. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_07

  3. 使用上包络网络,
  4. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_07

  • 显然,引入上包络网络后,才能更准确地选出最优
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_离线强化学习_02

  • 进行模仿。实验效果也说明了这一点,如下
  • 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_128

3.2.4 训练耗时

  • 实验中,所有算法运行了 100 epochs,每个 batch 5个种子。每个随机种子训练耗时
  1. BAIL:1分钟∼2小时(包括上包络和模仿学习时间)
  2. Progressive BAIL:12∼24小时
  3. BCQ:36∼72小时
  4. BEAR:60∼100小时

因此,训练 BAIL 大约比 BCQ 快35倍,比 BEAR 快 50倍

4. 结论 & 讨论


  • 原文结论

  1. 对于 Training batches,BAIL 显著优于其他方法(包括BC),性能比 BCQ 提高42%,比 BC 提高101%
  2. 对于 Execution batches,BAIL 略微优于其他方法,但是不如 BC。当数据足够时,Vanilla BC 表现已经非常好了
  3. BAIL 的训练速度比其他基于 Q-function 的方法,包含 BCQ 和 BEAR 要快得多
  4. BAIL 在不同的 batch 和随机种子下表现更稳定

  • 展望

  1. 将 BAIL 和探索技术相结合,得到新的 Growing-batch RL 方法
  2. 研究 BAIL 更加稳定的原因

  • 我的评价
  1. 上包络网络似乎是这篇文章第一次提出的,有一定意义
  2. 本文方法 work 的一个前提,还是 batch 中数据足够多,覆盖性很好。Execution batches 中 BC 性能很好,说明 batch 中数据一定已经覆盖了大部分 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_batch RL_129 空间,因此不会遇到严重的 mismatch 和 cascading error 问题,换句话说,如果 batch 数据少一点,或者覆盖性差一些,BAIL 这类基于 IL 方法的性能还要打问号
  3. 本文提出的 return 修正方法有局限性。对于 MuJoCo 中连续控制任务,其每个状态几乎都是等价的,而且在 MDP 这种基于马尔可夫链的,时间和状态都离散的随机过程中,如果动作空间没有任何限制,我认为任意两个 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning_BAIL_05