逆强化学习和模仿学习模仿强化论

关注轩辕

文章目录

模仿学习
生成对抗模仿学习（Generative Adversarial Imitation Learning）

逆强化学习和模仿学习模仿强化论

转载

轩辕 2024-05-13 20:59:22

文章标签 逆强化学习和模仿学习人工智能策略模式机器学习数据集 文章分类 机器学习人工智能

前文是一些针对IRL，IL综述性的解释，后文是针对《Generative adversarial imitation learning》文章的理解及公式的推导。

通过深度强化学习，我们能够让机器人针对一个任务实现从0到1的学习，但是需要我们定义出reward函数，在很多复杂任务，例如无人驾驶中，很难根据状态特征来建立一个科学合理的reward。
人类学习新东西有一个重要的方法就是模仿学习，通过观察别人的动作来模仿学习，不需要知道任务的reward函数。模仿学习就是希望机器能够通过观察模仿专家的行为来进行学习。
OpenAI，DeepMind，Google Brain目前都在向这方面发展。

[1] Model-Free Imitation Learning with Policy Optimization, OpenAI, 2016

[2] Generative Adversarial Imitation Learning, OpenAI, 2016

[3] One-Shot Imitation Learning, OpenAI, 2017

[4] Third-Person Imitation Learning, OpenAI, 2017

[5] Learning human behaviors from motion capture by adversarial imitation, DeepMind, 2017

[6] Robust Imitation of Diverse Behaviors, DeepMind, 2017

[7] Unsupervised Perceptual Rewards for Imitation Learning, Google Brain, 2017

[8] Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation, Google Brain, 2017

[9] Imitation from Observation/ Learning to Imitate Behaviors from Raw Video via Context Translation, OpenAI, 2017

[10] One Shot Visual Imitation Learning, OpenAI, 2017

模仿学习

从给定的专家轨迹中进行学习。
机器在学习过程中能够跟环境交互，到那时不能直接获得reward。
在任务中很难定义合理的reward（自动驾驶中撞人reward，撞车reward，红绿灯reward），人工定义的reward可能会导致失控行为（让agent考试，目标为考100分，但是reward可能通过作弊的方式）。
三种方法：
a. 行为克隆（Behavior Cloning）
b. 逆向强化学习（Inverse Reinforcement Learning）
c. GAN引入IL（Generative Adversarial Imitation Learning）
行为克隆
有监督的学习，通过大量数据，学习一个状态s到动作a的映射。

逆强化学习和模仿学习模仿强化论_逆强化学习和模仿学习

但是专家轨迹给定的数据集是有限的，无法覆盖所有可能的情况。如果更换数据集可能效果会不好。则只能不断增加训练数据集，尽量覆盖所有可能发生的状态。但是并不实际，在很多危险状态采集数据成本非常高。

逆向强化学习
RL是通过agent不断与environment交互获取reward来进行策略的调整，最终得到一个optimal policy。但IRL计算量较大，在每一个内循环中都跑了一遍RL算法。

逆强化学习和模仿学习模仿强化论_逆强化学习和模仿学习_02

IRL不同之处在于，无法获取真实的reward函数，但是具有根据专家策略得到的一系列轨迹。假设专家策略是真实reward函数下的最优策略，IRL学习专家轨迹，反推出reward函数。

逆强化学习和模仿学习模仿强化论_数据集_03

得到复原的reward函数后，再进行策略函数的估计。
RL算法：

逆强化学习和模仿学习模仿强化论_逆强化学习和模仿学习_04

IRL算法：

逆强化学习和模仿学习模仿强化论_数据集_05

在给定的专家策略后（expert policy），不断寻找reward function来使专家策略是最优的。（解释专家行为，explaining expert behaviors）。具体流程图如下：

逆强化学习和模仿学习模仿强化论_机器学习_06

生成对抗模仿学习（GAN for Imitation Learning）我们可以假设专家轨迹是属于某一分布（distribution），我们想让我们的模型也去预测一个分布，并且使这两个分布尽可能的接近。

逆强化学习和模仿学习模仿强化论_人工智能_07

算法流程如下：

逆强化学习和模仿学习模仿强化论_机器学习_08

Discriminator：尽可能的区分轨迹是由expert生成还是Generator生成。

逆强化学习和模仿学习模仿强化论_人工智能_09

Generator(Actor)：产生出一个轨迹，使其与专家轨迹尽可能相近，使Discriminator无法区分轨迹是expert生成的还是Generator生成的。

逆强化学习和模仿学习模仿强化论_逆强化学习和模仿学习_10

其算法可以写为：

逆强化学习和模仿学习模仿强化论_数据集_11

生成对抗模仿学习（Generative Adversarial Imitation Learning）

GAIL能够直接从专家轨迹中学得策略，绕过很多IRL的中间步骤。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：examples 泄露泄漏信息用英语怎么说

下一篇：jmeter respnese 写入文件 jmeter操作文档

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册