强化学习与奖励塑造结合框架

关注 footballboy

强化学习与奖励塑造结合框架

转载

footballboy 2024-07-30 17:01:25

文章标签 强化学习与奖励塑造结合框架人工智能强化学习算法深度学习 文章分类 机器学习人工智能

在强化学习领域，传统的要素为环境，观察表述，奖励，动作，这里的奖励完全由环境给出，论文提出一种内部驱动的奖励系统，如下图所示：

强化学习与奖励塑造结合框架_深度学习

本文将奖励分为内部驱动的奖励和外部驱动的奖励，二者相互作用指导智能体的行动。

这在生物学上有一定的依据，生物在进化中学习到了很多的品质，比如喜欢探索，好奇心，这些品质即使没有外部奖励，一些生物的个体依然会保持，可见其合理性。

论文使用两个实验证明，使用自身相关的奖励，比单纯使用外部的适应度奖励更好。

论文使用的算法为Q-learning。

一是饥饿-口渴实验：

条件是这样的，一个智能体，在一个6*6的网格中寻找食物和水，二者随机分布在网格当中，agent到达食物的点，并且执行吃的动作，就可以增加适应去，下一时刻立即又饿了，但是这个智能体会口渴，在口渴状态下无法吃食物，喝完水之后有0.1的概率随机的边的口渴，水和食物都无限供应。吃食物为外部的奖励，喝水不会增加适应度，为内部的奖励。

强化学习与奖励塑造结合框架_强化学习_02

最终比较好的智能体使用的策略如下：agent在口渴且饥饿的状态下，会朝水的点走，在不口渴且饥饿的状态下，会朝食物走。

强化学习与奖励塑造结合框架_算法_03

最终得到，在考虑口渴的奖励函数，比不考虑奖励的agent适应能力更强，虽然考虑口渴的因素不会直接增强适应度。

二是盒子实验：

在6*6的格子空间里，有2个随机位置的箱子，agent只有到达箱子位置，打开箱子，吃掉里边的食物，增加使用度。一个关闭的箱子打开后一定有食物，箱子打开后，有0.1的概率再关闭，关闭之后再打开再次有食物。

湿度度为agent迟到食物的数量，本文使用的奖励：吃掉食物的数量和agent是否把箱子打开。

打开箱子的动作，不会增加实用度，指agent好奇心的体现。

最终表现显然，有好奇心的agent表现更好。

强化学习与奖励塑造结合框架_深度学习_04

如果在前5000步，任何盒子都没有食物，5000步之后才给食物，喜欢探索的agent同样很有优势，因为提前把盒子打开了：

强化学习与奖励塑造结合框架_深度学习_05

可以看到，使用内部的参数做奖励，表现很好。

强化学习与奖励塑造结合框架_深度学习_06

这幅图是平均开箱数的图，使用内部奖励的agent更喜欢开箱。

最终的得到结论：

agent自身的内部奖励会影响agent整体的适应度。

疑惑：

感觉实验有点牵强，因为内部的动作和外部的奖励有一个固定的状态转换概率，其实相当于间接的增加外部奖励的比率，感觉有点问题。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：kansible 脚本顺序

下一篇：vfp联接 vfp联接子句

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册