强化学习蒙特卡洛蒙特卡洛策略

关注 archangle

文章目录

MC预测：状态值
MC预测：动作值
广义策略迭代
MC控制：增量均值
MC控制：策略评估
MC控制：策略改进
探索与利用
MC控制：常量

强化学习蒙特卡洛蒙特卡洛策略

转载

archangle 2024-05-02 16:21:45

文章标签 强化学习蒙特卡洛估值迭代贪婪算法 文章分类 copilot AIGC

强化学习蒙特卡洛蒙特卡洛策略_贪婪算法

21点代码链接：https://pan.baidu.com/s/1T0Ev8KJy2tcGIFiB3ddyyQ

提取码：提取码：6ft9

MC预测：状态值

解决预测问题的算法会确定策略对应的值函数（或）。
通过与环境互动评估策略的方法分为两大类别：

在线策略方法使智能体与环境互动时遵守的策略与要评估（或改进）的策略相同。
离线策略方法使智能体与环境互动时遵守的策略 b（其中）与要评估（或改进）的策略不同。

状态在某个阶段中的每次出现称为 s 的一次经历。
有两种类型的蒙特卡洛 (MC) 预测方法（用于估算）：

首次经历 MC 将估算为仅在 s 首次经历之后的平均回报（即忽略与后续经历相关的回报）。
所有经历 MC 将估算为 s 所有经历之后的平均回报。

强化学习蒙特卡洛蒙特卡洛策略_强化学习蒙特卡洛_02

MC预测：动作值

状态动作对
在某个阶段中的每次出现称为 的一次经历。
有两种类型的蒙特卡洛 (MC) 预测方法（用于估算
）：

首次经历 MC 将
估算为仅在
首次经历之后的平均回报（即忽略与后续经历相关的回报）。
所有经历 MC 将
估算为 s,as,a 所有经历之后的平均回报。

广义策略迭代

旨在解决控制问题的算法会通过与环境互动确定最优策略
。
广义策略迭代 (GPI) 是指通过交替地进行策略评估和和改进步骤搜索最优策略的广义方法

MC控制：增量均值

（在此部分，推出了一个算法，该算法可以不断得出一系列数字的平均值。）

MC控制：策略评估

（在此部分，修改了策略评估步骤，在每个互动阶段结束后更新值函数。）

MC控制：策略改进

如果对于每个状态
，它保证会选择满足
的动作
，则策略相对于动作值函数估值 Q 来说是贪婪策略。（通常将所选动作称之为贪婪动作。）
如果对于每个状态
，策略相对于动作值函数估值 Q 是贪婪策略。

概率为
时，智能体选择贪婪动作，以及
概率为
时，智能体随机（均匀地）选择一个动作

探索与利用

所有强化学习智能体都面临探索-利用困境，即智能体必须在根据当前信息采取最优动作（利用）和需要获取信息以做出更好的判断（探索）之间找到平衡。
为了使 MC 控制收敛于最优策略，必须满足有限状态下的无限探索贪婪算法 (GLIE) 条件：

所有状态动作对
（对于所有
和
）被经历无穷次，以及
策略收敛于相对于动作值函数估值
来说是贪婪策略的策略。

强化学习蒙特卡洛蒙特卡洛策略_估值_03

MC控制：常量

（在此部分，为常量 MC控制推出了一个算法，该算法使用了常量步长
。）
步长参数
必须满足
。
值越大，学习速度越快，但是如果
的值过大，可能会导致 MC 控制无法收敛于
。

强化学习蒙特卡洛蒙特卡洛策略_迭代_04

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：lua监控某个变量 python监控变量变化

下一篇：aes128cbc 单片机处理单片机acc.6

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册