强化学习动态规划策略评估策略改进策略迭代有模型无模型

原创

安城安编程 2024-02-22 11:46:22 博主文章分类：多智能体深度强化学习 ©著作权

©著作权归作者所有：来自51CTO博客作者安城安编程的原创作品，请联系作者获取转载授权，否则将追究法律责任

一.动态规划

1.1核心思想

1.2异步动态规划

二.策略评估与改进

2.1有模型学习与无模型学习

2.2策略评估

2.2.1输入

2.2.2输出

2.2.3迭代过程

2.3策略改进

2.3.1输入

2.3.2输出

2.3.3迭代过程

2.4策略迭代

一.动态规划

动态规划，英文名Dynamic Programming，简称DP。其核心思想为：

1.分解原问题为若干子问题，通过求解子问题，得到原问题的解。

2.分解得到的多个子问题省去重复问题的计算过程。

异步动态规划英文被称为Asynchronous Dynamic Programming，能够高效完成强化学习任务，只更新一部分状态值。

强化学习动态规划策略评估策略改进策略迭代有模型无模型_算法

强化学习动态规划策略评估策略改进策略迭代有模型无模型_学习_02

策略迭代应用了策略评估与策略改进，不断迭代进而求解最优策略：

强化学习动态规划策略评估策略改进策略迭代有模型无模型_性能优化_03

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯