强化学习《基于策略 - PPO，TRPO，PPO2》

原创

DreamSeaQainXun 2022-12-14 16:24:54 博主文章分类：强化学习 ©著作权

文章标签 PPO TRPO PPO2 文章分类 运维

©著作权归作者所有：来自51CTO博客作者DreamSeaQainXun的原创作品，请联系作者获取转载授权，否则将追究法律责任

在上一篇博客最后，我们说到了θ和θ^k是不能差太多的，不然结果会不好，那么怎么避免它们差太多呢?
这就是这一篇要介绍的PPO所在做的事情。

1：PPO1算法：

强化学习《基于策略 - PPO，TRPO，PPO2》_TRPO

强化学习《基于策略 - PPO，TRPO，PPO2》_PPO2_02

强化学习《基于策略 - PPO，TRPO，PPO2》_TRPO_03

2：TRPO算法

强化学习《基于策略 - PPO，TRPO，PPO2》_PPO2_04

3：PPO2算法

强化学习《基于策略 - PPO，TRPO，PPO2》_PPO2_05

强化学习《基于策略 - PPO，TRPO，PPO2》_TRPO_06

强化学习《基于策略 - PPO，TRPO，PPO2》_TRPO_07

强化学习《基于策略 - PPO，TRPO，PPO2》_TRPO_08

强化学习《基于策略 - PPO，TRPO，PPO2》_TRPO_09

强化学习《基于策略 - PPO，TRPO，PPO2》_PPO2_10

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯