在上一篇博客最后,我们说到了θ和θ^k是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢?
这就是这一篇要介绍的PPO所在做的事情。
1:PPO1算法:
2:TRPO算法
3:PPO2算法
在上一篇博客最后,我们说到了θ和θ^k是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢?
这就是这一篇要介绍的PPO所在做的事情。
1:PPO1算法:
2:TRPO算法
3:PPO2算法
Q-Learning 有一个 Q 值(评论家),一个行为的 Q 值越高,表示该行为能带来的奖励越多,越应该被选择
本篇是深度强化学习动手系列文章,自MyEncyclopedia公众号文章深度强化学习来打...
半猎豹(Half Cheetah)是一个基于MuJoCo的强化学习环境。
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M