在上一篇博客最后,我们说到了θ和θ^k是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢?
这就是这一篇要介绍的PPO所在做的事情。

1:PPO1算法:

强化学习《基于策略 - PPO,TRPO,PPO2》_TRPO


强化学习《基于策略 - PPO,TRPO,PPO2》_PPO2_02


强化学习《基于策略 - PPO,TRPO,PPO2》_TRPO_03


2:TRPO算法

强化学习《基于策略 - PPO,TRPO,PPO2》_PPO2_04


3:PPO2算法

强化学习《基于策略 - PPO,TRPO,PPO2》_PPO2_05


强化学习《基于策略 - PPO,TRPO,PPO2》_TRPO_06


强化学习《基于策略 - PPO,TRPO,PPO2》_TRPO_07


强化学习《基于策略 - PPO,TRPO,PPO2》_TRPO_08


强化学习《基于策略 - PPO,TRPO,PPO2》_TRPO_09


强化学习《基于策略 - PPO,TRPO,PPO2》_PPO2_10