Bayesian RL and PGMRL

原创

wx62d12289ce45b 2022-07-16 00:20:06 ©著作权

文章标签 建模迭代数据更新 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者wx62d12289ce45b的原创作品，请联系作者获取转载授权，否则将追究法律责任

简介：

PGMRL: PGMRL就是把RL问题建模成一个概率图模型，如下图所示：

Bayesian RL and PGMRL_迭代

然后通过variational inference的方法进行学习：

Bayesian RL and PGMRL_迭代_02

PGMRL给RL问题的表示给了一个范例，对解决很多RL新问题提供了一种思路和工具。

Bayesian RL: 主要是对RL的reward function, transation function引入uncertainty, 引入prior和更新posterior来建模，从而更好地进行探索。

思考：为什么PGMRL推导过程中没有Beyesian RL的exploration-exploitation trade-off的问题。

简单的PGMRL建模的reward和transation是确定的，没有超参数的。在某种程度下，比如问题是凸的情况下，是不需要进行exploration的。而Beyesian RL的问题设定是假设这些东西是一种概率分布，而不是确定性的。而BeyesionRL对这种不确定性的处理恰巧克服了RL问题不是凸的情况local optimal的减弱。

thinking: what things does the Beyesian RL not consider?

Beyesian RL关注的点主要还是在uncertainty上，对policy学习过程的建模能力较弱，更适合用来处理RL中的uncertainty的问题，比如对sparse reward的问题处理能力较弱。

relationship between PGMRL and Bayesian RL:

我觉得Bayesian RL应该归为PGMRL中的一部分，PGMRL更具有整体性，对问题描述更全面，而Bayesian RL更像是处理某一特殊问题的方式。Bayesian RL需要在通过数据更新后验，然后也是model学习和policy学习相互交替的过程，但是由于没有很好的描述，我们不清楚这里面那些东西是missing variables，而且表面上看上去似乎reward和transation是missing的，但在PGMRL框架下，我们可以很清晰的看到其实optimal policy才是missing variable(PGMRL中把optimal policy转换成了variable)。这种迭代学习的过程，和EM算法的迭代类似，就是一边做inference一边做learning。这里inference就是对opitmal policy的学习过程，learning就是对MDP参数学习的过程。而在对optimal policy学习的时候，是这一种变分推断的过程，而这个变分推断过程又结合了MCMC采样的东西，MCMC采样有个冷启动的过程，所以前期不能只根据policy的最优结果来进行采样，需要加一些扰动。各种inference技术的结合加上简化形成了目前的基于deep learning的RL policy学习方法。

对于无先验的东西，我觉得还是用maximum entropy和variational infercence的方式去处理，简单的Bayesian RL中如果使用简单的共轭先验，对问题的处理局限性也较大，不具有普适性。所以，对于无先验的东西，直接采用maximum entropy更具有普适性。

黄世宇/Shiyu Huang's Personal Page：https://huangshiyu13.github.io/