发表时间:2018(ICLR 2018)
文章要点:从variational inference的角度引入了一种新的RL范式:最大化后验策略优化(MAXIMUM A POSTERIORI POLICY OPTIMISATION,MPO)。主要式子如上图,目标是使得获得最大reward的事件出现的概率最大,然后引入了一个新的策略q,放缩成了右边的目标函数J(evidence lower bound (ELBO))。有点贝叶斯方法的感觉,然后用EM的方式更新,E-step更新q来提升J,M-step更新π来提升J。这个范式把最大熵策略(引入KL constraint)和信頼域方法(可以看做parametric E-step)也囊括了进来,算是policy optimization方法和off-policy方法的混合。在连续控制上效果较好,Atari这样的离散问题上效果比SOTA差些。
总结:从inference的角度看RL方法,挺有意思的。后面好多MCTS的文章也被拿来从MPO的角度来解释和进一步改进,挺重要的思路。
疑问:证明没明白,还需要看看yidaxu的课再回过头来看一遍paper。
MAXIMUM A POSTERIORI POLICY OPTIMISATION (MPO)
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
最大似然估计和最大后验估
这种想法是不对的,因为这是大家常年在用的知识,是推导优化函数的核心,而优化函数又是机器学习 (包含深度学习) 的核心之一
人工智能 机器学习 深度学习 最大似然估计 -
一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇
详细介绍最大后验估计这一参数估计方法,并和极大似然估计方法对比
最大后验估计 参数估计 MAP 后验概率 先验概率 -
最大似然估计与最大后验概率估计数据 后验概率 最大似然估计 似然函数 先验概率