前言
首先可看马尔科夫决策过程介绍(MDP)
策略迭代和价值迭代
策略迭代分两步
- 策略评估:对任意策略能估计出该策略带来的期望累积奖赏 (价值函数)。即给定policy为得到和,其中 。
- 策略改进:依据策略评估得到的结果,构造出新的好于。
策略迭代
1. 策略评估
1.1解析解
已知MDP的动态特性 给定得到,其中,记为
由贝尔曼状态期望方程
我们将上面的连加式分开逐个分析,第一部分令式子为我们所以因为这个式子与无关,所以我们可以记为
其中
第二部分令式子为因为与无关,所以我们可以定义所以有
我们定义一个矩阵
结合两部分我们令,。所以有所以矩阵形式为求解过程这是矩阵形式的解析解,复杂度较高,很难求解
1.2 迭代策略评估(数值解)
具体的方法数
由贝尔曼方程得到迭代函数(更新规则)
我们通过这种方式,可能会思考:
- 问题1.这个会不会收敛
- 问题2.这个会不会收敛的
这个收敛性的证明,比较复杂,就此打住知道结论即可。
最初阶段,我们随机初始化,进行迭代更新,最终得到收敛于的数值解。
2 策略改进
对某个策略的累积奖赏进行评估后,若发现它并非最优策略,则当然希望对其进行改进理想的策略应能最大化累积奖赏。
2.1 策略改进定理
思想是给定一个找到,判断和大小。但是求出和非时费力,所以提出了利用策略改进定理,该方法不需要求出,就可以估计他们的大小。
策略改进定理:给定的和,如果,,那么则有,。
注:即对于一个来说,我们求出,则对应的就也求出来了,因为和本身就具有对应关系,考虑到是自由变量,换成,比较 和大小就好。
2.2 策略改进–贪心策略
对于,有,由策略改进定理可知,。直到与一致、不再发生变化,此时就满足了最优Bellman等式,即找到了最优策略。
价值迭代
回顾:
策略迭代分为两步
- 策略评估
- 策略改进 贪心策略最大化累积奖赏。
问题:因为策略迭代时迭代里面套迭代的方法,即策略评估和策略改进两个步骤均需要迭代计算,由此可知其计算还是比较慢的。
思考:在求解过程中,我们需要将的精确解给求出吗?
其实我们并不关心这些步骤,重要的是我们要求出最优价值和对应的最优策略。
解决方案:截断策略评估(截断策略评估的迭代步骤),比如说:假设策略评估需要迭代100,我们只迭代90次。
极端情况下截断策略迭代
- 策略评估只进行一次迭代
- 策略改进
其迭代公式为:
我们来对上式子做一个分析:
状态-动作价值函数的迭代式为:
我们找到最优的actioon:为新的策略,我们可推:
所以极端情况下的迭代公式为:
以上这种方法称为价值迭代
价值迭代是极端情况下的策略迭代。