前言

首先可看马尔科夫决策过程介绍(MDP)

强化学习(动态规划DP)之策略迭代和价值迭代_动态规划

策略迭代和价值迭代

策略迭代分两步

  1. 策略评估:对任意策略强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_02能估计出该策略带来的期望累积奖赏 (价值函数)。即给定policy为强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_02得到强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_04强化学习(动态规划DP)之策略迭代和价值迭代_算法_05,其中 强化学习(动态规划DP)之策略迭代和价值迭代_算法_06
  2. 策略改进:依据策略评估得到的结果,构造出新的强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_07好于强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_02

策略迭代

1. 策略评估

1.1解析解

已知MDP的动态特性强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_09 给定强化学习(动态规划DP)之策略迭代和价值迭代_迭代_10得到强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_11,其中强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_12,记为强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_13
由贝尔曼状态期望方程强化学习(动态规划DP)之策略迭代和价值迭代_迭代_14


我们将上面的连加式分开逐个分析,第一部分令式子为强化学习(动态规划DP)之策略迭代和价值迭代_算法_15强化学习(动态规划DP)之策略迭代和价值迭代_迭代_16我们强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_17所以强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_18因为强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_19这个式子与强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_20无关,所以我们可以记为强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_21
其中强化学习(动态规划DP)之策略迭代和价值迭代_迭代_22


第二部分令式子为强化学习(动态规划DP)之策略迭代和价值迭代_算法_23强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_24因为强化学习(动态规划DP)之策略迭代和价值迭代_算法_25强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_20无关,所以我们可以定义强化学习(动态规划DP)之策略迭代和价值迭代_迭代_27所以有强化学习(动态规划DP)之策略迭代和价值迭代_迭代_28
我们定义一个矩阵强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_29


结合两部分强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_30我们令强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_31,强化学习(动态规划DP)之策略迭代和价值迭代_算法_32。所以有强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_33所以矩阵形式为强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_34求解过程强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_35这是矩阵形式的解析解强化学习(动态规划DP)之策略迭代和价值迭代_算法_36,复杂度较高强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_37,很难求解

1.2 迭代策略评估(数值解)

具体的方法数强化学习(动态规划DP)之策略迭代和价值迭代_算法_38
由贝尔曼方程得到迭代函数(更新规则)
强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_39
我们通过这种方式,可能会思考:

  • 问题1.这个强化学习(动态规划DP)之策略迭代和价值迭代_迭代_40会不会收敛
  • 问题2.这个强化学习(动态规划DP)之策略迭代和价值迭代_迭代_40会不会收敛的强化学习(动态规划DP)之策略迭代和价值迭代_迭代_42

这个收敛性的证明,比较复杂,就此打住知道结论即可。
最初阶段,我们随机初始化强化学习(动态规划DP)之策略迭代和价值迭代_迭代_43,进行迭代更新,最终得到收敛于强化学习(动态规划DP)之策略迭代和价值迭代_迭代_44的数值解。
强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_45

2 策略改进

对某个策略的累积奖赏进行评估后,若发现它并非最优策略,则当然希望对其进行改进理想的策略应能最大化累积奖赏。

2.1 策略改进定理

思想是给定一个强化学习(动态规划DP)之策略迭代和价值迭代_迭代_10找到强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_47,判断强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_48强化学习(动态规划DP)之策略迭代和价值迭代_迭代_44大小。但是求出强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_48强化学习(动态规划DP)之策略迭代和价值迭代_迭代_44非时费力,所以提出了利用策略改进定理,该方法不需要求出强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_48,就可以估计他们的大小。
策略改进定理:给定的强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_47强化学习(动态规划DP)之策略迭代和价值迭代_迭代_10,如果强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_55强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_56,那么则有强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_55强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_58
注:强化学习(动态规划DP)之策略迭代和价值迭代_算法_59即对于一个强化学习(动态规划DP)之策略迭代和价值迭代_迭代_10来说,我们求出强化学习(动态规划DP)之策略迭代和价值迭代_迭代_61,则对应的强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_62就也求出来了,因为强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_62强化学习(动态规划DP)之策略迭代和价值迭代_算法_59本身就具有对应关系,考虑到强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_20是自由变量,强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_20换成强化学习(动态规划DP)之策略迭代和价值迭代_迭代_67,比较强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_68强化学习(动态规划DP)之策略迭代和价值迭代_迭代_69大小就好。

2.2 策略改进–贪心策略

强化学习(动态规划DP)之策略迭代和价值迭代_算法_70


对于强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_12,有强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_72,由策略改进定理可知强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_12强化学习(动态规划DP)之策略迭代和价值迭代_动态规划_74。直到强化学习(动态规划DP)之策略迭代和价值迭代_迭代_10强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_47一致、不再发生变化,此时就满足了最优Bellman等式,即找到了最优策略。

强化学习(动态规划DP)之策略迭代和价值迭代_算法_77

价值迭代

回顾:
策略迭代分为两步

  • 策略评估                强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_78
  • 策略改进                贪心策略最大化累积奖赏。

问题:因为策略迭代时迭代里面套迭代的方法,即策略评估和策略改进两个步骤均需要迭代计算,由此可知其计算还是比较慢的。
思考:在求解过程中,我们需要将强化学习(动态规划DP)之策略迭代和价值迭代_迭代_44的精确解给求出吗?
强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_80其实我们并不关心这些步骤,重要的是我们要求出最优价值强化学习(动态规划DP)之策略迭代和价值迭代_矩阵_81和对应的最优策略强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_82
解决方案:截断策略评估(截断策略评估的迭代步骤),比如说:假设策略评估需要迭代100,我们只迭代90次。

极端情况下截断策略迭代

  • 策略评估只进行一次迭代
  • 策略改进

其迭代公式为:
强化学习(动态规划DP)之策略迭代和价值迭代_算法_83


我们来对上式子做一个分析:
状态-动作价值函数的迭代式为:强化学习(动态规划DP)之策略迭代和价值迭代_算法_84
我们找到最优的actioon强化学习(动态规划DP)之策略迭代和价值迭代_迭代_85强化学习(动态规划DP)之策略迭代和价值迭代_迭代_86为新的策略,我们可推:
强化学习(动态规划DP)之策略迭代和价值迭代_算法_87
所以极端情况下的迭代公式为:
强化学习(动态规划DP)之策略迭代和价值迭代_算法_83


以上这种方法称为价值迭代
强化学习(动态规划DP)之策略迭代和价值迭代_决策过程_80
价值迭代是极端情况下的策略迭代。