目录

 

一.动态规划

1.1核心思想

1.2异步动态规划

二.策略评估与改进

2.1有模型学习与无模型学习

2.2策略评估

2.2.1输入

2.2.2输出

2.2.3迭代过程

2.3策略改进

2.3.1输入

2.3.2输出

2.3.3迭代过程

2.4策略迭代

 


 

一.动态规划

1.1核心思想

        动态规划,英文名Dynamic Programming,简称DP。其核心思想为:

1.分解原问题为若干子问题,通过求解子问题,得到原问题的解。

2.分解得到的多个子问题省去重复问题的计算过程。

1.2异步动态规划

        异步动态规划英文被称为Asynchronous Dynamic Programming,能够高效完成强化学习任务,只更新一部分状态值


强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型_算法

强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型_学习_02

2.4策略迭代

策略迭代应用了策略评估与策略改进,不断迭代进而求解最优策略

强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型_性能优化_03