目录
一.动态规划
1.1核心思想
1.2异步动态规划
二.策略评估与改进
2.1有模型学习与无模型学习
2.2策略评估
2.2.1输入
2.2.2输出
2.2.3迭代过程
2.3策略改进
2.3.1输入
2.3.2输出
2.3.3迭代过程
2.4策略迭代
一.动态规划
1.1核心思想
动态规划,英文名Dynamic Programming,简称DP。其核心思想为:
1.分解原问题为若干子问题,通过求解子问题,得到原问题的解。
2.分解得到的多个子问题省去重复问题的计算过程。
1.2异步动态规划
异步动态规划英文被称为Asynchronous Dynamic Programming,能够高效完成强化学习任务,只更新一部分状态值。
2.4策略迭代
策略迭代应用了策略评估与策略改进,不断迭代进而求解最优策略: