强化学习

  • 第二章
  • 2.1 马尔科夫链
  • 2.2 马尔科夫奖励过程
  • 2.3 马尔科夫决策过程
  • 2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别



目录


java判断马尔科夫 马尔科夫过程例题_强化学习


待补充。。。。。

第二章

马尔科夫决策是强化学习中最常见的一种框架

java判断马尔科夫 马尔科夫过程例题_决策过程_02

2.1 马尔科夫链

一个状态满足马尔科夫转移指的是对于一个状态只取决于它前一个的状态而与其他状态无关

java判断马尔科夫 马尔科夫过程例题_马尔科夫链_03


图中描述了一个状态到达其他状态的概率

java判断马尔科夫 马尔科夫过程例题_强化学习_04


对于上面这样的一个图可以用状态转移矩阵来表示

每一行代表了从一个节点到达其他节点的概率

java判断马尔科夫 马尔科夫过程例题_马尔科夫链_05


马尔科夫例子

java判断马尔科夫 马尔科夫过程例题_马尔科夫链_06

2.2 马尔科夫奖励过程

马尔科夫奖励过程=马尔科夫链+马尔科夫奖励过程

多了奖励函数和discount factor

java判断马尔科夫 马尔科夫过程例题_马尔科夫链_07


java判断马尔科夫 马尔科夫过程例题_java判断马尔科夫_08


java判断马尔科夫 马尔科夫过程例题_强化学习_09


为什么需要discount factor

java判断马尔科夫 马尔科夫过程例题_决策过程_10


计算MRP例子,只有第一个状态和第七个状态有奖励

注意计算时候的概率不同

java判断马尔科夫 马尔科夫过程例题_java判断马尔科夫_11


bellman equation

java判断马尔科夫 马尔科夫过程例题_强化学习_12


java判断马尔科夫 马尔科夫过程例题_马尔科夫链_13


写成矩阵的形式,注意复杂度为N的三次方,所以只能适合小的数据

java判断马尔科夫 马尔科夫过程例题_决策过程_14


java判断马尔科夫 马尔科夫过程例题_强化学习_15


java判断马尔科夫 马尔科夫过程例题_决策过程_16


java判断马尔科夫 马尔科夫过程例题_决策过程_17

2.3 马尔科夫决策过程

注意红字

java判断马尔科夫 马尔科夫过程例题_决策过程_18


java判断马尔科夫 马尔科夫过程例题_决策过程_19


java判断马尔科夫 马尔科夫过程例题_马尔科夫链_20


java判断马尔科夫 马尔科夫过程例题_决策过程_21


java判断马尔科夫 马尔科夫过程例题_强化学习_22


java判断马尔科夫 马尔科夫过程例题_java判断马尔科夫_23


java判断马尔科夫 马尔科夫过程例题_决策过程_24


java判断马尔科夫 马尔科夫过程例题_java判断马尔科夫_25

2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别

左边是马尔科夫链 右边是马尔科夫决策过程

java判断马尔科夫 马尔科夫过程例题_马尔科夫链_26