强化学习
- 第二章
- 2.1 马尔科夫链
- 2.2 马尔科夫奖励过程
- 2.3 马尔科夫决策过程
- 2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别
目录
待补充。。。。。
第二章
马尔科夫决策是强化学习中最常见的一种框架
2.1 马尔科夫链
一个状态满足马尔科夫转移指的是对于一个状态只取决于它前一个的状态而与其他状态无关
图中描述了一个状态到达其他状态的概率
对于上面这样的一个图可以用状态转移矩阵来表示
每一行代表了从一个节点到达其他节点的概率
马尔科夫例子
2.2 马尔科夫奖励过程
马尔科夫奖励过程=马尔科夫链+马尔科夫奖励过程
多了奖励函数和discount factor
为什么需要discount factor
计算MRP例子,只有第一个状态和第七个状态有奖励
注意计算时候的概率不同
bellman equation
写成矩阵的形式,注意复杂度为N的三次方,所以只能适合小的数据
2.3 马尔科夫决策过程
注意红字
2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别
左边是马尔科夫链 右边是马尔科夫决策过程