java判断马尔科夫马尔科夫过程例题

转载

mob64ca13f8eecb 2023-12-19 21:01:17

文章标签 java判断马尔科夫马尔科夫链决策过程强化学习 文章分类 Java 后端开发

强化学习

第二章

2.1 马尔科夫链
2.2 马尔科夫奖励过程
2.3 马尔科夫决策过程
2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别

java判断马尔科夫马尔科夫过程例题_强化学习

待补充。。。。。

第二章

马尔科夫决策是强化学习中最常见的一种框架

java判断马尔科夫马尔科夫过程例题_决策过程_02

2.1 马尔科夫链

一个状态满足马尔科夫转移指的是对于一个状态只取决于它前一个的状态而与其他状态无关

java判断马尔科夫马尔科夫过程例题_马尔科夫链_03

图中描述了一个状态到达其他状态的概率

java判断马尔科夫马尔科夫过程例题_强化学习_04

对于上面这样的一个图可以用状态转移矩阵来表示

每一行代表了从一个节点到达其他节点的概率

java判断马尔科夫马尔科夫过程例题_马尔科夫链_05

马尔科夫例子

java判断马尔科夫马尔科夫过程例题_马尔科夫链_06

2.2 马尔科夫奖励过程

马尔科夫奖励过程=马尔科夫链+马尔科夫奖励过程

多了奖励函数和discount factor

java判断马尔科夫马尔科夫过程例题_马尔科夫链_07

java判断马尔科夫马尔科夫过程例题_java判断马尔科夫_08

java判断马尔科夫马尔科夫过程例题_强化学习_09

为什么需要discount factor

java判断马尔科夫马尔科夫过程例题_决策过程_10

计算MRP例子，只有第一个状态和第七个状态有奖励

注意计算时候的概率不同

java判断马尔科夫马尔科夫过程例题_java判断马尔科夫_11

bellman equation

java判断马尔科夫马尔科夫过程例题_强化学习_12

java判断马尔科夫马尔科夫过程例题_马尔科夫链_13

写成矩阵的形式，注意复杂度为N的三次方，所以只能适合小的数据

java判断马尔科夫马尔科夫过程例题_决策过程_14

java判断马尔科夫马尔科夫过程例题_强化学习_15

java判断马尔科夫马尔科夫过程例题_决策过程_16

java判断马尔科夫马尔科夫过程例题_决策过程_17

2.3 马尔科夫决策过程

注意红字

java判断马尔科夫马尔科夫过程例题_决策过程_18

java判断马尔科夫马尔科夫过程例题_决策过程_19

java判断马尔科夫马尔科夫过程例题_马尔科夫链_20

java判断马尔科夫马尔科夫过程例题_决策过程_21

java判断马尔科夫马尔科夫过程例题_强化学习_22

java判断马尔科夫马尔科夫过程例题_java判断马尔科夫_23

java判断马尔科夫马尔科夫过程例题_决策过程_24

java判断马尔科夫马尔科夫过程例题_java判断马尔科夫_25

2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别

左边是马尔科夫链右边是马尔科夫决策过程

java判断马尔科夫马尔科夫过程例题_马尔科夫链_26

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：回归问题 pytorch 损失函数回归的损失函数

下一篇：mysql 的数据大小和索引大小多少比例合适 mysql索引区分大小写吗

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯