马尔可夫决策过程(MDP)的原始模型是马尔可夫链(Markov Chain, MC),下面先学习一些MC的内容:

马尔可夫链仿真基于r语言代码实现 马尔可夫链模型步骤_状态转移

马尔可夫链仿真基于r语言代码实现 马尔可夫链模型步骤_马尔可夫链仿真基于r语言代码实现_02


马尔可夫链仿真基于r语言代码实现 马尔可夫链模型步骤_迭代_03

马尔可夫链仿真基于r语言代码实现 马尔可夫链模型步骤_决策过程_04

马尔可夫链仿真基于r语言代码实现 马尔可夫链模型步骤_决策过程_05


马尔可夫链仿真基于r语言代码实现 马尔可夫链模型步骤_迭代_06

马尔可夫链仿真基于r语言代码实现 马尔可夫链模型步骤_决策过程_07