一 、马尔可夫性 — 只与当前状态有关

马尔科夫性,当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。下面用公式来描述马尔科夫性:
P(St+1|St) = P(St+1|S1, S2, ……, St)

根据公式将来的状态St+1与过去的状态无关,只与当前状态St有关。
我们用状态转移概率来描述马尔科夫性Pss’ = P(St+1= s’|St = s)

二、马尔科夫过程(Markov Process)

马尔科夫过程又叫马尔科夫链(Markov Chain),它是一个无记忆的随机过程,可以用一个元组<S,P>表示,其中S是有限数量的状态集,P是状态转移概率矩阵。
我们用状态转移概率矩阵来描述所有可能,转移概率矩阵上每一行的和都为1。

三、马尔科夫奖励过程(Markov Reward Process)

马尔科夫奖励过程是在马尔科夫过程基础上增加了奖励函数R和衰减系数γ

  • S状态下的奖励R是某一时刻的状态处在状态s下在下一个时刻(t+1)能获得的奖励的期望,用公式表示为:
    Rs = E(Rt+1|St=s)

定义:收获Gt为在一个马尔科夫奖励链上从t时刻开始往后所有的奖励的有衰减的收益总和,公式如下:
Gt =Rt+1 +γRt+2 +⋯+γn-1Rt+n

  • 而衰减系数γ,用来描绘远期利益的不确定性,体现了未来的奖励在当前时刻的价值比例,很显然越靠近1,考虑的利益越长远
    既然有了收获,我们就需要衡量某一个状态的价值,我们定义如下:

定义:一个马尔科夫奖励过程中某一状态s的价值函数为从该状态开始的马尔科夫链收获的期望,公式如下:
Vs = E(Gt|St=s)

推导得到bellman 方程
Vs = E(Gt|St=s)
= E(Rt+1 +γRt+2 +⋯+γn-1Rt+n|St=s)
= E(Rt+1 +γV(St+1)|St=s)
= E(Rt+1|St=s) +γE(V(St+1)|St=s)
一个是当前获得的奖励的期望,另一个是下一时刻状态的价值期望,这是我们就可以利用转移概率矩阵得到期望,这是Bellman方程,
Vs = Rs + γ 求和 Pss’ V(s’)
其中S表示下一时刻的所有状态,s’表示下一时刻可能的状态。

四、马尔科夫决策过程(Markov Decision Process)

马尔科夫决策过程是在马尔科夫奖励过程的基础上加了decisions过程,其实是多了一个动作集合,用<S,A,P,R,γ>表示。
这里的P和R都与具体的行为a对应,而不像马尔科夫奖励过程那样仅对应于某个状态,A表示的是有限的行为的集合。

用公式表示
Pass’ = P(St+1= s’|St = s, At=a)
Ras = E(Rt+1|St=s, At=a)

4.1 策略

我们用 π 表示策略的集合,其元素为对过程中的某一状态s采取可能的行为a的概率,用公式表示为
π(a|s) = P(At=a|St=s)

4.2 【MDP和策略】 情况下 状态转移概率 /奖励函数

当给定一个MDP和一个策略π(a|s) ,那么状态序列是一个马尔科夫过程<S,P>;同样,状态和奖励序列是一个马尔科夫奖励过程,并且在这个奖励过程中满足下面两个方程:
状态转移概率: Pπss’ = 对a求和 π(a|s) Pass’
奖励函数: Rπs = 对a求和 π(a|s) Ras
状态转移概率可以描述为:在执行策略时,状态从s转移至s’的概率等于执行该状态下所有行为的概率与对应行为能使状态从s转移至s’的概率的乘积的和。

4.3 基于策略的价值函数[状态价值/行为价值]

定义:v(s)是在MDP下的基于策略的状态价值函数,表示从状态s开始,遵循当前策略时所获得的收获的期望,用公式表示如下:
Vπ = Eπ(Gt|St=s)

定义:qπ(s,a)是基于策略的行为价值函数,表示当前状态s执行某一具体行为a所能的到的收获的期望,用公式表示如下:
qπ(s,a) = Eπ(Gt|St=s, At= a)

根据bellman方程做类似推导:
Vπ = Eπ(Gt|St=s)
= Eπ(Rt+1 +γV(St+1)|St=s)
qπ(s,a) = Eπ(Gt|St=s, At= a)
= Eπ(Rt+1 +γV(St+1)|St=s, At= a)
我们可以得到状态价值函数和行为价值函数的关系
Vπ (s) = 对a求和 π(a|s) qπ(s,a)

qπ(s,a) = Eπ(Rt+1 +γV(St+1)|St=s, At= a)
= Eπ(Rt+1|St=s, At= a) + γEπ(V(St+1)|St=s, At= a)
因为:Ras = E(Rt+1|St=s, At=a) , Pass’ = P(St+1= s’|St = s, At=a)
所以 = Ras+ γ 对s’求和 Pass’Vπ (s’)

五、最优策略

最优状态价值函数指的是在从所有策略产生的状态价值函数中,选取使状态s价值最大的函数:
max Vπ (s)
类似的,最优行为函数从所有策略产生的行为价值函数中,选取是状态行为对<s,a>价值最大的函数
max qπ(s,a)
对于任何状态s,遵循策略π的价值不小于遵循策略π’下的价值,则策略π优于策略π’

定理:对于任何MDP,下面几点成立:
1.存在一个最优策略,比任何其他策略更好或至少相等;
2.所有的最优策略有相同的最优价值函数;
3.所有的最优策略具有相同的行为价值函数。
根据上面定理,我们可以通过最大化最优行为价值函数来找到最优策略。

Bellman最优方程是非线性的,没有固定的解决方案,通过一些迭代方法来解决:价值迭代、策略迭代、Q学习、Sarsa等。