1、强化学习

1️⃣概念

状态转移概率矩阵(已知状态s和动作a,下一个状态是s‘ 的概率):

惩罚logit回归B站 惩罚回报论_强化学习

状态 s 采取动作 a 能获得的奖励期望:

惩罚logit回归B站 惩罚回报论_惩罚logit回归B站_02

 

 

策略:状态s下采取动作a的概率:

惩罚logit回归B站 惩罚回报论_惩罚logit回归B站_03

 

执行策略 

惩罚logit回归B站 惩罚回报论_解决方案_04

 后,状态从s转移至 s' 的概率:

惩罚logit回归B站 惩罚回报论_迭代_05

 

奖励函数:

惩罚logit回归B站 惩罚回报论_解决方案_06

return  

惩罚logit回归B站 惩罚回报论_解决方案_07

:从 t 时刻开始往后所有的奖励的有衰减的和:

惩罚logit回归B站 惩罚回报论_解决方案_08

 

行为价值函数:在遵循策略 π 时,衡量在状态 s 执行行为a的价值:

惩罚logit回归B站 惩罚回报论_迭代_09

 

惩罚logit回归B站 惩罚回报论_强化学习_10

 value function:在执行策略π时,在状态 s 的价值:

惩罚logit回归B站 惩罚回报论_惩罚logit回归B站_11

惩罚logit回归B站 惩罚回报论_解决方案_12

根据q和v的关系:

惩罚logit回归B站 惩罚回报论_解决方案_13

 

惩罚logit回归B站 惩罚回报论_解决方案_14

可以推导出(该式又叫 bellman期望方程,由于bellman方程没考虑动作,此处略) :

惩罚logit回归B站 惩罚回报论_强化学习_15

 (Bellman期望方程)矩阵形式:

惩罚logit回归B站 惩罚回报论_迭代_16

 

( Bellman期望方程)举例:

节点是状态,节点的数值是价值,边是动作和奖励

惩罚logit回归B站 惩罚回报论_解决方案_17

解释:从A状态(设7.4那个状态为A状态)出来有两动作,一个是study一个是Pub,每个动作的概率为0.5,则对应上上面公式是 

惩罚logit回归B站 惩罚回报论_惩罚logit回归B站_18

 ,我们先看通过Study的action,发现它转移到了终止状态, 

惩罚logit回归B站 惩罚回报论_解决方案_19

 =0,则这条路贡献了0.5*10,同理action为Pub的那条路,R为1,然后各自有0.2,0.4,0.4的概率转移到下一个状态,所以另一条路为:0.5*(1+0.2*-1.3+0.4*2.7+0.4*7.4)

解法:反复迭代计算v,最终会收敛,式子里面后面的v用的是上次迭代的结果,

惩罚logit回归B站 惩罚回报论_强化学习_20

 

 

 

 

 

2️⃣引入最优的概念

最优状态价值函数:状态s的最大价值:

惩罚logit回归B站 惩罚回报论_迭代_21

最优行为价值函数:在状态 s 执行 a 的最大价值

惩罚logit回归B站 惩罚回报论_解决方案_22

最优策略:遵循策略 π 的价值都>=遵循策略 π' 下的价值,对任何状态s都成立:

惩罚logit回归B站 惩罚回报论_强化学习_23

根据v*和q*的关系:

惩罚logit回归B站 惩罚回报论_迭代_24

 

 

惩罚logit回归B站 惩罚回报论_解决方案_25

 

 可以推导出(被称为 Bellman最优方程):

惩罚logit回归B站 惩罚回报论_惩罚logit回归B站_26

 

 举例:

惩罚logit回归B站 惩罚回报论_解决方案_27

解释:它有两个action一个是Study对应的立即奖励是R=-2,一个是Facebook对应的是R=-1,我们要求 

惩罚logit回归B站 惩罚回报论_迭代_28

 ,则是从这两个动作挑一个能得到最大值的action,又因为 

惩罚logit回归B站 惩罚回报论_惩罚logit回归B站_29

 ,这里默认 

惩罚logit回归B站 惩罚回报论_强化学习_30

 都为1,而且从Study和Facebook动作出去之后都只能到达一个状态,于是 

惩罚logit回归B站 惩罚回报论_惩罚logit回归B站_31

 ,于是6={-2+8*1, -1+6*1}

解法:要求出V*s的话,由于式子(Bellman最优方程)是非线性的(因为max运算在里面),没有固定的解决方案。但是有通过一些迭代方法来解决:价值迭代、策略迭代、Q学习、Sarsa等