强化学习入门到不想放弃-3

原创

Transofomer周 2024-03-05 09:16:24 ©著作权

©著作权归作者所有：来自51CTO博客作者Transofomer周的原创作品，请联系作者获取转载授权，否则将追究法律责任

第三节我们主要讲一下SARSA模型

有模型的概念：简单理解，上节课我讲的就是有模型，就是可以开上帝视角，知道全局地图

强化学习入门到不想放弃-3_初始化

无模型的概念: 打CS，但是看不到地图的情况，全凭自己探索

强化学习入门到不想放弃-3_初始化_02

今天的讲解环境还是和上节课一样，如下图：

假如我有一个人物（不是勇者），在一个地图上奔跑为了得到最终的奖杯，因为不是勇者所以看到哥布林打手就会被揍死，所以必须要走没有哥布林的格子才能拿到奖杯

现在再给点附加条件玩家初始只有100分，每经过一个格子会扣1分，要求通过强化学习生成一个模型，从起点到拿到奖杯，分数保留越高越好

强化学习入门到不想放弃-3_sed_03

我们还是把上面的环境绘制出来

一共48个格子

第一步：首先我们定义格子函数的不同状态 get_state，以横纵坐标为单位（row，col）,然后分别定义出ground（可以走）,terminal(奖杯处)，be killed（哥布林处）的格子

强化学习入门到不想放弃-3_sed_04

第二步：定义Move函数，和上节课也一样

强化学习入门到不想放弃-3_初始化_05

第三步：绘制地图Q（Q矩阵），4*12个格子，4个方向的action，用于评估每个动作的价值，我目前没有任何先验的知识，大脑一片空白，所以就用全0来初始化了

强化学习入门到不想放弃-3_sed_06

第四步：定义action的行为是啥样的，也就是我们的动作函数，这块就跟上节课不一样了，因为我不是有模型的，属于无模型的，就是我没办法有全局上帝视角，比较像第一章我讲的多臂老虎机问题，就是一个普通的贪婪算法，所以它也有了探索和利用两部分的action

强化学习入门到不想放弃-3_sed_07

第五步，定义我们的get_update的函数,这里面我们其实定义的传参，包括：

这5个字母连起来就是sarsa，这也就是sarsa算法的由来

强化学习入门到不想放弃-3_初始化_08

通过传参，我们拿到了这些信息：

通过本时刻的state和action，我能知道我当前时刻的reward
我还想知道我得到这个reward以后，我下一个状态和动作是否足够好，所以我引入了target，就是把下一个时刻的state和action也算出来一个reward——"target"(通过Q矩阵来计算)，因为是下一个动作，所以我给了个系数gamma0.9，描述未来不确认的概念

根据时序差分算法:

当前state,action的分数 = 下一个state,action的分数*gamma + reward

那么：

等式左边就等于现在的value=Q[row, col, action]

target+=reward

这两个式子应该是相等的，但是默认在模型没收敛之前肯定是不相等的，因为value和target都是评估出来的，肯定有误差，所以我们把这个不相等的数字叫做函数update，我们希望它能最后收敛为接近于0

update = target - value

update *= 0.1#这个0.1相当于学习率了

然后就不断地更新update的值就可以了

这个返回值update其实就是针对Q表格执行了动作的更新

第六步：开始训练

强化学习入门到不想放弃-3_sed_09