强化学习入门到不想放弃-4

原创

Transofomer周 2024-10-07 22:24:57 ©著作权

文章标签 强化学习概率分布交互方式 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者Transofomer周的原创作品，请联系作者获取转载授权，否则将追究法律责任

上回的地址：强化学习入门到不想放弃-3 (qq.com)

上上回地址：强化学习入门到不想放弃-2 (qq.com)

上上上回地址：强化学习入门到不想放弃-1 (qq.com)

好久没更新了，也是不知道写啥啊，（有些文章刚写了就被有些企业给告了，然后就被删了，我也不知道我啥不该些的了

强化学习入门到不想放弃-4_概率分布

）正好O1比较火，我就想起来我之前写的RL强化学习这块，之前是真的没人看啊，RL现在因为O1就特别的火了，所以我再尝试一下写写，看看有人看没。

可能也是我写的太散了，太书本话了，那今天先从广义上大家想了解的PPO吧，后面会写DPO, Q-learning， DQN

强化学习入门到不想放弃-4_交互方式_02

强化学习的一些基本概念，上面的机器人叫Agent，下面的地球叫environment。

Agent：与环境交互的进程（也可以是网络）

Environment：即环境，说白了就是一些规则的集合（已知的/未知的）

Agent和Environment有三种交互方式

1- Obseveration: 就是观察环境，观察什么呢？就是观察环境的状态，也就是state，那什么是state呢？比如说AlpacaGo可以观察围棋的棋盘上面的落子，或者图里的看到一杯水。

2- Action：就是对环境执行的动作，Action对环境执行了动作以后，环境就改了，比如把水给洒桌子上了，那state 也就是环境的状态，也就变了

3- Reward：Agent默认如果对环境的规则没有任何概念的话，它是不知道如何做的，但是比如弄洒了水咋桌子以上，这种的行为，其实就是一个减分项，如果我们认为洒水要-100分，而把水擦干会得200分，那在之后Agent于环境的操作就不会洒水了，而发现别的水洒了，它会擦干，其实就有点像小孩对这个世界刚开始的认识差不多，是靠一些奖惩机制来了解世界的。

从一个抽象的理解，其实强化学习就是这么定义的。

强化学习入门到不想放弃-4_概率分布_03