强化学习训练框架强化训练什么意思

转载

mob6454cc7a88c0 2024-04-26 10:22:59

文章标签 强化学习训练框架人工智能强化学习机器学习监督学习 文章分类 copilot AIGC

文章目录

什么是强化学习？

强化学习的来源
强化学习能做什么？
强化学习关键词
强化学习分类

什么是强化学习？

强化学习的来源

强化学习(Reinforcement Learning, RL)，一般也称作增强学习，和心理学、动物行为的研究等领域有比较久的渊源。

心理学中，“强化” 指生物受到外界环境中的某些刺激后，自觉或者不自觉调整应对策略，达到趋利避害。

举个例子。马戏团训练动物时（比方说猴子），训导员首先会发出某种指令（比方说抬一下手，表示希望猴子跳一下），动物接收到这个指令后，如果做出了正确的动作，会得到一定的奖励（比方说一根香蕉）。这样的过程重复很多次之后，猴子会学会一种策略，即训导员每抬一下手，我就跳一下，这样就可以吃到更多的香蕉；

上面这个例子中，训练过程就是心理学里的“强化”现象，强化行为的刺激被称为强化物（“reinforceor”）,猴子策略的改变过程也就是强化学习的过程；

强化学习能做什么？

考虑这个问题之前，我们不妨先回忆一下机器学习中另外两个大类：监督学习和无监督学习（以及它们的折中，半监督学习，或者叫弱监督学习）。

监督学习
指利用有标注的样本，通过训练一个模型或者设计一个算法，找到从样本特征到样本标签之间的映射关系。一般用于解决感知问题，比如分类、检测、回归估计等；
例如，人脸信息的感知，看到一张人脸的图片，判断人脸的性别（分类问题）、年龄（回归问题）等信息。
无监督学习
指利用没有标注的样本，来寻找数据隐含结构，可以用来解决的数据的度量问题，简化数据使之更容易理解，比如降维、聚类等；
例如，通过聚类算法，可将大量的数据划分为少数的几个大类，属于同一类别的样本比较接近，这样可以简化后续的数据分析问题；再比如，通过降维算法，可以将高维数据表示为2维或3维数据，展示给人看，相比于看一串数字，可视化可以让人更直观、也容易得发现数据中的信息。
半监督学习/弱监督学习
由于现实生活中，大量的数据是没有标注的，人工标注数据成本也很高。因此，半监督学习，研究的是怎样 利用少量有标注的样本和大量无标注的样本，实现监督学习的目的。或者说，少花钱，多办事。。。
强化学习
和上面集中领域不同，强化学习旨在解决决策问题，即某一场景下，我应采取什么样的策略，才能在未来获得最大的长期总收益。研究的是有目标导向的智能体，在环境中交互的完整的过程。
再次用上面马戏团训练猴子举例子，猴子的训练过程即强化学习的过程：

猴子----------------------被训练的智能体；
训导员-------------------智能体（猴子）所处的环境；
猴子的目标导向--------我要吃更多的香蕉；
猴子和环境的交互------训导员你发指令，我做动作，你给（或不给）我香蕉；
猴子的决策---------------训导员发指令后，我应该做什么样的动作，才能吃到香蕉；

强化学习和监督学习很显著的差异：强化学习的过程，是智能体通过和环境的交互实现的，而环境对智能体的反馈，仅仅是对其动作的评价，而不是指导。
试错和延迟收益是强化学习两个最显著的特征。
例如，上面例子中，如果训导员以某种方式直接驱使其做出正确动作，训练过程可视作监督学习；然而，如果训导员并没有直接的告诉猴子，你的正确动作是什么，而是仅仅给予一个评价，对或者不对（给香蕉或者不给香蕉），而猴子通过不断试错，发现自己做某种动作后可以获得更多的香蕉，从而实现了训练过程，这个过程属于强化学习。

强化学习关键词

对于监督学习，关键词可以概括为 样本特征，样本标签，相关算法；

对于无监督学习，关键词可以概括为 样本特征 和 相关算法；

而对于强化学习，研究的是完整的交互过程中的决策问题，具有动态的特点，需要用发展的眼光、长远得看待问题 →_→就像下象棋一样，对于某一个棋局，下一步应该怎样走，需要以最终赢棋为目的，相比而言，最近几步的得失反而没有那么重要。因此，强化学习领域中涉及的关键要素相对较多：

状态 s： 当前环境的状态(state), 简写 $强化学习训练框架强化训练什么意思_强化学习$ ，比如当前棋盘上每个棋子的位置；
动作 a ： 某种状态下，采取的动作(action), 简写 $强化学习训练框架强化训练什么意思_人工智能_02$ ，比如拱卒 / 跳马 / 飞象等等
奖励 / 单步收益 r： 某种状态 $强化学习训练框架强化训练什么意思_强化学习$ 下，采取某种动作 $强化学习训练框架强化训练什么意思_人工智能_02$ ，获得单步奖励(reward), 简写 $强化学习训练框架强化训练什么意思_人工智能_05$ ；对于下棋，可以认为 $强化学习训练框架强化训练什么意思_人工智能_05$ (赢棋)=1， $强化学习训练框架强化训练什么意思_人工智能_05$ (不赢棋)=0；
回报 / 长期收益 G： 某种状态 $强化学习训练框架强化训练什么意思_强化学习$ 下，采取某种动作 $强化学习训练框架强化训练什么意思_人工智能_02$ ，在未来可以获得的所有奖励 $强化学习训练框架强化训练什么意思_人工智能_05$ 的总和；
比如，从某一棋局开局，我的动作是跳马，最终我赢了，那么这一回合中从 (开局状态 $强化学习训练框架强化训练什么意思_强化学习$ , 跳马动作 $强化学习训练框架强化训练什么意思_人工智能_02$ )开始的长期收益(Gain),简写 $强化学习训练框架强化训练什么意思_人工智能_13$ 就是1，即 $强化学习训练框架强化训练什么意思_人工智能_13$
策略 $强化学习训练框架强化训练什么意思_强化学习训练框架_15$ ： 智能体在根据状态s，以一定概率选择动作a的过程，或者说选择动作a的概率；
比如，对手当头炮(状态s)，我就把马跳(动作a)，写成条件概率就是 $强化学习训练框架强化训练什么意思_强化学习_16$ 。好的策略的目标是让长期收益G最大；
价值函数： 某种状态s下，或某种状态s并采取某种动作a后，在未来按照策略 $强化学习训练框架强化训练什么意思_监督学习_17$ 做动作，最终获得的所有奖励总和（即长期收益G的）的期望值 / 平均值；前者称为状态价值函数，记作 $强化学习训练框架强化训练什么意思_监督学习_18$ ，后者称为动作价值函数，记作 $强化学习训练框架强化训练什么意思_强化学习训练框架_19$ ；
比如，从某一种棋局(状态 $强化学习训练框架强化训练什么意思_强化学习$ )开局，每次开局都拱卒(动作 $强化学习训练框架强化训练什么意思_人工智能_02$ )，这样重复100次，并在未来永远按照策略 $强化学习训练框架强化训练什么意思_监督学习_17$ 做动作，最后赢棋有10局，那么动作价值函数 $强化学习训练框架强化训练什么意思_强化学习训练框架_23$