强化学习机加工加工强化的原理

转载

jojo 2024-05-09 12:03:41

文章标签 强化学习机加工强化学习神经网络 Memory 文章分类 copilot AIGC

1.强化学习就是程序或智能体(agent)通过与环境不断地进行交互学习一个从环境到动作的映射，学习的目标就是使累计回报最大化。

2.强化学习是一种试错学习，因其在各种状态（环境）下需要尽量尝试所有可以选择的动作，通过环境给出的反馈（即奖励）来判断动作的优劣，最终获得环境和最优动作的映射关系（即策略）。

强化学习机加工加工强化的原理_神经网络

强化学习机加工加工强化的原理_强化学习机加工_02

马尔可夫决策过程(MDP)

马尔可夫决策过程（Markov Decision Process）通常用来描述一个强化学习问题。

智能体agent根据当前对环境的观察采取动作获得环境的反馈，并使环境发生改变的循环过程

强化学习机加工加工强化的原理_神经网络_03

强化学习机加工加工强化的原理_神经网络_04

强化学习机加工加工强化的原理_Memory_05

强化学习机加工加工强化的原理_神经网络_06

强化学习机加工加工强化的原理_神经网络_07

强化学习机加工加工强化的原理_强化学习_08

蒙特卡洛强化学习

1.在现实的强化学习任务中，环境的转移概率、奖励函数往往很难得知，甚至很难得知环境中有多少状态。若学习算法不在依赖于环境建模，则称为免模型学习，蒙特卡洛强化学习就是其中一种。

2.蒙特卡洛强化学习使用多次采样，然后求取平均累计奖赏作为期望累计奖赏的近似。

强化学习机加工加工强化的原理_神经网络_09

蒙特卡洛强化学习：直接对状态动作值函数Q（s,a）进行估计，每采样一条轨迹，就根据轨迹中的所有“状态-动作”利用下面的公式对来对值函数进行更新。

强化学习机加工加工强化的原理_神经网络_10

每次采样更新完所有的“状态-动作”对所对应的Q（s，a），就需要更新采样策略π。但由于策略可能是确定性的，即一个状态对应一个动作，多次采样可能获得相同的采样轨迹，因此需要借助ε贪心策略:

强化学习机加工加工强化的原理_强化学习机加工_11

蒙特卡洛强化学习算法需要采样一个完整的轨迹来更新值函数，效率较低，此外该算法没有充分利用强化学习任务的序贯决策结构。

Q-learning算法结合了动态规划与蒙特卡洛方法的思想，使得学习更加高效。

强化学习机加工加工强化的原理_强化学习_12

强化学习机加工加工强化的原理_强化学习_13

强化学习机加工加工强化的原理_Memory_14

深度强化学习(DRL)

传统强化学习：真实环境中的状态数目过多，求解困难。

深度强化学习：将深度学习和强化学习结合在一起，通过深度神经网络直接学习环境（或观察）与状态动作值函数Q（s，a）之间的映射关系，简化问题的求解。

Deep Q Network(DQN)

Deep Q Network(DQN)：是将神经网略（neural network）和Q-learning结合，利用神经网络近似模拟函数Q（s，a），输入是问题的状态（e.g.，图形），输出是每个动作a对应的Q值，然后依据Q值大小选择对应状态执行的动作，以完成控制。

强化学习机加工加工强化的原理_强化学习机加工_15

强化学习机加工加工强化的原理_强化学习机加工_16

强化学习机加工加工强化的原理_神经网络_17

强化学习机加工加工强化的原理_强化学习机加工_18

强化学习机加工加工强化的原理_神经网络_19

强化学习机加工加工强化的原理_Memory_20

强化学习机加工加工强化的原理_强化学习机加工_21

强化学习机加工加工强化的原理_Memory_22

强化学习机加工加工强化的原理_强化学习_23

强化学习机加工加工强化的原理_强化学习机加工_24

自主学习Flappy Bird游戏

深度强化学习

2013年，Deep Mind团队在NIPS上发表《Playing Atari with Deep Reinforcement Learning》一文，在该文中首次提出Deep Reinforcement Learning一词，并且提出DQN（Deep Q-Networt）算法，实现了从纯图像输入完全通过学习来玩Atari游戏。

强化学习机加工加工强化的原理_Memory_25