深度强化学习batch size是越大越好还是越小越好深度强化算法

转载

话不是这么说的 2024-07-01 21:08:56

文章标签 决策树数据编码器 文章分类 机器学习人工智能

深度强化学习batch size是越大越好还是越小越好深度强化算法_决策树

深度强化学习batch size是越大越好还是越小越好深度强化算法_编码器_02

深度强化学习batch size是越大越好还是越小越好深度强化算法_决策树_03

深度强化学习batch size是越大越好还是越小越好深度强化算法_编码器_04

Sutton’sTD（0）算法：考虑当前回报和下一状态的估计值，它的更新公式：

深度强化学习batch size是越大越好还是越小越好深度强化算法_编码器_05

• Q-learing算法：它和Sutton’sTD(0)算法类似，只是将动作集A也考虑进来。定义动作价值函数Q（s,a），

深度强化学习batch size是越大越好还是越小越好深度强化算法_数据_06

深度强化学习 DRL

深度学习感知能力强；强化学习决策能力强；结合更好！

根据环境做出的奖励来决策

深度强化学习batch size是越大越好还是越小越好深度强化算法_编码器_07

典型应用：DQN

把Q-learning中的价值函数用深度神经网络来近似。

包括主网络和目标网络：

主网络：通过最大Q值选择action，而被选定的Q值则由目标网络生成

目标网络：辅助计算目标Q值，目的是避免网络陷入目标Q值与预测Q值的反馈循环。

深度强化学习batch size是越大越好还是越小越好深度强化算法_编码器_08

经验回放experience replay

将系统探索环境得到的数据储存起来，然后随机采样样本****更新深度神经网络的参数。

对于时间序列信息，深度Q网络的处理方法是加入经验回放机制。但是经验回放的记忆能力有限，每个决策点需要获取整个输入画面进行感知记忆。

深度森林

决策树（Decision Tree），是一种基于树结构进行决策的机器学习方法，这恰是人类面临决策时一种很自然的处理机制。

决策树生成过程：

1.寻找适合分割的特征。
2.根据纯度判断方法，寻找优的分割点，基于这一特征把数据分割成纯度更高的两部分数据。
3.•判断是否达到要求，若未达到，重复步骤一继续分割，直到达到要求停止为止。
4.剪枝，防止过拟合。

随机森林

随机建立一颗颗决策树，组成森林，决策树之间没有关联。当有一个新的样本输入，就让每棵树独立做出判断，按照多数原则决定该样本的分类结果。集成学习的思想。
•随机森林的生成方法
1.从样本集中通过重采样的方式产生n个样本
2.假设样本特征数目为a，对n个样本选择a中的k个特征，用建立决策树的方式获得最佳分割点
3.重复m次，产生m棵决策树
4.按多数投票机制来进行预测

•优势 •
与DNN相比需要的参数更少。
训练速度快。
不仅适合大规模数据也适合小规模数据。
基于树模型解释性比较好