AA夏栀?_?的博客_强化学习

强化学习（一）：概述

强化学习（一）：概述前言：最近，强化学习非常的火爆，不论在科研界还是工业界，强化学习一直作为一个新兴的领域，在计算机学科范畴内发挥重要的作用。强化学习（Reinforcement Learning），属于一种机器学习架构（范式）。我们知道机器学习一般分为监督和无监督，所谓监督即是否有外在的标准来约束样本，也就是所谓的标签；无监督则是没有标签的样本。强化学习之所以认为是机器学习的一种架构，是基

强化学习

状态转移

差分

原创 2022-12-22 03:33:11 926 阅读

强化学习（八）：Dyna架构与蒙特卡洛树搜索MCTS

强化学习（八）：Dyna架构与蒙特卡洛树搜索MCTS 在基于表格型强化学习方法中，比较常见的方法有动态规划法、蒙特卡洛法，时序差分法，多步引导法等。其中动态规划法是一种基于模型的方法（Model-based），因为它的前提是必须要知道所有状态和动作以及奖励的分布；后面的几种方法则是基于采样的方法，试图让智能体通过与环境交互来获得经验，从经验中推出相关的策略。因此本节对相关内容进行一个简单的总结，

MCTS

Dyna框架

强化学习

差分

动态规划

原创 2022-12-22 03:32:26 474 阅读

强化学习（二）：贪心策略（ε-greedy & UCB）

强化学习（二）：贪心策略（ε-greedy & UCB）夏栀的博客——王嘉宁的个人网站正式上线，欢迎访问和关注：http://www.wjn1996.cn 强化学习是当前人工智能比较火爆的研究内容，作为机器学习的一大分支，强化学习主要目标是让智能体学习如何在给定的一个环境状态下做出合适的决策。强化学习相关概念请点击：强化学习（一）：概述强化学习任务中有两个非常重要的

强化学习

ε-贪心

UCB

元组

原创 2022-12-22 03:32:13 1801 阅读

论文解读：Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

论文解读：Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning （2018 ACL）简要信息：序号属性值1模型名

任务型对话系统

问答系统

强化学习

数据

sed

原创 2022-12-22 03:23:54 193 阅读

对话生成的新探索——从模仿学习到逆强化学习

论文解读：Dialogue Generation: From Imitation Learning to Inverse Reinforcement Learning 对话生成是一个常见的自然语言处理任务，其在工业界广泛应用与智能客服，闲聊机器人等。现如今主要研究于如何提高对话的质量，多样性。本文则采用先进的技术试图解决这个问题。一、简要信息序号属性值1模型名称DG-AIRL2所属领域自然语言处

模仿学习

强化学习

对话生成

数据

生成器

原创 2022-12-22 02:29:45 879 阅读

强化学习（三）：有限马尔可夫决策与贝尔曼方程

强化学习（三）：有限马尔可夫决策与贝尔曼方程夏栀的博客——

强化学习

有限马尔可夫决策

贝尔曼方程

最优价值

状态转移

原创 2022-12-21 13:41:49 785 阅读

强化学习（四）：基于表格型动态规划算法的强化学习

强化学习（四）：基于表格型动态规划算法的强化学习夏栀的博客—

强化学习

动态规划

策略迭代

价值迭代

迭代

原创 2022-12-21 13:41:30 258 阅读

强化学习（六）：时序差分方法

强化学习（六）：时序差分方法时序差分（TD）方法结合了动态规划有...

差分

强化学习

动态规划

原创 2022-12-21 13:40:46 1092 阅读 1收藏

强化学习（五）：蒙特卡洛采样方法

强化学习（五）：蒙特卡洛采样方法在强化学习（四）中，我

蒙特卡洛方法

强化学习

动态规划

元组

原创 2022-12-21 13:40:40 989 阅读

论文解读：Reinforcement Learning for Relation Classification from Noisy Data

论文解读：Reinforcement Learning for Relation Classificatio

远程监督关系抽取

强化学习

数据集

选择器

原创 2022-12-21 13:40:30 203 阅读

强化学习（七）：n步自举法（多步引导法）

强化学习（七）：n步自举法（多步引导法）在之前，我们知道求解有限马尔可夫决策过程可以通过蒙特卡洛和时序差分来通过与环境多次交互从经验中学习，然而，蒙特卡洛方法在一些不满足分幕式任务或连续型任务上无法获得最终的那么一种介于...

强化学习

多步引导法

n步自举

差分

初始化

原创 2022-12-21 13:40:21 360 阅读

论文解读：A Hierarchical Framework for Relation Extraction with Reinforcement Learning

论文解读：A Hierarchical Framework for Relation Extraction with Reinforcem

实体关系联合抽取

强化学习

建模

ci

原创 2022-12-21 13:39:45 96 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

wx63a28752d9b82的博客

强化学习（一）：概述

强化学习（八）：Dyna架构与蒙特卡洛树搜索MCTS

强化学习（二）：贪心策略（ε-greedy & UCB）

论文解读：Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

对话生成的新探索——从模仿学习到逆强化学习

强化学习（三）：有限马尔可夫决策与贝尔曼方程

强化学习（四）：基于表格型动态规划算法的强化学习

强化学习（六）：时序差分方法

强化学习（五）：蒙特卡洛采样方法

论文解读：Reinforcement Learning for Relation Classification from Noisy Data

强化学习（七）：n步自举法（多步引导法）

论文解读：A Hierarchical Framework for Relation Extraction with Reinforcement Learning