On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems

摘要:计算精确的reward function对于通过强化学习来优化一个对话策略很重要。实际应用中,用显式的用户反馈作为reward信号往往不可靠并且难收集。如果用户的intent提前知道,或者数据可获取用于离线预训练,但实际上这两个都不能应用于大多数实际系统的应用。这里我们提出了一个在线学习架构,对话策略通过基于高斯过程的主动学习机制来训练,高斯过程在一个用rnn encoder-decoder生成的连续空间对话表示中作用。实验表明提出的这个架构能够显著降低数据注释成本和噪声用户反馈。

包括三部分:a dialogue policy, a dialogue embedding function, an active reward model of user feedback。


当每轮对话结束时,一组turn-level特征ft被抽取,作为Embedding Function的输入来获得一个固定维度的对话表示d,d作为Reward Model的输入。

Reward被描述为一个高斯过程,对每个输入点,估计任务成功率和不确定性,基于这种不确定性,R()会决定是否咨询用户获取反馈,然后返回一个reinforcement signal去更新Dialogue Policy,Dialogue Policy采用GP-SARSA算法训练,这个算法也采用高斯过程估计来提供在线有效采样的强化学习算法。每次对话的质量通过累计奖励定义,每次奖励-1还是最终奖励0或20取决于reward model对任务成功的估计。

在对话系统中,高斯过程被成功的用于策略优化和IRL reward function regression,可见论文Gaussian processes for POMDP-based dialogue manager optimisation



Learning to compose words into sentences with reinforcement learning


用强化学习学习树结构神经网络,用于计算自然语言句子的表示。

通常有三种构建句子的向量表示的方法:1.RNN,将RNN最终的隐状态作为句子表示;2.tree-structured network递推的将词表示组成句子的表示,不同于序列模型,这种模型的结构根据句子的句法结构组织;3.用CNN以颠倒的方式构建表示。本文的工作可以看做前两个方法的折中,不用树结构显式的监督,而是用强化学习来学习树结构,将计算的句子表示作为reward signal。模型包括两部分:一个句子表示模型和一个用于学习树结构的强化学习算法,这个树结构在句子表示模型中使用。本文的句子表示模型遵循SPINN,SPINN是一个shift-reduce parser,SHIFT操作在parse树中引入一个新的叶子节点,REDUCE操作将两个节点合并成一个成分。用强化学习(policy gradient法)来发现最好的树结构,用Policy network来参数化action(SHIFT,REDUCE)。

进行了四组实验,情感分类,语义相关性判断,自然语言推理,句子生成,效果提升不是特别明显。


NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING
来自Google Brain. 利用RL来优化RNN的结构。神经网络不容易设计,需要很多专业知识。本文用RNN生成神经网络的模型描述,用强化学习训练这个RNN来最大化生成的网络结构的准确率。在一些数据集上,会比现有的state-of-the-art model,如LSTM要好。
论文提出神经结构搜索,一个基于梯度的方法来寻找好的结构。准确率作为reward signal,计算policy gradient来更新控制器,因此下次迭代时,控制器就会给高准确率的结构更高的可能性,。


也是用REINFORCE来训练,

End-to-End Reinforcement Learning of Dialogue Agents for Information Access

强化学习在任务驱动型对话系统中的应用。这篇文章提出一个KB-InfoBot,它是一个通过交互询问特征的方式为用户从知识库(KB)中提供实体的对话智能体,KB-InfoBot的成分都是用强化学习以end-to-end的方式训练。

Framework of Automatic Text Summarization Using Reinforcement Learning