目录



摘要

对话中的情感识别(ERC)在开发移情机器领域中越来越受到重视。最近,许多方法都致力于用深度学习模型发掘对话的上下文。但是这些方法由于缺少提取和整合情感线索的能力而在理解上下文方面有缺陷。本篇论文,我们提出了新的上下文推理网络(DialogueCRN)从认知的角度来充分理解对话上下文。受到情绪认知理论的启发,我们设计了一个多轮推理模块去提取和整合情绪线索。推理模块迭代地执行一个直观的检索过程和一个有意识的推理过程,去模仿人类独特的认知思维。

1 介绍

对话中的情感识别(ERC)旨在检测说话人在对话中的每个话语中的情绪。这个任务是一个很重要的课题,在开发移情机器(Zhou等人,2020​[1]​)的很多领域包括社会意见挖掘(Kumar等人,2015​[2]​)、智能助手(Konig等人,2016​[3]​)、医疗保健(Pujol等人,2019​[4]​)等。

一个对话通常包含触发当前话语情感的上下文线索(Poria等人,2019​[5]​),比如原因或者情景。最近,关于ERC的基于上下文的研究(Poria等人,2017​[6]​;Hazarika等人,2018b​[7]​;Majumder等人,2019​[8]​)致力于通过深度学习模型感知情境层面或说话人层面的上下文。然而这些方法对于理解那些包含很丰富的情绪线索的上下文不是很有效。我们认为它们主要面临以下挑战:

  1. 情感线索的提取
    大部分方法(Hazarika等人,2018a[9],b;Jiao等人,2020b[10])通常从静态的记忆中检索相关的上下文,这限制了它们捕获更丰富的情感线索的能力。
  2. 情感线索的整合
    很多研究(Majumder等人,2019[8:1];Ghosal等人,2019[11];Lu等人,2020[12])通常使用attention机制去整合编码过的情感线索,却无视掉它们内在的语义顺序。这会失去线索之间的逻辑关系,使得捕获触发情感的关键因素变得困难。

《情绪认知理论(Cognitive Theory of Emotion)》(Schachter and Singer, 1962​[13]​; Scherer等人,2001​[14]​)认为认知因素对情绪状态的形成具有潜在的决定作用。这些认知因素可以通过在我们的大脑中反复执行直觉检索过程和有意识的推理过程来捕捉。(Evans, 1984​[15]​, 2003​[16]​,2008​[17]​; Sloman, 1996​[18]​)受他们的启发,本文试图对两个关键的过程进行建模,来推理情感线索并充分理解会话上下文。通过在认知阶段遵循《工作记忆(working memory)》(Baddeley, 1992​[19]​)中的机制,我们可以反复执行这两个认知过程来指导提取和整合情绪线索,从而模拟人类独特的认知思维。

在本论文中,我们提出了新的上下文推理网络(DialogueCRN)通过充分理解对话上下文来辨别话语中的情感。该模型引入了一个认知阶段,从通过感知阶段检索到的上下文中提取和整合情感线索。首先,在感知阶段我们利用长短时记忆(LSTM)(Hochreiter and Schmidhuber, 1997​[20]​)网络去捕获情境层面和说话人层面的上下文。基于这些上下文,可以获取全局记忆去存储不同的上下文信息。其次,在认知阶段,我们可以设计多轮推理模块去反复提取和整合情感线索。这个推理模块执行两个进程,即直观检索过程和有意识推理过程。前者利用attention机制通过检索全局记忆去匹配上下文线索,来模仿人类的直观检索过程。后者采取LSTM网络学习内在逻辑顺序,通过保留和更新动态工作记忆,来整合上下文线索。这模仿了人类的推理过程。它比较慢但是有人类独特的推理力。(Baddeley, 1992​[19:1]​)最后,根据上述情景层面和说话人层面的上下文线索,使用情感分类器预测话语的情感标签。

为了评估所提出模型的表现,我们可以在三个公共基础数据集上进行大量的实验,即IEMOCAP数据集,SEMAINE数据集和MELD数据集。结果一致表明我们提出的模型明显超过了被比较的方法。此外,从认知角度理解情绪线索可以提高情绪识别的表现。

这项工作主要的贡献总结如下:

  • 我们提出了新的上下文推理网络(DialogueCRN)从认知的角度来充分理解对话上下文。据我们所知,这是第一次尝试探索对话中情绪识别的认知因素。
  • 我们设计了一个多轮推理模块来提取和整合情绪线索,通过迭代地执行一个直观的检索过程和一个有意识的推理过程,去模仿人类独特的认知思维。
  • 我们在三个公共基础数据集上进行大量的实验。结果一致表明了本文所提出的模型的有效性和优越性。

2 研究方法

2.1 问题说明

形式上,让 \(U=[u_{1} ,u_{2},…,u_{N}]\) 成为一个对话,其中 \(N\) 是话语的数量,并且有 \(M\) 个说话者/组 \(p_{1},p_{2},…,p_{M}(M\ge2)\) 。

每个话语 \(u_{i}\) 是被说话者 \(p_{\phi(u_{i})}\) 说出的,其中 \(\phi\) 将话语索引映射到相应说话人的索引。

另外,对于每个 \(\lambda \in [1,M]\) ,我们定义 \(U_{\lambda}\) 作为被说话人 \(p_{\lambda }\) 所说的话语,即


\[U_{\lambda}=\{u_{i}|u_{i}\in U 并且 u_{i} 被 p_{\lambda}说出,\forall i\in[1,N]\}\]


这个会话中的情绪识别(ERC)的任务旨在通过预定义的 \(\Gamma\) 来预测每一个话语 \(u_{i}\) 的情感标签 \(y_{i}\)

2.2 文本特征

卷积神经网络(CNNs)(Kim,2014​[21]​)有从一个话语中捕获n元信息的能力。根据之前的作品(Hazarika等人,2018b​[7:1]​;Majumder等人,2019​[8:2]​;Ghosal等人,2019​[11:1]​),我们利用一个使用最大池化(max-pooling)的CNN层来精确地从每个话语的转录本中提取上下文无关的文本特征。具体来讲,输入是300维预训练过的大小为840B 的Glo Ve向量(Pennington等人,2014​[22]​)。我们使用三个大小分别为3、4和5的过滤器,每个过滤器具有50个特征图。这些特征图由最大池化(max-pooling)和ReLU激活函数进一步处理(Nair和Hinton,2010​[23]​)。之后,将这些激活特征连接起来,并最终投影到维度 \(d_{u}=100\) 的密集层上。其输出形成了一个话语的表达。我们令 \(\{u_{i}\}_{i=1}^{N},u_{i}\in\mathbb{R} ^{d_{u}}\) 作为话语N的描述。

2.3 模型

接着,我们提出了上下文推理网络(DialogueCRN)来进行对话中的情感识别。DialogueCRN由三部分组成,分别是感知阶段(2.3.1节)、认知阶段(2.3.2节)和情感分类器(2.3.3节)。整体架构如图1所示。

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_2d

2.3.1 感知阶段(Perception Phase)

在感知阶段,基于输入的文本特征,我们首先生成情境层面或说话人层面的对话上下文描述。之后,获得全局记忆来存储不同的上下文信息。

对话上下文表述

长短时记忆(LSTM)(Hochreiter and Schmidhuber, 1997​[20:1]​)介绍了递归神经网络中用来从输入序列中捕获长期依赖关系的门机制。在这一部分,利用两个双向LSTM来分别捕获情景层面和说话人层面的上下文依赖。

为了在情景层面学习上下文,我们应用了一个双向LSTM网络来捕获同一个对话中相邻两个话语之间的次序依赖。输入是每个话语的文本特征 \(u_{i}\in\mathbb{R} ^{d_{u}}\) 。情景层面的上下文表示为 \(c_{i}^{s}\in\mathbb{R} ^{2d_{u}}\) ,有下列计算式:


\[c_{i}^{s},h_{i}^{s}=\overleftrightarrow{LSTM}^{s}(u_{i},h_{i-1}^{s}),\tag{1}\]


其中 \(h_{i-1}^{s}\in\mathbb{R} ^{d_{u}}\) 是情景层面LSTM的第i层隐藏状态。

为了在说话人层面学习上下文,我们使用另一个双向LSTM来捕获同一个说话人相邻的话语的自依赖。给定每个话语的文本特征 \(u_{i}\) ,说话人级上下文表示 \(c_{i}^{v}\in\mathbb{R} ^{2d_{u}}\) 由下式计算:


\[c_{i}^{v},h_{\lambda,j}^{v}=\overleftrightarrow{LSTM}^{v}(u_{i},h_{\lambda,j-1}^{v}),j\in[1,|U_{\lambda}|],\tag{2}\]


其中 \(\lambda=\phi(u_{i})\) 。 \(U_{\lambda}\) 指说话人 \(p_{\lambda}\) 所说的所有话语。 \(h_{\lambda,j}^{v}\in\mathbb{R} ^{d_{u}}\) 是说话人 \(p_{\lambda}\) 的说话人层面LSTM的第j层隐藏状态。

全局记忆表述

基于上述的对话上下文表述,可以通过线性层获得全局记忆来存储不同的上下文信息。也就是说,情景层面上下文 \(G^{s}=[g_{1}^{s},g_{2}^{s},…,g_{N}^{s}]\) 和说话人层面上下文 \(G^{v}=[g_{1}^{v},g_{2}^{v},…,g_{N}^{v}]\) 的全局记忆通过下式计算:


\[g_{i}^{s}=W_{g}^{s}c_{i}^{s}+b_{g}^{s},\tag{3}\]


\[g_{i}^{v}=W_{g}^{v}c_{i}^{v}+b_{g}^{v},\tag{4}\]


其中 \(W_{g}^{s},W_{g}^{v}\in\mathbb{R} ^{2d_{u}\times 2d_{u}},b_{g}^{s}b_{g}^{v}\in\mathbb{R} ^{2d_{u}}\) ,是可学习参数。

2.3.2 认知阶段(Cognition Phase)

受到《情绪认知理论(Cognitive Theory of Emotion)》(Schachter and Singer, 1962​[13:1]​; Scherer等人,2001​[14:1]​)的启发,认知因素对情绪状态的形成具有潜在的决定作用。因此,在认知阶段,我们设计了多轮推理模块来迭代地提取和整合情感线索。推理模块架构如图2所示。

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_2d_02

推理模块执行两个过程,直观检索过程和有意识推理过程。在第t轮,对于推理过程,我们使用LSTM网络来学习内在逻辑次序并且整合上下文线索到工作记忆。这是比较慢的过程,但是有着人类独特的推理力(Baddeley, 1992​[19:2]​)。即:


\[\tilde{q} _{i}^{(t-1)},h_{i}^{(t)}=\overrightarrow{LSTM}(q_{i}^{(t-1)},h_{i}^{(t-1)}),\tag{5}\]


其中 \(\tilde{q} _{i}^{(t-1)}\in\mathbb{R} ^{2d_{u}}\) 是输出向量。 \(q _{i}^{(t)}\in\mathbb{R} ^{4d_{u}}\) 由当前话语的上下文表示 \(c_{i}\) 初始化,即, \(q_{i}^{(0)}=W_{q}c_{i}+b_{q}\) ,其中, \(W_{q}\in\mathbb{R} ^{4d_{u}\times2d_{u}},b_{q}\in\mathbb{R}^{4d_{u}}\) 是可学习参数。 \(h_{i}^{(t)}\in\mathbb{R}^{2d_{u}}\) 指工作记忆,不仅可以存储和更新之前的记忆 \(h_{i}^{(t-1)}\) ,还可以指导下一轮线索的提取。在工作记忆的顺序流动过程中,我们可以学习线索之间隐含的逻辑顺序,这类似于人类的有意识思维过程。 \(h_{i}^{(t)}\) 被初始化为0。t是指示为了计算最终状态而执行多少“处理步骤”的索引。

对于检索过程,我们运用了attention机制从全局记忆中匹配相关的上下文线索。具体计算如下:


\[\mathbf{e}_{i j}^{(t-1)}=f\left(\mathbf{g}_{j}, \tilde{\mathbf{q}}_{i}^{(t-1)}\right)\tag{6}\]


\[\alpha_{i j}^{(t-1)}=\frac{\exp \left(\mathbf{e}_{i j}^{(t-1)}\right)}{\sum_{j=1}^{N} \exp \left(\mathbf{e}_{i j}^{(t-1)}\right)}\tag{7}\]


\[\mathbf{r}_{i}^{(t-1)}=\sum_{j=1}^{N} \alpha_{i j}^{(t-1)} \mathbf{g}_{j}\tag{8}\]


其中f是计算从 \(g_{i}\) 到 \(\tilde{\mathbf{q}}_{i}^{(t-1)}\) 的单标量的函数(比如,点积)。

之后,我们将推理过程的输出 \(\tilde{\mathbf{q}}_{i}^{(t-1)}\) 和由此产生的注意力读数 \(\mathbf{r}_{i}^{(t-1)}\) 连接起来,形成下一轮的查询 \(\mathbf{q}_{i}^{(t)}\) 。即:


\[\mathbf{q}_{i}^{(t)}=\left[\tilde{\mathbf{q}}_{i}^{(t-1)} ; \mathbf{r}_{i}^{(t-1)}\right]\tag{9}\]


查询 \(\mathbf{q}_{i}^{(t)}\) 会在工作记忆 \(h_{i}^{(t)}\) 的指引下更新,并且可以从全局记忆中检索到更多上下文线索。

综上所述,给定的话语 \(u_{i}\) 的上下文 \(c_{i}\) ,全局记忆G还有轮数T,整个认知阶段(等式9)可以表示为 \(q_{i}=Cognition(c_{i},G;T)\) 。在本论文中,我们设计了两个不同的认识阶段来分别探索情景层面和说话人层面的上下文线索。输出定义如下:


\[\mathbf{q}_{i}^{s}=Cognition^{s}\left(\mathbf{c}_{i}^{s}, \mathbf{G}^{s} ; T^{s}\right),\tag{10}\]


\[\mathbf{q}_{i}^{v}=Cognition^{v}\left(\mathbf{c}_{i}^{v}, \mathbf{G}^{v} ; T^{v}\right),\tag{11}\]


其中, \(T^{s}和T^{v}\) 分别是情景层面和说话人层面认知阶段的轮数。

基于上述输出向量,最终表述 \(\mathbf{o}\) 定义为两个向量的串联,即:


\[\mathbf{o}_{i}=\left[\mathbf{q}_{i}^{s} ; \mathbf{q}_{i}^{v}\right],\tag{12}\]


2.3.3 情感分类器

最后,根据上述上下文线索,使用情感分类器预测话语的情感标签。


\[\hat{\mathbf{y}}_{i}=\operatorname{softmax}\left(\mathbf{W}_{o} \mathbf{o}_{i}+\mathbf{b}_{o}\right),\tag{13}\]


其中, \(\mathbf{W}_{o} \in \mathbb{R}^{8 d_{u} \times|\mathcal{Y}|} \text { 和 } \mathbf{b}_{o} \in \mathbb{R}^{|\mathcal{Y}|}\) 是可训练参数。 \(|\mathcal{Y}|\) 是情感标签的数量。

利用交叉熵损失对模型进行训练。损失函数定义为:


\[\mathcal{L}=-\frac{1}{\sum_{l=1}^{L} \tau(l)} \sum_{i=1}^{L} \sum_{k=1}^{\tau(i)} \mathbf{y}_{i, k}^{l} \log \left(\hat{\mathbf{y}}_{i, k}^{l}\right),\tag{14}\]


其中 \(L\) 是训练集中对话或者例子的总数。 \(\tau(i)\) 是例子 \(i\) 中的话语数。 $\mathbf{y}_{i, k}^{l} $ 和 \(\hat{\mathbf{y}}_{i, k}^{l}\) 分别是例子 \(l\) 中话语 \(i\) 的情感分类 \(k\) 的one-hot向量和概率向量。

3 实验步骤

3.1 数据集

我们在以下基准数据集上评估我们提出的模型:IEMOCAP数据集(Busso等人,2008​[21:1]​)、SEMAINE数据集 (McKeown等人,2012​[22:1]​)和MELD数据集(Poria等人,,2019​[23:1]​)。数据在表1。上述数据集是具有文本、视觉和声学特征的多模态数据集。本文主要研究文本对话中的情感识别。会话中的多模态情感识别被保留为未来的工作。

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_数据集_03

IEMOCAP

包含十个人双向对话的视频,其中,只有从第1节到第4节的前八名发言者属于训练组。这些话语用六个情感标签中的一个进行注释,即快乐、悲伤、中立、愤怒、兴奋和沮丧。根据之前的研究(Hazarika等人,2018a​[9:1]​;Ghosal等人,2019​[11:2]​;Jiao等人,2020b​[10:1]​)由于IEMOCAP数据集中未提供预定义的训练集和验证集的分割,因此验证集以80:20的比率从随机洗牌过的训练集中提取。

SEMAINE

该数据集是一个人-代理交互的视频数据库。在2012年的AVEC挑战赛上可以获得,该竞赛要求预测四个连续的情感属性:激活度(Arousal)、预期(Expectancy)、力量(Power)和愉悦度(Valence)。在每个视频中每0:2秒可获得一个黄金注释(Nicolle等人,2012​[24]​)接下来(Hazarika等人,2018a​[9:2]​;Ghosal等人,2019​[11:3]​),在话语的跨度上对属性进行平均,以获得话语级别的注释。我们利用挑战赛中提供的标准训练和测试拆分数据集。

MELD

多模态情感线数据集(MELD)(Poria等人,2019​[5:1]​),EmotionLines(Hsu等人,2018​[25]​)的一个延伸。收集自电视连续剧《老友记》,包含1400多个多方对话和13000多个话语。每一个话语都有七个情感标签(即快乐/快乐(happy/joy)、愤怒(anger)、恐惧(fear)、厌恶(disgust)、悲伤(sadness)、惊讶(surprise)和中立(neutral))。我们使用MELD数据集中提供的预定义训练和验证拆分数据集。

3.2 比较方法

我们将提出的模型与以下基线方法进行比较。

TextCNN (Kim,2014​[21:2]​)

是一个在上下文无关话语上训练的卷积神经网络。

Memnet (Sukhbaatar等人,2015​[26]​)

是一个端到端的记忆网络,并且以多跳方式更新记忆。

bc-LSTM+Att (Poria等人,2017​[6:1]​)

利用了一个双向LSTM网络来从周围的话语中捕获上下文内容。此外,采用注意机制为特征重新加权,并提供一个有更多信息的输出。

CMN (Hazarika等人,2018b​[7:2]​)

为两个说话人用两个不同的GRU从对话历史中编码对话上下文。

ICON (Hazarika等人,2018a​[9:3]​)

扩展了CMN,通过使用另一个GRU连接单个说话人GRU的输出以感知说话人间建模。

DialogueRNN (Majumder等人,2019​[8:3]​)

是一个由两个GRU组成的循环网络,用于跟踪会话期间的说话人状态和上下文。

DialogueGCN (Ghosal等人,2019​[11:4]​)

是一种基于图的模型,其中节点表示话语,边表示话语说话人之间的依赖关系。

3.3 评估量度

根据之前的研究(Hazarika等人,2018a​[9:4]​;Jiao等人,2020b​[10:2]​),对于IEMOCAP和MELD数据集,我们选择精确度评分(Acc.)来衡量整体性能。我们也列出加权平均F1评分(Weighted-F1)和宏平均F1评分(Macro-F1)来分别评估模型在多数分类和少数分类上的性能。对于SEMAINE数据集,我们公布每个特征的平均绝对误差(MAE)。MAE越低,检测性能越好。

3.4 具体步骤

我们使用验证集来调整超参数。在感知阶段,我们在IEMOCAP和SEMAINE数据集上采用两层双向LSTM,在MELD数据集上采用单层双向LSTM。在认知阶段,在所有数据集上都使用单层LSTM。batch的大小设置成32。在IEMOCAP数据集、SEMAINE数据集和MELD数据集上我们使用Adam(Kingma和Ba,2015​[27]​)作为优化器,初始学习速率分别为{0.0001,0.001,0.001},在L2衰退至{0.0002,0.0005,0.0005}。dropout比率设为0.2。我们对所有模型进行最多100个epochs的训练,如果连续20个epochs的验证损失没有减少,则停止训练。

对于DialogueGCN和DialogueRNN结果,我们在相同的环境下运行作者提供的公共代码来得到。

4 结果和分析

4.1 实验结果

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_推理网络_04

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_论文翻译_05

表2、3和4显示了文本对话中情绪识别的比较结果。DialogueCRN在所有数据集上一直有着比被比较模型更好的表现,同时在配对t-test(p<0.05)下,也具有统计学意义。

IEMOCAP和SEMAINE

IEMOCAP和SEMAINE数据集的会话长度都很长,平均长度不小于50。事实表明这两个数据集包含了丰富的上下文信息。 TextCNN 无视了对话上下文获得了最差的表现. Memnet和bc-LSTM+Att 感知当前话语的情境层面语境。 CMN 感知说话人级别的上下文。

至此, Memnetbc-LSTM+AttCMN 略胜于 TextCNNICONDialogueRNNDialogueGCN 考虑情景层面和说话者层面的上下文来模拟上下文的感知阶段。它们比上边的模型表现要好。和基线方法相比, DialogueCRN 可以通过发掘认知因素提取和整合情感线索。因此,我们的模型获得了更好的评价。也就是说,如表2和表3所示,对于IEMOCAP数据集, DialogueCRN 在Acc.、Weighted-F1和Macro-F1方面分别比以前的最佳基线提高了3.2%、4.0%、4.7%。对于SEMAINE数据集, DialogueCRN 在Arousal特征的MAE上获得了11.1%的改善。

MELD

从表1可知,MELD数据集中每个对话的说话人数量很大(最多9人),平均对话长度为10。MELD数据集中的对话长度越短,说明它包含的上下文信息就越少。有趣的是,从表4的结果来看,忽略会话上下文的 TextCNN 比大多数基线方法获得了更好的结果。这表明通过感知有限和缺失的上下文,很难学习有用的特征。此外, DialogueGCN 利用图形结构感知多个说话人的交互,这足以感知说话人层面的上下文。因此,性能略有提高。和其他基线方法比较, DialogueCRN 可以执行上下文的次序思考并且可以从认知角度理解情感线索。因此,它得到了最好的成绩,比如在Weighted-F1上有了2.9%的改善。

4.2 消融实验(Ablation Study)

为了更好地理解DialogueCRN中不同模块对性能的贡献,我们对IEMOCAP和SEMAINE数据集进行了几项消融实验。在感知和认知两个阶段分别移除模拟情境层面和说话人层面上下文的不同模块。结果在表5展示。当认知和感知模块相继移除时,性能明显下降。这表明了认知和知觉阶段对ERC都很重要。

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_2d_06

认知阶段影响

当只移除了认知阶段,如表5第三块所示,在IEMOCAP数据集上Acc.,Weighted-F1和 Macro-F1的表现分别下降了4.3%,4.3%和6.5%。在SEMAINE数据集上,愉悦度、激活度和预期特征的MAE分别增加了2.3%、12.5%和2.9%。这些结果表明了认知阶段的有效性,认知阶段可以有意识地、连续地基于感知得到的上下文信息进行推理。另外,当移除了说话人层面或者情景层面上下文的认知阶段,如第二块所示,在所有数据集上结果都有所下降。这一事实反映了情境因素和说话人因素在认知阶段都是至关重要的。

感知阶段影响

如最后一行所示,移除感知模块时,性能会急剧下降。这个较低的结果说明了感知阶段在基于当前话语无意识地匹配相关上下文的必要性。

不同上下文的影响

当在认知阶段和感知阶段上分别移除情景层面或者说话人层面的上下文时,性能有一定的下滑。这一现象表明,情境层面和说话人层面的上下文在感知和认知阶段都发挥着一定的效用。另外,在这两个数据集上的下降幅度不同。这表明说话人层面的上下文在感知阶段起着更大的作用,而更复杂的情境层面的上下文在认知阶段起着很好的作用。这一点可以说明为,通过直觉匹配感知从上下文中学习信息特征是有限的,但有意识的认知推理可以促进更好的理解。

4.3 参数分析

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_推理过程_07

我们研究了我们的模型在认知阶段的轮数方面的表现。从图3可知,在IEMOCAP数据集和SEMAINE数据集上最好的 \(\{T^{s},T^{v}\}\) 是{2,2}和{1,3},性能得分分别为Weighted-F1分数为66.20% (IEMOCAP上{2,2}),激活度特征的MAE为0.1522(SEMAINE上{1,3})。值得注意的是,SEMAINE数据集在说话人层面的认知阶段需要更多的轮次。这意味着说话人层面的上下文线索在激活度情绪中可能更为重要,尤其是需要复杂推理的移情线索。

此外,如果我们在认知阶段只考虑情景层面或说话者层面的上下文,则两个数据集的结果在一定轮数内得到显著改善。事实表明,使用多轮推理模块来理解上下文线索是有效的。

4.4 案例研究

【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations_推理网络_08

图4显示了从IEMOCAP数据集中采样的对话。目标是预测话语8的情感标签。DialogueRNN和DialogueGCN之类的方法缺少有意识地理解情感线索的能力,比如,情感的原因(期望落空)。他们很容易错误地将情绪识别为愤怒或中性。

我们的模型DialogueCRN可以通过感知和认识来理解对话上下文,在认知阶段,下列两个过程在反复进行:8-7-2-1的直观检索过程(蓝色箭头)和a-b-c的有意识的推理过程(红色箭头),以此来提取和整合情感线索。我们可以得出,话语8意味着没有实现女性期望得到的更多补偿。补偿失败导致她的情绪更加消极,因此被正确地认定为沮丧。

5 相关工作

5.1 情绪识别

情感识别(ER)越来越受到自然语言处理(NLP)和艺术智能(AI)的关注。现有的研究通常把ER任务当作一个基于无上下文数据块的分类任务。比如个人评价或文件。它们大致可分为两部分,即基于特征的工程(Devillers和Vidrascu,2006​[28]​)和基于深度学习的方法(Tang等人,2016​[29]​;Wei等人,2020​[30]​)。

5.2 会话中的情绪识别

近年来,会话中的情绪识别(ERC)受到研究者的关注。与传统的情感识别不同,情境层面和说话人层面的上下文在识别对话中话语的情感方面起着重要作用(Li等人,2020​[31]​)。忽视这些将导致相当有限的性能表现(Bertero等人,2016年​[32]​)。现有的研究通常通过深度学习方法来获取ERC任务的上下文特征,可以分为基于序列的方法和基于图形的方法。

基于序列的方法

许多研究捕捉了话语序列中的上下文信息。Poria等人(2017年​[6:2]​)利用LSTM(Hochreiter和Schmidhuber,1997年​[20:2]​)来捕捉对话上下文特征。Hazarika等人(2018a​[7:3]​,b​[9:5]​)使用端到端的记忆网络(Sukhbaatar等人,2015​[26:1]​)捕获上下文特征区分不同说话人。Zhong等人(2019​[33]​);Li等人(2020年​[31:1]​)利用transformer(Vaswani等人,2017年​[34]​)捕获了基于注意机制的更丰富的上下文特征。Majumder等人(2019年​[8:4]​)引入了使用了GRU的每次对话的说话人状态和全局状态(Cho等人,2014年​[35]​)。此外,Jiao等人(2020a​[36]​)引入了一项对话完成任务,以从无监督的对话数据中学习。Jiao等人(2020b​[10:3]​)提出了一种分层记忆网络,用于无需未来上下文的实时情感识别。Wang等人(2020年​[37]​)将ERC建模为序列标记,以一致连续地学习情感。Lu等人(2020年​[12:1]​)提出了一个迭代情感交互网络,以明确建模情感交互。

基于图形的方法

一些研究(Zhang等人,2019年​[38]​;Ghosal等人,2019年​[11:5]​;Ishiwatari等人,2020年​[39]​;Lian等人,2020年​[40]​)通过设计特定的图形结构来模拟对话环境。他们利用图形神经网络(Kipf和Welling,2017​[41]​;Velickovic等人,2017​[42]​)捕获对话中的多个依赖项,这些依赖项已经取得不错的性能表现。

与以往的研究不同,受情感认知理论的启发(Schachter和Singer,1962​[13:2]​;Scherer等人,2001​[14:2]​),本文首次尝试探索对话中情感识别的认知因素。为了充分理解对话上下文,我们提出了一种新的DialogueCRN模型,以提取并以认知方式整合丰富的情感线索。

6 结论

本文研究了对话中情绪识别(ERC)任务的认知因素。我们提出了新的上下文推理网络(DialogueCRN)来充分理解情景层面和说话人层面的上下文。DialogueCRN引入了认知阶段来从由感知阶段检索到的上下文中提取和整合情感线索。在认知阶段,我们设计了多轮推理模块,以迭代的方式执行直观检索过程和有意识的推理过程,模仿人类独特的认知思维。最后,成功地获得触发当前情绪的情绪线索,并用于更好的分类。在三个基准数据集上的实验证明了该模型的有效性和优越性。案例研究表明,考虑认知因素可以更好地理解情绪线索,提高ERC的性能。

参考



  1. Li Zhou, Jianfeng Gao, Di Li, and Heung-Yeung Shum.2020. The design and implementation of xiaoice,an empathetic social chatbot. Comput. Linguistics, 46(1):53–93. ↩︎
  2. Akshi Kumar, Prakhar Dogra, and Vikrant Dabas. 2015. Emotion analysis of twitter using opinion mining. In IC3, pages 285–290. IEEE Computer Society. ↩︎
  3. Alexandra Konig, Linda E. Francis, Aarti Malhotra, and Jesse Hoey. 2016. Defining affective identities in elderly nursing home residents for the design of an emotionally intelligent cognitive assistant. In PervasiveHealth, pages 206–210. ACM. ↩︎
  4. Francisco A. Pujol, Higinio Mora, and Ana Martınez. 2019.Emotion recognition to improve e-healthcare systems in smart cities. In RIIFORUM, pages 245–254. Springer. ↩︎
  5. Soujanya Poria, Devamanyu Hazarika, Navonil Ma- jumder, Gautam Naik, Erik Cambria, and Rada Mi- halcea. 2019. MELD: A multimodal multi-party dataset for emotion recognition in conversations. In ACL (1), pages 527–536. Association for Computa- tional Linguistics. ↩︎ ↩︎
  6. Soujanya Poria, Erik Cambria, Devamanyu Hazarika, Navonil Majumder, Amir Zadeh, and Louis-Philippe Morency. 2017. Context-dependent sentiment analy- sis in user-generated videos. In ACL (1), pages 873-833. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎
  7. Devamanyu Hazarika, Soujanya Poria, Amir Zadeh, Erik Cambria, Louis-Philippe Morency, and Roger Zimmermann. 2018b. Conversational memory net- work for emotion recognition in dyadic dialogue videos. In NAACL-HLT, pages 2122–2132. Associa- tion for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎
  8. Deepanway Ghosal, Navonil Majumder, Soujanya Po- ria, Niyati Chhaya, and Alexander F. Gelbukh. 2019. Dialoguegcn: A graph convolutional neural net- work for emotion recognition in conversation. In EMNLP/IJCNLP (1), pages 154–164. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
  9. Devamanyu Hazarika, Soujanya Poria, Rada Mihal- cea, Erik Cambria, and Roger Zimmermann. 2018a. ICON: interactive conversational memory network for multimodal emotion detection. In EMNLP, pages 2594–2604. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
  10. Wenxiang Jiao, Michael R. Lyu, and Irwin King. 2020b. Real-time emotion recognition via attention gated hi- erarchical memory network. In AAAI, pages 8002–8009. AAAI Press. ↩︎ ↩︎ ↩︎ ↩︎
  11. Deepanway Ghosal, Navonil Majumder, Soujanya Po- ria, Niyati Chhaya, and Alexander F. Gelbukh. 2019. Dialoguegcn: A graph convolutional neural net- work for emotion recognition in conversation. In EMNLP/IJCNLP (1), pages 154–164. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
  12. Xin Lu, Yanyan Zhao, Yang Wu, Yijian Tian, Huipeng Chen, and Bing Qin. 2020. An iterative emotion interaction network for emotion recognition in con- versations. In COLING, pages 4078–4088. Interna- tional Committee on Computational Linguistics. ↩︎ ↩︎
  13. Stanley Schachter and Jerome Singer. 1962. Cognitive, social and physiological determinants of emotional state. Psychological Review, 69:378–399. ↩︎ ↩︎ ↩︎
  14. Klaus R Scherer, Angela Schorr, and Tom Johnstone. ↩︎ ↩︎ ↩︎
  15. Jonathan St BT Evans. 1984. Heuristic and analytic processes in reasoning. British Journal of Psychol- ogy, 75(4):451–468. ↩︎
  16. Jonathan St BT Evans. 2003. In two minds: dual- process accounts of reasoning. Trends in cognitive sciences, 7(10):454–459. ↩︎
  17. Jonathan St BT Evans. 2008. Dual-processing ac- counts of reasoning, judgment, and social cognition. Annu. Rev. Psychol., 59:255–278. ↩︎
  18. Steven A Sloman. 1996. The empirical case for two systems of reasoning. Psychological bulletin, 119(1):3. ↩︎
  19. Alan Baddeley. 1992. Working memory. Science, 255(5044):556–559. ↩︎ ↩︎ ↩︎
  20. Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long short-term memory. Neural Comput., 9(8):1735–1780. ↩︎ ↩︎ ↩︎
  21. Yoon Kim. 2014. Convolutional neural networks for sentence classification. In EMNLP, pages 1746–1751. The Association for Computer Linguistics. ↩︎ ↩︎ ↩︎
  22. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. Glove: Global vectors for word rep- resentation. In EMNLP, pages 1532–1543. The As- sociation for Computer Linguistics. ↩︎ ↩︎
  23. Vinod Nair and Geoffrey E. Hinton. 2010. Rectified linear units improve restricted boltzmann machines. In ICML, pages 807–814. Omnipress. ↩︎ ↩︎
  24. Jeremie Nicolle, Vincent Rapp, Kevin Bailly, Lionel ´ Prevost, and Mohamed Chetouani. 2012. Robust continuous prediction of human emotions using mul- tiscale dynamic cues. In ICMI, pages 501–508. ACM. ↩︎
  25. Chao-Chun Hsu, Sheng-Yeh Chen, Chuan-Chun Kuo, Ting-Hao K. Huang, and Lun-Wei Ku. 2018. Emo- tionlines: An emotion corpus of multi-party conver- sations. In LREC. European Language Resources Association (ELRA). ↩︎
  26. Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. 2015. End-to-end memory net- works. In NIPS, pages 2440–2448. ↩︎ ↩︎
  27. Diederik P. Kingma and Jimmy Ba. 2015. Adam: A method for stochastic optimization. In ICLR (Poster). ↩︎
  28. Laurence Devillers and Laurence Vidrascu. 2006. Real- life emotions detection with lexical and paralinguis- tic cues on human-human call center dialogs. In IN- TERSPEECH. ISCA. ↩︎
  29. Duyu Tang, Bing Qin, Xiaocheng Feng, and Ting Liu. 2016. Effective lstms for target-dependent senti- ment classification. In COLING, pages 3298–3307. Association for Computational Linguistics. ↩︎
  30. Lingwei Wei, Dou Hu, Wei Zhou, Xuehai Tang, Xi- aodan Zhang, Xin Wang, Jizhong Han, and Songlin Hu. 2020. Hierarchical interaction networks with rethinking mechanism for document-level sentiment analysis. In ECML/PKDD. ↩︎
  31. Li Zhou, Jianfeng Gao, Di Li, and Heung-Yeung Shum. 2020. The design and implementation of xiaoice, an empathetic social chatbot. Comput. Linguistics, 46(1):53–93. ↩︎ ↩︎
  32. Dario Bertero, Farhad Bin Siddique, Chien-Sheng Wu, Yan Wan, Ricky Ho Yin Chan, and Pascale Fung. 2016. Real-time speech emotion and senti- ment recognition for interactive dialogue systems. In EMNLP, pages 1042–1047. The Association for Computational Linguistics. ↩︎
  33. Peixiang Zhong, Di Wang, and Chunyan Miao. 2019. Knowledge-enriched transformer for emotion detec- tion in textual conversations. In EMNLP/IJCNLP (1), pages 165–176. Association for Computational Linguistics. ↩︎
  34. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS, pages 5998–6008. ↩︎
  35. Kyunghyun Cho, Bart van Merrienboer, C¸ aglar Gulc¸ehre, Dzmitry Bahdanau, Fethi Bougares, Hol- ¨ ger Schwenk, and Yoshua Bengio. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In EMNLP, pages 1724–1734. The Association for Computer Linguis- tics. ↩︎
  36. Wenxiang Jiao, Michael R. Lyu, and Irwin King. 2020a. Exploiting unsupervised data for emotion recogni- tion in conversations. In EMNLP (Findings), pages 4839–4846. Association for Computational Linguis- tics. ↩︎
  37. Yan Wang, Jiayu Zhang, Jun Ma, Shaojun Wang, and Jing Xiao. 2020. Contextualized emotion recogni- tion in conversation as sequence tagging. In SIGdial, pages 186–195. Association for Computational Lin- guistics. ↩︎
  38. Dong Zhang, Liangqing Wu, Changlong Sun, Shoushan Li, Qiaoming Zhu, and Guodong Zhou. ↩︎
  39. Taichi Ishiwatari, Yuki Yasuda, Taro Miyazaki, and Jun Goto. 2020. Relation-aware graph attention net- works with relational position encodings for emo- tion recognition in conversations. In EMNLP (1), pages 7360–7370. Association for Computational Linguistics. ↩︎
  40. Zheng Lian, Jianhua Tao, Bin Liu, Jian Huang, Zhanlei Yang, and Rongjun Li. 2020. Conversational emo- tion recognition using self-attention mechanisms and graph neural networks. In Interspeech 2020, 21st Annual Conference of the International Speech Communication Association, Virtual Event, Shang- hai, China, 25-29 October 2020, pages 2347–2351. ISCA. ↩︎
  41. Thomas N. Kipf and Max Welling. 2017. Semi- supervised classification with graph convolutional networks. In ICLR (Poster). OpenReview.net. ↩︎
  42. Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. 2017. Graph attention networks. In ICLR. ↩︎