前言

好吧我又来更新sota 论文了 这个是多模态情感分析的sota 而且和第二名相差很大。

摘要

多模态语言分析是NLP的一个新兴领域,旨在同时建模说话人的单词语义、语音和面部表情。在这方面,语义通常优于其他模态,因为它们是通过基于Transformer的模型在大型语料库上预先训练的。
尽管他们的表现很好,但由于数据不足,在任何模型上训练一个新的自监督学习(SSL)Transformer通常是不可能实现的,这在多模态语言学习中就是如此。
这项工作提出了一个基于Transformer的语音前缀语言模型,称为TRASTEL,以在不训练完整Transformer的情况下接近上述约束。
与传统的语言模型相比,TEASEL模型除了文本模态之外,还包括作为动态前缀的语音模态。
该方法利用传统的预训练语言模型作为跨模态Transformer模型。我们评估了由CMU-MOSI数据集定义的多模态情绪分析任务的TRANSEL。大量的实验表明,我们的模型在F1分数上优于单模态基线语言模型4%,优于当前的多模态最新(SoTA)模型1%。此外,我们提出的方法比SoTA模型小72%。

模型结构

TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_模态

文本模态

  • 使用RoBERTa 作为文本特征提取器

    TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_transformer_02

语音模态

  • 使用 wav2vec 2.0 来提取声音特征
    TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_自然语言处理_03
  • 使用Lightweight Attentive Aggregation 增强上下文表示
    TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_语言模型_04
    因为wav2vec 是预训练的模型, 对于特征提取可能还是提取一个偏通用的特征, 所以 在上层再加入一个 轻量级的特征提取器进行更狭义的提取。

Lightweight Attentive Aggregation

主要包括以下几步

  • 进行layer norm
    TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_自然语言处理_05
  • 通过双向GRU 获取特征双向表示
    TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_自然语言处理_06- 对双向语义进行Attention 合并
    TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_transformer_07
    Ca 表示 前向特征的加权特征 和 后向特征的加权特征

训练过程

阶段1: 预训练

模型的输入是
TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_语言模型_08
声音作为前缀输入, 然后直接放到Roberta 的 encoder中 进行预训练
其中Ca 表示的 是 两个输入 一个前向输入, 一个后向输入

阶段2: 下游finetune

在预训练完之后,固定权重, 用 CLS的结果用于上游finetune

效果

效果有点过于好了
TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读_模态_09

预训练细节

  • 100 hours of LIBRISPEECH in 8,000 cumulative steps (9 epochs)
  • fine-tuned TEASEL on CMU-MOSI with 3 epochs.

超参选择
learning rates in range of {1e- 0.10, 0.2, 0.3, 0.4, 0.5}
batch sizes in the range of {8, 16,32}
warm-up steps using {0%, 10%, 20%, 30%, 40%}

总结
  • 大道至简, 没有繁琐的预训练输入, 非常的朴素的输入
  • 有点像prompt里面的一种 , 前缀prompt
  • 看起来单用robert 的情感分析效果已经很不错了