UniT:基于统一Transformer的多模态多任务学习 《UniT:Multimodal Multitask Learning with a Unified Transformer》

论文地址:https://arxiv.org/pdf/2102.10772.pdf

一、简介

用多模态机器学习 transformer 多模态_用多模态机器学习在各个领域都获得的巨大的成功,包括但不限于自然语言、图像、视频和音频。先前的工作表明,在大规模语料上预训练的用多模态机器学习 transformer 多模态_用多模态机器学习能够学习到有益于下游广泛语言任务的向量表示。在视觉领域,基于用多模态机器学习 transformer 多模态_用多模态机器学习的模型也在图像分类、目标检测和全景分割上实现了很好的效果。除了建模单一模态外,用多模态机器学习 transformer 多模态_用多模态机器学习模型也在用多模态机器学习 transformer 多模态_自然语言处理_05等联合视觉-语言推理任务上实现了很好的表现。

然而,尽管用多模态机器学习 transformer 多模态_用多模态机器学习在特定领域的应用中达成了不错的成就,但是基于用多模态机器学习 transformer 多模态_用多模态机器学习的跨领域链接不同任务的工作并不多。在目睹了用多模态机器学习 transformer 多模态_用多模态机器学习的成功后,各种问题自然会出现:用于自然语言推理训练的用多模态机器学习 transformer 多模态_用多模态机器学习模型是否也能在图像上执行目标检测,或者说基于用多模态机器学习 transformer 多模态_用多模态机器学习的图像编码器是否能用来进行检测文本蕴含?总的来说,是否能够建立单个模型来同时处理不同领域的各种任务,向通用人工智能前进一步?先前的工作尝试解决这些问题,但是存在一定的限制:

  • 仅应用在单个领域或者特定模态的任务上;用多模态机器学习 transformer 多模态_transformer_11用多模态机器学习 transformer 多模态_计算机视觉_12仅专注在视觉任务上,用多模态机器学习 transformer 多模态_自然语言处理_13以及延伸的工作仅能处理语言任务,而用多模态机器学习 transformer 多模态_多模态_14用多模态机器学习 transformer 多模态_用多模态机器学习_15等仅在特定的视觉-语言多模态领域。
  • 对于每个任务涉及任务相关的微调,没有在任务间利用共享参数,通常用多模态机器学习 transformer 多模态_用多模态机器学习_16个任务具有用多模态机器学习 transformer 多模态_用多模态机器学习_16倍的参数,例如:必须使用用多模态机器学习 transformer 多模态_自然语言处理_13分别为每个任务的模型进行微调。
  • 仅在单个领域中的相关或者相似任务上执行多任务,有时会使用硬编码的训练策略;例如,用多模态机器学习 transformer 多模态_计算机视觉_19仅在语言领域任务上工作,而用多模态机器学习 transformer 多模态_计算机视觉_20则仅在相关的视觉-语言任务上。

在本文中,作者构建了一个称为用多模态机器学习 transformer 多模态_用多模态机器学习_21的统一用多模态机器学习 transformer 多模态_用多模态机器学习模型,其将图像和(或)文本作为输入,然而在视觉感知、自然语言理解和联合视觉-语言推理的各种任务上进行联合训练。用多模态机器学习 transformer 多模态_用多模态机器学习_21用多模态机器学习 transformer 多模态_用多模态机器学习编码器构成,其能够将每个输入模态编码为hidden states,在编码后的输入模态上应用一个用多模态机器学习 transformer 多模态_用多模态机器学习解码器,然后在解码器的输出上应用一个任务相关的输出头来对每个任务进行预测。相较于先前基于用多模态机器学习 transformer 多模态_用多模态机器学习的多任务学习工作,用多模态机器学习 transformer 多模态_用多模态机器学习_21在更广阔的任务上实现了与先前工作相当的效果,不仅仅用多模态机器学习 transformer 多模态_自然语言处理_05这样的视觉语言任务,也有纯视觉和纯语言任务。本文的贡献如下:

  • 提出了用多模态机器学习 transformer 多模态_计算机视觉_29,一个统一的用多模态机器学习 transformer 多模态_transformer_30编码器解码器架构,能够使用较少的参数来同时处理多任务和多领域;
  • 学习视觉领域、文本领域和交叉领域的最突出的任务,包括目标检测、用多模态机器学习 transformer 多模态_计算机视觉_31、视觉蕴含以及用多模态机器学习 transformer 多模态_计算机视觉_32基准上的自然语言理解任务,包括用多模态机器学习 transformer 多模态_自然语言处理_33用多模态机器学习 transformer 多模态_计算机视觉_34用多模态机器学习 transformer 多模态_自然语言处理_35用多模态机器学习 transformer 多模态_计算机视觉_36。证明了这些多样的任务能够同时学习,并且在本文的训练方案下能够适当收敛;
  • 通过对各种任务的分析,展示了像用多模态机器学习 transformer 多模态_计算机视觉_31和视觉蕴含这样的多模态任务能够从多模态多任务训练上收益。

二、用多模态机器学习 transformer 多模态_用多模态机器学习_21:跨领域统一用多模态机器学习 transformer 多模态_用多模态机器学习

用多模态机器学习 transformer 多模态_transformer_40

本工作中,使用统一的单个模型联合学习跨不同模态的多任务。模型用多模态机器学习 transformer 多模态_用多模态机器学习_21是建立在基于用多模态机器学习 transformer 多模态_用多模态机器学习编码器-解码器架构上的,由每个模态一个编码器和统一的解码器组成。上图是整个用多模态机器学习 transformer 多模态_用多模态机器学习_21的架构。

本文考虑图像和文本两种输入模态。对于图像上的基于用多模态机器学习 transformer 多模态_用多模态机器学习编码器,首先会应用卷积神经网络来抽取一个视觉用多模态机器学习 transformer 多模态_transformer_45,然后其被用多模态机器学习 transformer 多模态_用多模态机器学习编码器进一步编码为合并了全局上下文信息的用多模态机器学习 transformer 多模态_transformer_47序列。对于语言输入,这里使用12层的uncased版本的用多模态机器学习 transformer 多模态_transformer_48,其将输入的单词序列也编码为用多模态机器学习 transformer 多模态_transformer_47序列。在将输入编码为用多模态机器学习 transformer 多模态_transformer_47序列后,将用多模态机器学习 transformer 多模态_用多模态机器学习解码器应用在单个模态上向量序列上,或者多个模态拼接的向量序列上(这取决于任务是单模态还是多模态)。作者在所有任务上测试了分离解码器和共享解码器。最终,从用多模态机器学习 transformer 多模态_用多模态机器学习解码器获得的表示被传递至任务相关的头,并输出最终的预测值。由于用多模态机器学习 transformer 多模态_用多模态机器学习_21的简单性,其可以轻易扩展到更多模态和输入上。

作者实验表明,用多模态机器学习 transformer 多模态_用多模态机器学习_21可以在8个数据集上联合学习7个任务。

2.1 图像编码器

单独的视觉任务和"视觉-语言"任务需要感知和理解图像用多模态机器学习 transformer 多模态_自然语言处理_55用多模态机器学习 transformer 多模态_用多模态机器学习_21中使用卷积神经网络后跟一个用多模态机器学习 transformer 多模态_用多模态机器学习编码器来编码图像用多模态机器学习 transformer 多模态_自然语言处理_55,将其转换为视觉编码用多模态机器学习 transformer 多模态_transformer_47列表:用多模态机器学习 transformer 多模态_用多模态机器学习_60。图像编码的过程是受用多模态机器学习 transformer 多模态_用多模态机器学习_61启发。首先,使用将卷积神经网络用多模态机器学习 transformer 多模态_计算机视觉_62应用在输入图像上,抽取出一个尺寸为用多模态机器学习 transformer 多模态_计算机视觉_63用多模态机器学习 transformer 多模态_transformer_45 用多模态机器学习 transformer 多模态_transformer_65
用多模态机器学习 transformer 多模态_自然语言处理_66
在实现中,卷积网络使用用多模态机器学习 transformer 多模态_多模态_67并在目标检测任务上进行预训练。

为了进一步编码出尺寸为用多模态机器学习 transformer 多模态_计算机视觉_68的视觉用多模态机器学习 transformer 多模态_transformer_47 用多模态机器学习 transformer 多模态_计算机视觉_70,在用多模态机器学习 transformer 多模态_transformer_65上应用一个具有用多模态机器学习 transformer 多模态_多模态_72层且用多模态机器学习 transformer 多模态_自然语言处理_73用多模态机器学习 transformer 多模态_多模态_74用多模态机器学习 transformer 多模态_用多模态机器学习编码器用多模态机器学习 transformer 多模态_用多模态机器学习_76,其中用多模态机器学习 transformer 多模态_transformer_77是视觉用多模态机器学习 transformer 多模态_transformer_47的长度。此外,给定不同的任务可能需要抽取不同类型的信息,因此在用多模态机器学习 transformer 多模态_用多模态机器学习编码器中添加一个任务相关嵌入向量用多模态机器学习 transformer 多模态_用多模态机器学习_80,这允许抽取任务相关的信息
用多模态机器学习 transformer 多模态_transformer_81
用多模态机器学习 transformer 多模态_transformer_82是一个将视觉特征维度用多模态机器学习 transformer 多模态_多模态_83投影至编码器用多模态机器学习 transformer 多模态_transformer_84维度用多模态机器学习 transformer 多模态_多模态_74的线性投影层。视觉用多模态机器学习 transformer 多模态_用多模态机器学习编码器用多模态机器学习 transformer 多模态_用多模态机器学习_76的构建遵循用多模态机器学习 transformer 多模态_用多模态机器学习_61,其中位置编码会被添加至用多模态机器学习 transformer 多模态_transformer_45。任务相关的token 用多模态机器学习 transformer 多模态_transformer_90是一个维度为用多模态机器学习 transformer 多模态_多模态_74的可学习参数,其被合并至视觉特征序列用多模态机器学习 transformer 多模态_transformer_82的开始。

2.2 文本编码器

QNLI,MNLI,QQP,SST-2GLUE基准,以及VQAvisual entailment视觉语言推理任务都会提供文本输入。这里使用BERT来编码文本输入。

给定输入文本,以与BERT相同的方法将其转换为长度为S的token序列用多模态机器学习 transformer 多模态_计算机视觉_93,其中用多模态机器学习 transformer 多模态_用多模态机器学习_94。这个token序列会被输入至预训练BERT中来抽取尺寸为用多模态机器学习 transformer 多模态_多模态_95用多模态机器学习 transformer 多模态_transformer_47 用多模态机器学习 transformer 多模态_transformer_97,其中用多模态机器学习 transformer 多模态_多模态_98BERThidden size。类似于图像编码器,文本编码器也会token序列前添加一个可学习任务嵌入向量用多模态机器学习 transformer 多模态_用多模态机器学习_99
用多模态机器学习 transformer 多模态_用多模态机器学习_100
然而,在实践中发现仅保留用多模态机器学习 transformer 多模态_transformer_97[CLS]对应的向量来作为解码器的输入就能达到同样的效果。

在本文的实现中,使用BERT-base-uncased,其用多模态机器学习 transformer 多模态_多模态_102用多模态机器学习 transformer 多模态_用多模态机器学习_103

2.3 领域不可知用多模态机器学习 transformer 多模态_用多模态机器学习_21解码器

在将输入模态编码后,应用一个hidden size用多模态机器学习 transformer 多模态_transformer_105且具有 用多模态机器学习 transformer 多模态_计算机视觉_106层的用多模态机器学习 transformer 多模态_用多模态机器学习解码器用多模态机器学习 transformer 多模态_多模态_108,该解码器会输出一个hidden state序列用多模态机器学习 transformer 多模态_多模态_109,然后用于每个任务的预测。不同于文本和图像编码器,每个模态都有一个具体的架构,解码器在所有任务上都使用相同的领域不可知用多模态机器学习 transformer 多模态_用多模态机器学习解码器。

对于纯视觉任务,解码器应用在编码后的图像用多模态机器学习 transformer 多模态_计算机视觉_111;对于纯语言任务,解码器应用在编码后 的文本用多模态机器学习 transformer 多模态_用多模态机器学习_112;对于视觉语言联合任务,将两种模态合并至单个输入用多模态机器学习 transformer 多模态_自然语言处理_113

用多模态机器学习 transformer 多模态_用多模态机器学习解码器用多模态机器学习 transformer 多模态_多模态_108将编码后的输入序列用多模态机器学习 transformer 多模态_自然语言处理_116和一个长度为用多模态机器学习 transformer 多模态_用多模态机器学习_117的任务相关的query嵌入序列用多模态机器学习 transformer 多模态_多模态_118用多模态机器学习 transformer 多模态_用多模态机器学习解码器第用多模态机器学习 transformer 多模态_自然语言处理_120层会输出一个解码序列用多模态机器学习 transformer 多模态_transformer_121,其长度与用多模态机器学习 transformer 多模态_多模态_118相同为用多模态机器学习 transformer 多模态_用多模态机器学习_117
用多模态机器学习 transformer 多模态_transformer_124
解码器的架构同DETR中实现的解码器。在解码器的第用多模态机器学习 transformer 多模态_自然语言处理_120层,自注意力机制被应用在解码的用多模态机器学习 transformer 多模态_transformer_121,交叉注意力被用于编码输入模态用多模态机器学习 transformer 多模态_自然语言处理_116

在实现时,要么对所有任务使用单个共享的解码器用多模态机器学习 transformer 多模态_用多模态机器学习_128,或者为每个具体的任务用多模态机器学习 transformer 多模态_自然语言处理_129使用分离解码器用多模态机器学习 transformer 多模态_多模态_130

2.4 任务相关的输出头

每个任务用多模态机器学习 transformer 多模态_自然语言处理_129的预测头被应用在解码hidden state 用多模态机器学习 transformer 多模态_计算机视觉_132。对于目标检测任务,使用分类头来产生分类概率输出,以及一个box头来为用多模态机器学习 transformer 多模态_计算机视觉_133中的每个位置产生bounding box。分类头和box头的实现如同DETR。对于每个box上具有属性标签的数据集,实现类似BUTD中的属性分类头 。

类别头和box头的输出会被后处理为object bounding box。对解码器所有层用多模态机器学习 transformer 多模态_自然语言处理_120hidden state 用多模态机器学习 transformer 多模态_transformer_121上都会应用这些头
用多模态机器学习 transformer 多模态_用多模态机器学习_136
其中,用多模态机器学习 transformer 多模态_transformer_137是类别、box和属性的输出序列,所有的长度均为用多模态机器学习 transformer 多模态_用多模态机器学习_117,与query嵌入用多模态机器学习 transformer 多模态_多模态_118相同。

在测试时,仅使用从解码器顶层得到的预测值用多模态机器学习 transformer 多模态_计算机视觉_140。因此不同的检测数据集通常有不同数量的类别,每个数据集都有自己的类别头、box头和属性头。在用多模态机器学习 transformer 多模态_transformer_141用多模态机器学习 transformer 多模态_transformer_142上应用的损失函数同DETR,在用多模态机器学习 transformer 多模态_多模态_143上的属性损失函数同BUTD

本文中所有的任务,包括:视觉问答、visual entailment和自然语言理解用多模态机器学习 transformer 多模态_自然语言处理_144等,都能被转换为任务用多模态机器学习 transformer 多模态_自然语言处理_129上的用多模态机器学习 transformer 多模态_transformer_146类别分类任务。在解码器顶层的第1个hidden state 用多模态机器学习 transformer 多模态_用多模态机器学习_147上应用任务相关的分类器,并为任务用多模态机器学习 transformer 多模态_自然语言处理_129输出一个尺寸为用多模态机器学习 transformer 多模态_transformer_146的分类预测值用多模态机器学习 transformer 多模态_计算机视觉_150

为了预测输出类别,使用具有GeLU激活函数的两层用多模态机器学习 transformer 多模态_多模态_151,且输出维度等于解码器hidden size。使用预测值用多模态机器学习 transformer 多模态_计算机视觉_150和真实标签用多模态机器学习 transformer 多模态_transformer_153计算交叉熵损失函数来训练模型
用多模态机器学习 transformer 多模态_transformer_154

2.5 训练

在多个任务上联合训练用多模态机器学习 transformer 多模态_用多模态机器学习_21。在训练中的每次迭代,随机的选择一个任务和数据集来填充batch。根据数据集的大小和经验来人工指定每个任务的抽样概率。在本文的实现中,模型在64块Nvidia Volta V100-SXM2-32GBGPU上进行训练,batch size为64。使用具有学习率为5e-5的加权Adam优化器。

三、实验

用多模态机器学习 transformer 多模态_用多模态机器学习_156

四、总结

  • 单纯将两个模态的模型进行联合训练,理论上没有太多可以借鉴的;
  • 实验结果以及训练过程具有借鉴意义。