#今日论文推荐# 300+篇文献,一文详解基于Transformer的多模态学习最新进展

Transformer 是一种很有前途的神经网络学习器,在各种机器学习任务中取得了巨大的成功。由于最近多模态应用和大数据的流行,基于 Transformer 的多模态学习已成为人工智能研究的热门话题。
本文对面向多模态数据的 Transformer 技术进行了全面调查。本文的主要内容包括:1)多模态学习、Transformer 生态系统和多模态大数据时代的背景;2)从一个几何拓扑视角进行 Vanilla Transformer、Vision Transformer 和 multimodal Transformer 的理论回顾;3)通过两个重要范式,即多模态预训练和特定多模态任务,对多模态 Transformer 应用的回顾;4)对多模态  Transformer 模型和应用所共有的共同挑战和设计的总结,以及 5)对社区的开放问题和潜在研究方向的讨论。

人工智能(AI)的最初灵感是模仿人类的感知,例如看、听、触、嗅。一般来说,模态通常与创建独特通信渠道的特定传感器相关联,例如视觉和语言。我们感官知觉的一个基本机制是能够共同利用多种感知数据模态,以便在动态不受约束的情况下正确地与世界互动,每种模态都作为具有不同统计特性的独特信息源。
例如,一张图像通过数千个像素呈现“大象在水中嬉戏”场景的视觉外观,而相应的文本用一个使用离散单词的句子描述这一时刻。从根本上说,多模态人工智能系统需要对多模态信息源进行摄取、解释和推理,以实现类似人类水平的感知能力。多模态学习(MML)是一种构建 AI 模型的通用方法,该模型可以从多模态数据中提取和关联信息。