最新多模态模型架构

转载

字节墨海星 2024-08-04 17:02:07

#今日论文推荐# 300+篇文献,一文详解基于Transformer的多模态学习最新进展

Transformer 是一种很有前途的神经网络学习器，在各种机器学习任务中取得了巨大的成功。由于最近多模态应用和大数据的流行，基于 Transformer 的多模态学习已成为人工智能研究的热门话题。
本文对面向多模态数据的 Transformer 技术进行了全面调查。本文的主要内容包括：1）多模态学习、Transformer 生态系统和多模态大数据时代的背景；2）从一个几何拓扑视角进行 Vanilla Transformer、Vision Transformer 和 multimodal Transformer 的理论回顾；3）通过两个重要范式，即多模态预训练和特定多模态任务，对多模态 Transformer 应用的回顾；4）对多模态 Transformer 模型和应用所共有的共同挑战和设计的总结，以及 5）对社区的开放问题和潜在研究方向的讨论。

人工智能（AI）的最初灵感是模仿人类的感知，例如看、听、触、嗅。一般来说，模态通常与创建独特通信渠道的特定传感器相关联，例如视觉和语言。我们感官知觉的一个基本机制是能够共同利用多种感知数据模态，以便在动态不受约束的情况下正确地与世界互动，每种模态都作为具有不同统计特性的独特信息源。
例如，一张图像通过数千个像素呈现“大象在水中嬉戏”场景的视觉外观，而相应的文本用一个使用离散单词的句子描述这一时刻。从根本上说，多模态人工智能系统需要对多模态信息源进行摄取、解释和推理，以实现类似人类水平的感知能力。多模态学习（MML）是一种构建 AI 模型的通用方法，该模型可以从多模态数据中提取和关联信息。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。