#史上最大多模态数据集

开源多模态大模型或将开始腾飞。

值此 Llama 3.1 占领各大头条之际,又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。

对大模型来说,数据集的重要性无需多言,甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型(LMM)发展正盛的时候,规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。

不过,相比于开源的文本数据集,现有的开源多模态数据集都比较小、多样性也不足,并且来源基本都是 HTML 文档 —— 这就限制了数据的广度和多样性。这无疑限制了开源 LMM 的发展,让开源 LMM 与闭源 LMM 之间的差异变得非常大。

近日,华盛顿大学、Salesforce Research 和斯坦福大学等机构的联合团队填补了这一空白,构建了一个万亿 token 级的交织多模态的开源数据集 MINT-1T(Multimodal INTerleaved)。毫无疑问,这是目前最大的开源多模态数据集。

  • 数据集地址:https://github.com/mlfoundations/MINT-1T
  • 论文地址:https://arxiv.org/abs/2406.11271
  • 论文标题:MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一万亿文本 token 和三十亿张图像,并且其有 HTML/PDF/ArXiv 等多种不同来源。在 MINT-1T 问世之前,该领域最大的开源数据集是 OBELICS,其包含 1150 亿文本 token 和 3.53 亿张图像,并且来源只有 HTML。图 1 比较了这些数据集。

51c多模态~合集2_数据集

数据集的构建

首先,该团队从多样化的来源(包括 HTML、PDF、ArXiv)收集了大量多模态数据,图 2 展示了这些不同来源的多模态文档样本。

51c多模态~合集2_HTML_02

然后,为了提高数据质量和安全性,他们执行了文本质量过滤、图像过滤、安全过滤(包括去除 NSFW 图像和可识别个人身份的信息)以及去重。图 3 简要展示了这些数据过滤过程。

51c多模态~合集2_HTML_03

最终,他们得到的 MINT-1T 数据集包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。值得注意的是,整个数据处理过程耗费了大约 420 万 CPU 小时数。表 1 对比了一些常见的开源或闭源多模态数据集。

51c多模态~合集2_HTML_04

模型实验

该团队也实验了使用该数据集训练多模态模型的效果,并与其它数据集进行了比较。

他们使用的模型架构是 Salesforce 的 XGen-MM,评估的则是模型在数据集上学习之后的上下文学习和多图像推理能力。评估基准包括:视觉描述基准(COCO 和 TextCaps)、视觉问答基准(VQAv2、OK-VQA、TextVQA 和 VizWiz)、多图像推理基准(MMMU 和 Mantis-Eval)。

实验结果

在 HTML 文档上训练

该团队首先对比了 MINT-1T 的 HTML 部分与 OBELICS;因为 OBELICS 是之前领先的多模态数据集并且也是基于 HTML 文档,他们基于这两个数据集分别用 100 亿多模态 token 训练了两个模型,并评估了它们的上下文学习性能。

表 2 给出了在常见基准上的 4-shot 和 8-shot 性能。

51c多模态~合集2_模态_05

可以看到,对于 VQA(视觉问答)任务,在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型,但前者在视觉描述任务上表现更差一些。平均而言,OBELICS 比 MINT-1T (HTML) 略好一点。

添加 PDF 和 ArXiv 文档

之后,该团队又在 MINT-1T 全数据集上进行了测试,即同时包含 HTML、PDF 和 ArXiv 文档。他们通常采样了 100 亿多模态 token,其中 50% 来自 HTML、45% 来自 PDF、5% 来自 ArXiv。

结果同样见表 2,可以看到在 MINT-1T 混合数据上训练的模型在大多数基准上都优于在 OBELICS 和 MINT-1T (HTML) 上训练的模型。

而在更为复杂的多模态推理任务上,如表 3 所示,用 MINT-1T 训练的模型在 MMMU 上优于用 OBELICS 训练的模型,但在 Mantis-Eval 基准上不及后者。

51c多模态~合集2_模态_06

更细粒度的测试和模型架构的影响请参考原论文。

这个超大规模的开源多模态数据集能否成为一系列传奇的起点,最终造就一个类似 Llama 系列模型那样的多模态大模型系列呢?让我们拭目以待吧。



#Bootstrapped Preference Optimization(BPO)

是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

本文第一作者皮仁杰是香港科技大学三年级博士生,师从张潼教授和周晓方教授。此前获得香港大学计算机工程学士学位。研究兴趣为多模态大语言模型,以数据为中心的人工智能,以及自动化机器学习。

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。开发板商城 天皓智联

尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的相应,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题,我们提出了一种偏好对齐方法 --Bootstrapped Preference Optimization(BPO),能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

  • 论文标题:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
  • 论文链接:https://arxiv.org/pdf/2403.08730
  • 代码链接:https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

51c多模态~合集2_HTML_07

具体来讲,我们设计了两种方法去自动构建偏好学习的负样本,使得多模态模型对与训练的过度依赖暴露出来。之后,我们用原本的数据标注当作正样本,对多模态模型进行偏好微调。总的来说,我们的主要贡献有:

1. 我们提出了一种新的视角,将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好;

2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本;

3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力,训练后的模型在多个基准测试中性能得到提升。

可扩展的偏好数据集构建

对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种方法。

a. 弱化图像提示:我们给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到,我们通过像图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。

51c多模态~合集2_模态_08

b. 错误注入:我们要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。

接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化:

51c多模态~合集2_数据集_09

实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在 MM-Vet,LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单,Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

51c多模态~合集2_HTML_10

我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

51c多模态~合集2_数据集_11

在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。

51c多模态~合集2_数据集_12

更多研究细节,可参考原论文。



#PreFLMR

剑桥大学团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

本篇分享 ACL 2024 论文PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers,由剑桥大学团队开源,赋能多模态大模型 RAG 应用,首个预训练通用多模态后期交互知识检索器。

  • 论文链接:https://arxiv.org/abs/2402.08327
  • 项目主页:https://preflmr.github.io/

简介

PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。目前训练数据、预训练权重、微调代码等均已开源。该模型已在企业级RAG应用成功落地。作者团队将在8月10日-17日参加ACL 2024,欢迎学术交流和商业合作。

背景

尽管多模态大模型(例如GPT4-Vision、Gemini等)展现出了强大的通用图文理解能力,它们在回答需要专业知识的问题时表现依然不尽人意。即使GPT4-Vision也无法回答知识密集型问题(图一上),这成为了很多企业级落地应用的瓶颈。

51c多模态~合集2_HTML_13

图1:GPT4-Vision在PreFLMR多模态知识检索器的帮助下可以获得相关知识,生成正确的答案。图中展示了模型的真实输出。

针对这个问题,检索增强生成(RAG,Retrieval-Augmented Generation)提供了一个简单有效的让多模态大模型成为”领域专家”的方案:首先,一个轻量的知识检索器(Knowledge Retriever)从专业数据库(例如Wikipedia或企业知识库)中获得相关的专业知识;然后,大模型将这些知识和问题一起作为输入,生成准确的答案。多模态知识提取器的知识 “召回能力”直接决定了大模型在回答推理时能否获得准确的专业知识。

近期,剑桥大学信息工程系人工智能实验室完整开源了首个预训练、通用多模态后期交互知识检索器PreFLMR (Pre-trained Fine-grained Late-interaction Multi-modal Retriever)。相比以往常见的模型,PreFLMR有以下特点:

  1. PreFLMR是一个可以解决文文检索,图文检索,知识检索等多个子任务的通用预训练模型。该模型经过百万级的多模态数据预训练后,在多个下游检索任务中取得了优秀的表现。同时,作为一个优秀的基底模型,PreFLMR在私有数据上稍加训练就能够获得表现极佳的领域专用模型。

51c多模态~合集2_模态_14

图2:PreFLMR模型同时在多项任务上取得极佳的多模态检索表现,是一个极强的预训练基底模型。

  1. 传统的密集文本检索(Dense Passage Retrieval, DPR)只使用一个向量表征问询(Query)或文档(Document)。剑桥团队在NeurIPS 2023发表的FLMR模型证明了DPR的单向量表征设计会导致细粒度信息损失,导致DPR在需要精细信息匹配的检索任务上表现不佳。尤其是在多模态任务中,用户的问询(Query)包含复杂场景信息,压缩至一维向量极大抑制了特征的表达能力。PreFLMR继承并改进了FLMR的结构,使其在多模态知识检索中有得天独厚的优势。

51c多模态~合集2_数据集_15

图3:PreFLMR在字符级别(Token level)上编码问询(Query,左侧1、2、3)和文档(Document,右侧4),相比于将所有信息压缩至一维向量的DPR系统有信息细粒度上的优势。

  1. PreFLMR能够根据用户输入的指令(例如“提取能用于回答以下问题的文档”或“提取与图中物品相关的文档”),从庞大的知识库中提取相关的文档,帮助多模态大模型大幅提升在专业知识问答任务上的表现。

51c多模态~合集2_模态_16

图4:PreFLMR可以同时处理图片提取文档、根据问题提取文档、根据问题和图片一起提取文档的多模态问询任务。

剑桥大学团队开源了三个不同规模的模型,模型的参数量由小到大分别为:PreFLMR_ViT-B (207M)、PreFLMR_ViT-L (422M)、PreFLMR_ViT-G (2B),供使用者根据实际情况选取。

除了开源模型PreFLMR本身,该项目还在该研究方向做出了两个重要贡献:

  1. 该项目同时开源了一个训练和评估通用知识检索器的大规模数据集,Multi-task Multi-modal Knowledge Retrieval Benchmark (M2KR),包含10个在学界中被广泛研究的检索子任务和总计超过百万的检索对。
  2. 在论文中,剑桥大学团队对比了不同大小、不同表现的图像编码器和文本编码器,总结了扩大参数和预训练多模态后期交互知识检索系统的最佳实践,为未来的通用检索模型提供经验性的指导。

下文将简略介绍M2KR数据集,PreFLMR模型,和实验结果分析。

M2KR 数据集

为了大规模预训练和评估通用多模态检索模型,作者汇编了十个公开的数据集并将其转换为统一的问题-文档检索格式。这些数据集的原本任务包括图像描述(image captioning),多模态对话(multi-modal dialogue)等等。下图展示了其中五个任务的问题(第一行)和对应文档(第二行)。

51c多模态~合集2_HTML_17

图5:M2KR数据集中的部分知识提取任务

PreFLMR检索模型

51c多模态~合集2_数据集_18

图6:PreFLMR的模型结构。问询(Query)被编码为Token-level的特征。PreFLMR对问询矩阵中的每一个向量,找到文档矩阵中的最近向量并计算点积,然后对这些最大点积求和得到最后的相关度。

PreFLMR模型基于发表于NeurIPS 2023的Fine-grained Late-interaction Multi-modal Retriever (FLMR)并进行了模型改进和M2KR上的大规模预训练。

相比于DPR,FLMR和PreFLMR用由所有的token向量组成的矩阵对文档和问询进行表征。Tokens包含文本tokens和投射到文本空间中的图像tokens。后期交互(late interaction)是一种高效计算两个表征矩阵之间相关性的算法。

具体做法为:对问询矩阵中的每一个向量,找到文档矩阵中的最近向量并计算点积。然后对这些最大点积求和得到最后的相关度。这样,每个token的表征都可以显式地影响最终的相关性,以此保留了token-level的细粒度(fine-grained)信息。

得益于专门的后期交互检索引擎,PreFLMR在40万文档中提取100个相关文档仅需0.2秒,这极大地提高了RAG场景中的可用性。

PreFLMR的预训练包含以下四个阶段:

  • 文本编码器预训练:首先,在MSMARCO(一个纯文本知识检索数据集)上预训练一个后期交互文文检索模型作为PreFLMR的文本编码器。
  • 图像-文本投射层预训练:其次,在M2KR上训练图像-文本投射层并冻结其它部分。该阶段只使用经过投射的图像向量进行检索,旨在防止模型过度依赖文本信息。
  • 持续预训练:然后,在E-VQA,M2KR中的一个高质量知识密集型视觉问答任务上持续训练文本编码器和图像-文本投射层。这一阶段旨在提升PreFLMR的精细知识检索能力。
  • 通用检索训练:最后,在整个M2KR数据集上训练所有权重,只冻结图像编码器。同时,将问询文本编码器和文档文本编码器的参数解锁进行分别训练。这一阶段旨在提高PreFLMR的通用检索能力。

同时,作者展示了PreFLMR可以在子数据集(如OK-VQA、Infoseek)上进一步微调以在特定任务上获得更好的检索性能。

实验结果和纵向扩展

最佳检索结果:表现最好的PreFLMR模型使用ViT-G作为图像编码器和ColBERT-base-v2作为文本编码器,总计二十亿参数。它在7个M2KR检索子任务(WIT,OVEN,Infoseek, E-VQA,OKVQA等)上取得了超越基线模型的表现。

扩展视觉编码更加有效:作者发现将图像编码器ViT从ViT-B(86M)升级到ViT-L(307M)带来了显著的效果提升,但是将文本编码器ColBERT从base(110M)扩展到large(345M)导致表现下降并造成了训练不稳定问题。实验结果表明对于后期交互多模态检索系统,增加视觉编码器的参数带来的回报更大。同时,使用多层Cross-attention进行图像-文本投射的效果与使用单层相同,因此图像-文本投射网络的设计并不需要过于复杂。

PreFLMR让RAG更加有效:在知识密集型视觉问答任务上,使用PreFLMR进行检索增强大大提高了最终系统的表现:在Infoseek和EVQA上分别达到了94%和275%的效果提升,经过简单的微调,基于BLIP-2的模型能够击败千亿参数量的PALI-X模型和使用Google API进行增强的PaLM-Bison+Lens系统。

结论

剑桥人工智能实验室提出的PreFLMR模型是第一个开源的通用后期交互多模态检索模型。经过在M2KR上的百万级数据预训练,PreFLMR在多项检索子任务中展现出强劲的表现。M2KR数据集,PreFLMR模型权重和代码均可以在项目主页 https://preflmr.github.io/ 获取。

拓展资源

  • FLMR paper (NeurIPS 2023): https://proceedings.neurips.cc/paper_files/paper/2023/hash/47393e8594c82ce8fd83adc672cf9872-Abstract-Conference.html
  • 代码库:https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-Answering
  • 英文版博客:https://www.jinghong-chen.net/preflmr-sota-open-sourced-multi/
  • FLMR简介:https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/




#mPLUG-Owl3

迈向多图长序列理解,阿里开源多模态大模型 mPLUG-Owl3

51c多模态~合集2_HTML_19

多模态多轮对话场景

51c多模态~合集2_模态_20

长视频理解场景

阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。

尽管近年包括mPLUG-Owl在内的主流多模态大模型在多种单图任务上取得了一系列进展,当前对于多模态大模型来说,多图长序列输入仍然是一个极具挑战性的场景。如图1、2所示的多模态多轮对话、长视频理解等实际应用,就对模型的多图长序列理解能力提出了很高的要求。

现有的支持多图输入的工作,主要存在两个方面的缺陷:LLaVA-Next-Interleave等工作直接将视觉特征与文本序列拼接,在多图长序列输入时会带来很高的推理成本;Flamingo等使用的cross-attention结构,虽然降低了计算成本,但造成了细粒度视觉信息的损失,限制了其在单图和多图场景的性能。

针对上述问题,阿里通义实验室的研究人员提出通用多模态大模型mPLUG-Owl3,该模型能够在支持多图长序列输入的同时,兼顾性能和效率。为实现这一点,作者提出轻量级的hyper attention模块,实现视觉和语言信息的高效自适应融合。与相似参数规模的模型相比,mPLUG-Owl3在单图、多图、视频等多达14个benchmark上表现出SOTA性能。

  • paper: https://arxiv.org/pdf/2408.04840
  • code: https://github.com/X-PLUG/mPLUG-Owl/
  • HF: https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
  • 魔搭:https://modelscope.cn/studios/iic/mPLUG-Owl3


模型结构

mPLUG-Owl3模型的主体结构由视觉编码器SigLIP-400M、语言模型Qwen2和线性连接层组成。视觉编码器提取图像特征后,经线性层映射到与语言模型相同的维度。

作者在文本序列中使用了<|image|>作为图像标记位,并通过self-attention和cross-attention并行建模的方式将视觉特征融合到文本特征中。

与Flamingo、EVLM等工作在语言模型的每一层插入cross-attention层的做法不同,mPLUG-Owl3仅将网络的少数层拓展为提出的Hyper Attention Transformer Block (HATB),从而避免了增加大量参数和计算。

51c多模态~合集2_数据集_21

模型结构

HATB模块

如下图(a)所示,Flamingo、IDEFICS等工作采用的cross-attention结构存在以下几点缺陷:(1) 增加大量参数和计算开销;(2) 视觉输入的理解无法受益于语言模型学习到的知识;(3) 未充分考虑图像在输入序列中的位置,限制其在多图场景的性能。

相比之下,作者提出的Hyper Attention Transformer Block (HATB)模块,通过共享LayerNorm、设置模态专属的Key-Value映射、自适应门控等设计,使得文本间的self-attention和跨模态的cross-attention能够高效地并行建模和自适应融合。

51c多模态~合集2_HTML_22

HATB模块

具体设计上,如图(b)所示,视觉特征与文本特征首先经过一个共享的LN层。作者在实验中发现,相比为视觉输入单独训练一个LN模块,视觉-语言共享同一个LN表现出更好的收敛性。经过LN层后,继承了mPLUG-Owl2的经验,其为视觉输入设置专属的Key-Value映射,而与文本输入共享相同的Query映射,从而在保留视觉模态特性的同时,使得语言模型能够基于文本语义自适应地获取需要的视觉信息。

在完成文本间self-attention和跨模态cross-attention的并行建模后,作者设计自适应门控机制,通过计算文本特征经线性映射后的激活值获得门控值,实现文本和视觉信息的自适应融合。

此外,作者在进行attention建模之前,引入了多模态交错的旋转位置编码MI-Rope来保留图文的位置信息。由于在文本序列中使用了<|image|>作为图像标记位,对于第n幅图片,其所有patch特征共享对应的标记位的位置编码,从而确保了位置编码不仅能反映图片的顺序,也能反映其在文本序列中的位置。

模型训练

在模型训练上,mPLUG-Owl3采用了三阶段的训练方式:

  1. 第一阶段的预训练中,作者从公开数据中收集和采样了约40M图文对用于跨模态对齐,并更新新引入的模块参数,即线性连接层、视觉KV映射以及动态门控模块的参数。
  2. 第二阶段多图预训练,为增强模型的多图理解能力,作者收集了交错图文、富文本图片和视频这三类数据,并对线性连接层和大语言模型的参数进行更新。
  3. 第三阶段指令微调,使用单图、多图、视频等不同类型的混合数据进行指令微调,训练设置与第二阶段保持一致。三个阶段使用的训练数据及比例如下表所示。

51c多模态~合集2_模态_23

训练数据

实验结果

51c多模态~合集2_HTML_24

多图Benchmark评估结果

51c多模态~合集2_模态_25

(多图) MIBench评估结果

作者首先在多个多图benchmark上评估了mPLUG-Owl3的性能。实验结果显示,在NLVR2、Mantis-Eval等多图数据集上,mPLUG-Owl3取得了SOTA性能,领先于Idefics2、Mantis、LLaVA-Interleave等多图模型。

在近期开源的大规模多图评测数据集MIBench上,mPLUG-Owl3也在涵盖多图指令和多模态外部知识等场景的多个任务中取得了大幅领先现有开源模型的效果。

51c多模态~合集2_数据集_26

视频数据集评估结果

在MVBench、VideoMME等视频多模态权威benchmark上,mPLUG-Owl3也取得了优于现有多图及视频多模态大模型的性能,体现出模型出色的视频理解能力。

51c多模态~合集2_HTML_27

VQA数据集评估结果

51c多模态~合集2_模态_28

(单图)多模态Benchmark评估结果

此外,作者也在多个流行的VQA数据集以及单图输入的多模态benchmark上评估了mPLUG-Owl3的性能。可以看到,尽管mPLUG-Owl3是针对多图长序列设计的,其在单图场景同样具备十分出色的表现。

与相近参数规模的多模态大模型相比,在多个数据集上取得了SOTA效果,甚至在部分数据集上领先于更大参数规模的CogVLM、EVLM等模型。

51c多模态~合集2_HTML_29

超长多图序列评估结果

51c多模态~合集2_数据集_30

推理效率对比

除了常规的单图、多图和视频理解,作者还利用MMBench验证集数据构造了一个名为Distractor Resistance的新任务,将原始query图片混入多张图片组成的超长序列中,以评估模型面对多图长序列中大量干扰图像时的鲁棒性。

实验结果显示,现有Mantis、LLaVA-Interleave等多图模型的性能均随着序列长度的增加而急剧衰减,而mPLUG-Owl3则在输入多达数百张图像时仍能保持较高的性能。此外,得益于HATB模块的高效设计,mPLUG-Owl3在取得更优性能的同时,兼顾了更高的推理效率。

样例展示

51c多模态~合集2_数据集_31

样例1

51c多模态~合集2_HTML_32

样例2

上图对比了mPLUG-Owl3和LLaVA-Interleave模型在超长视频理解场景中的表现,对于输入指令,mPLUG-Owl3能够从长达40余分钟的视频中捕捉到关键信息,并给出正确的回答。相比之下,LLaVA-Interleave模型则未能很好地把握细节信息。



#MLLMs

西工大等最新多模态大型语言模型

这里系统地梳理了MLLM在自然语言、视觉和音频等多模态任务中的应用。

摘要——在数据爆炸性增长和技术快速发展的时代,多模态大型语言模型(MLLMs)处于人工智能(AI)系统的前沿。MLLMs旨在无缝集成包括文本、图像、视频、音频和生理序列在内的多种数据类型,解决远远超出单一模态系统能力范围的复杂现实应用问题。在本文中,我们系统地梳理了MLLM在自然语言、视觉和音频等多模态任务中的应用。我们还对不同MLLM在任务中的关注点进行了对比分析,并深入探讨了当前MLLMs的不足之处,并提出了未来研究的潜在方向。通过这些讨论,本文希望为MLLM的进一步发展和应用提供宝贵的见解。

关键词——MLLMs, 任务, AI应用, 融合技术。

多模态大型语言模型(MLLMs)是设计用来处理和集成各种类型数据的复杂人工智能(AI)系统,包括文本、图像、视频、音频和生理序列数据[1],[2],[3] 。随着我们进入多模态数据融合的时代,信息技术的快速进步和数据量的爆炸性增长,单一模态系统的能力已不足以应对复杂的现实任务[4],[5],[6]。因此,MLLMs的发展不仅是技术进化的必然趋势,也是提高AI应用有效性的关键改进。通过融合来自多个数据源的信息,MLLMs培育了更全面和准确的信息表示,这种能力不仅释放了巨大的潜力,还展示了在各个领域的显著实际应用价值。多样化数据集的整合使得MLLMs能够更有效地执行任务,确立其作为下一代技术的不可或缺地位,致力于充分发挥AI技术的潜力[7],[8],[9]。值得注意的是,MLLMs在语言、图像、视频和音频处理等多种多模态任务中表现出了显著的性能。这些模型在集成多模态信息以增强多模态任务的有效性方面表现出色。

在自然语言处理(NLP)任务中,如文本生成和机器翻译,MLLMs利用图像、视频和音频提供上下文支持,增强生成文本的准确性和表达力[10],[11],[12] 。这些模型在情感分析和对话系统中也表现出色,通过整合多模态信息来提高理解和生成能力。特别是,MLLMs通过结合视觉和听觉数据,丰富了文本生成和机器翻译[13],[14],[15]。这些模型提高了生成文本的准确性和表达力,提供了传统模型无法实现的细腻上下文支持。在情感分析和对话系统中,MLLMs能够整合多模态信息,进一步加深系统的理解和响应能力,展示了在人机交互方面的重大进步[16],[17]。

此外,在视觉任务中,MLLMs显著提升了任务的理解、分析和生成能力。整合文本描述和图像指令使得图像分类、目标检测和图像注释等任务更加准确。例如,像GPT-4V[13]和Gemini[18]这样的MLLMs结合图像内容和自然语言描述,产生更生动和精确的注释结果。这些模型在图像生成方面也取得了进展,可以从文本描述生成图像或实现跨模态图像风格迁移,从而拓宽了该领域的可能性。同时,由于视频处理的复杂性,它提出了独特的挑战。然而,MLLMs的出现推动了语言模型在这一领域的能力发展。像NExT-GPT[19]和Sora[20]这样的模型在多模态视频生成方面处于领先地位,通过学习多模态数据生成更丰富和逼真的视频内容。此外,智能视频理解技术的进步,如VideoChat[21]和Video-LLaVA[22],显著增强了分析和处理视频内容的能力。这些发展在虚拟现实、电子游戏和教育应用中承诺了增强的用户体验。

在音频任务中,MLLMs为音频处理任务带来了新的技术变革。传统的音频处理通常依赖于单一模态的信号处理方法,如语音识别[23]或音频分类[24],这些方法在处理复杂的多模态数据时存在局限性。MLLMs通过结合音频信号、文本和视觉信息,能够更好地理解和生成音频相关内容。例如,在语音生成任务中,MLLMs可以利用文本和视觉信息生成更自然和上下文相关的语音输出[25],[26]。在音频理解任务中,这些模型可以结合视觉线索和文本描述,更准确地执行情感识别、音频分类或音频事件检测。此外,MLLMs在跨模态音频文本翻译、音频配乐生成和多模态情感分析等任务中显示出强大的潜力[27],[18]。这些技术进步不仅提高了音频处理的有效性,还扩展了其在智能家居、虚拟助手、影视制作等现实应用中的场景。

本文回顾了MLLM应用的最新进展,在第二节介绍了MLLMs的基本概念和主要架构,第三节描述了它们在不同领域的表现,以识别其优缺点,第四节通过比较分析突出MLLMs的变革性影响,并在第五节提供了未来研究的路线图。我们的讨论旨在激励持续创新,确保MLLMs在AI技术发展的前沿位置。通过对当前实施和进展的全面回顾,本文旨在总结研究成果,提供有价值的参考,并为MLLM领域的未来研究提供指导。我们的目标是激发新思想和新方向,以确保MLLMs在AI技术发展中保持领先地位。

II. 多模态大型语言模型概述

A. 定义和基本概念

总体而言,MLLMs 代表了人工智能和机器学习领域的重大进展,具备处理和解释多种数据类型(包括文本、图像、音频和视频)的能力[28], [29], [30]。通过整合和合成这些不同模态的数据,MLLMs 实现了对信息更全面和精确的理解和生成[3]。

特别是,MLLMs 是专门设计用来同时处理和解码多模态数据的复杂系统。MLLMs 的核心原理在于不同模态的整合和交互,这显著增强了模型的有效性。这种多模态方法不仅提升了对单一数据类型的理解,还促进了它们之间的更细致的互动,从而扩展了 AI 应用的范围和准确性。例如,在图像描述任务中,MLLMs 利用文本和视觉数据生成准确且上下文相关的图像描述。这种协同作用使模型能够超越单一模态系统的限制,提供更丰富和详细的输出。此外,音频和视觉数据的结合可以大大提高视频理解和注释任务的性能,使 MLLMs 成为需要详细多媒体分析的应用中的宝贵工具。

通过利用各种数据类型的集体优势,MLLMs 不仅增强了 AI 解释和与世界互动的能力,还为机器理解复杂、多方面的信息开辟了新的发展方向。

B. 多模态大型语言模型的主要组件

MLLM 通过多个关键组件有效地处理和整合来自不同模态的数据。这些组件设计用于将各种来源的原始输入转化为可操作的见解,使这些模型非常通用和有效。这些模型的架构大致可以分为三个主要组件:多模态输入编码器、特征融合机制和多模态输出解码器。

多模态输入编码器:多模态输入编码器是 MLLMs 中的关键组件,设计用于将来自不同模态的原始输入数据转化为模型可以有效处理的结构化格式。这个重要模块专门处理不同类型的数据,确保每种数据形式都能被优化编码,从而有效地贡献于模型的整体功能。以下是编码器如何处理每种数据类型的细节:

  • 文本:对于文本数据,编码器利用嵌入层技术,将词汇映射到连续数字向量中,以及多层感知器(MLP)或更高级的 Transformer 来管理文本中的长程依赖和上下文。
  • 图像:视觉数据通过最先进的架构如 Vision Transformer (ViT) [31] 处理,ViT 将图像部分视为序列以更好地捕捉关系,或通过残差网络(ResNet)[32] 处理,ResNet 帮助在各层中学习更深的特征而不丢失上下文。
  • 音频:音频数据使用 C-Former [33]、HuBERT [34]、BEATs [35] 或 Whisper [36] 等模型进行分析。这些模型专门捕捉声音的独特特性,从基本音调到复杂的语言,增强了模型准确解释听觉信息的能力。
  • 序列数据:对于如脑电图(EEG)和心跳等序列数据,编码器采用 1D 卷积神经网络(1D-CNN)和长短期记忆网络(LSTM)单元的组合。该设置特别有效于捕捉数据中的时间和空间模式,这对于医疗应用中的早期诊断至关重要。
  • 通用编码器:一种较新的创新是通用编码器,旨在标准化处理各种高度多样化的数据类型,包括音频、视频和功能性磁共振成像(fMRI)。该编码器利用一种通用方法来处理和整合多种形式的数据,促进数据处理的一致性和效率。这些编码器将原始输入转换为特征向量,然后转化为固定长度的特征序列。这种标准化对于进一步处理数据至关重要,确保模型的后续层可以有效地执行特征融合和解码。

通过适应和优化各种数据类型的初始处理,多模态输入编码器不仅提升了模型的性能,还扩展了其在不同领域的适用性。无论是提高图像描述的准确性,丰富机器翻译的上下文,还是推进医疗诊断工具的精度,这个编码器在使 AI 模型能够执行复杂任务方面发挥了基础性作用。

特征融合机制:多模态模型的核心在于整合不同模态的特征。这个整合可以在不同阶段进行[37],[38]:

  • 早期融合:在初始阶段结合输入数据,利用不同模态的原始互联性。
  • 中期融合:在特征提取阶段融合特征,使每种模态都能为统一表示做出独特贡献。
  • 晚期融合:在决策阶段整合单独模态路径的最终输出,通常用于需要多种数据类型综合判断的任务。
  • 联合融合:一种混合方法,结合早期、中期和晚期融合,最大化各阶段的数据利用。这些融合过程通常利用预训练的大型语言模型(LLM),这些模型虽然最初设计用于文本数据,但通过高级特征投影和序列化技术适应处理和综合多模态输入。多模态输出解码器:最后,多模态输出解码器将融合、综合的多模态信息重新转换为特定任务所需的可用形式。比如在图像描述任务中,解码器可能基于视觉输入生成描述性文本。在视频理解任务中,它可能生成结合视觉和听觉数据的注释或摘要。每个解码器都经过精心设计以优化准确性和质量,确保输出精确反映从综合模态中获得的见解。

总之,多模态大型语言模型的复杂架构使其能够通过整合和合成文本、图像和音频数据来处理复杂任务。这种能力不仅提升了 AI 应用的性能,还为我们理解和互动技术开辟了新的创新途径。

C. 大型语言模型中的多模态特征概述

在融合多模态特征时,通常不会从零开始训练新模型,而是利用现有的预训练大型模型,如 LLMs。尽管预训练的 LLMs 主要设计用于处理文本输入,但可以通过各种技术使这些模型适应处理多模态数据。我们将在本节介绍一个具体示例,以详细说明融合过程并进行理解。

首先,需要将每种模态的数据编码并投影到统一的特征空间中。例如,可以使用预训练模型如 ResNet 或 Vision Transformer 将图像数据转换为特征向量 Vimage。文本数据可以使用预训练文本编码器如 BERT [39] 转换为特征向量 Vtext,音频数据可以通过预训练音频编码器如 wav2vec [40] 转换为特征向量 Vaudio。然后,通过线性变换或其他投影方法将不同模态的特征向量映射到共享特征空间中。为了将这些多模态特征输入到预训练的 LLM 中,需要将来自不同模态的特征组织成一个序列。可以简单地通过连接来自不同模态的特征(如 [Vimage, Vtext, ..., Vaudio, Vtext])来形成多模态特征序列。

接下来,将构建的多模态特征序列输入到预训练的 LLM 中进行处理。Transformer 模型通过多层自注意力机制和前馈神经网络处理输入特征序列。每一层包含自注意力和前馈网络模块,更新和整合特征表示,逐步提取更高层次的特征。经过多层 Transformer 处理后,模型生成一个包含综合信息的特征表示序列。根据任务需求,可以通过特定的输出层生成最终结果。例如,如果任务是生成文本描述,可以将综合特征表示输入到文本生成器中以生成描述性文本。

通过遵循这些步骤,可以有效地由 LLM 处理多模态特征。尽管预训练语言模型如 GPT 和 LLAMA 主要设计用于文本输入,但其能力可以通过特征投影和序列化方法扩展,以处理和整合多模态数据,从而执行复杂的多模态任务。