本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
,由西湖大学&浙江大学联合提出一种基于状态空间语言模型扩展的多模态大语言模型。基于状态空间语言模型扩展的多模态大语言模型,更大规模、更轻量级
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。为了提高这类基础模型的效率,大量的实验表明:(1)Cobra 与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能,并且由于 Cobra 的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra 甚至在参数数量只有 LLaVA 的 43% 左右的情况下,也取得了与 LLaVA 相当的性能。
大语言模型(LLMs)受限于仅通过语言进行交互,限制了它们处理更多样化任务的适应性。多模态理解对于增强模型有效应对现实世界挑战的能力至关重要。因此,研究人员正在积极努力扩展大型语言模型,以纳入多模态信息处理能力。视觉 - 语言模型(VLMs)如 GPT-4、LLaMA-Adapter 和 LLaVA 已经被开发出来,以增强 LLMs 的视觉理解能力。
然而,先前的研究主要尝试以类似的方法获得高效的 VLMs,即在保持基于注意力的 Transformer 结构不变的情况下减少基础语言模型的参数或视觉 token 的数量。本文提出了一个不同的视角:直接采用状态空间模型(SSM)作为骨干网络,得到了一种线性计算复杂度的 MLLM。此外,本文还探索和研究了各种模态融合方案,以创建一个有效的多模态 Mamba。具体来说,本文采用 Mamba 语言模型作为 VLM 的基础模型,它已经显示出可以与 Transformer 语言模型竞争的性能,但推理效率更高。测试显示 Cobra 的推理性能比同参数量级的 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使与参数数量更多的 LLaVA v1.5 模型(7B 参数)相比,Cobra 仍然可以在参数数量约为其 43% 的情况下在几个基准测试上实现可以匹配的性能。
图 Cobra 和 LLaVA v1.5 7B 在生成速度上的 Demo
本文的主要贡献如下:
- 调查了现有的多模态大型语言模型(MLLMs)通常依赖于 Transformer 网络,这表现出二次方的计算复杂度。为了解决这种低效问题,本文引入了 Cobra,一个新颖的具有线性计算复杂度的 MLLM。
- 深入探讨了各种模态融合方案,以优化 Mamba 语言模型中视觉和语言信息的整合。通过实验,本文探索了不同融合策略的有效性,确定了产生最有效多模态表示的方法。
- 进行了广泛的实验,评估 Cobra 与旨在提高基础 MLLM 计算效率的并行研究的性能。值得注意的是,Cobra 甚至在参数更少的情况下实现了与 LLaVA 相当的性能,突显了其效率。
- 论文标题:Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
- 作者:赵晗,张敏,赵伟,丁鹏翔,黄思腾,王东林
- 单位:西湖大学、浙江大学
- 原文链接:https://arxiv.org/abs/2403.14520 / https://arxiv.org/pdf/2403.14520v2.pdf
- 项目链接:https://sites.google.com/view/cobravlm/
01摘要
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网络具有较低效的二次计算复杂度。
为了提高这类基础模型的效率,本文提出了Cobra,一种线性计算复杂度的MLLM。具体来说,Cobra将高效的Mamba语言模型整合到视觉模态中。此外,本文还探索和研究了各种模态融合方案,以创建一个有效的多模态Mamba。
大量的实验表明:(1)Cobra与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA和MobileVLM v2)具有极具竞争力的性能,并且由于Cobra的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra甚至在参数数量只有LLaVA的43%左右的情况下,也取得了与LLaVA相当的性能。
主要贡献:
- 将单模态的Mamba预训练语言模型拓展到了多模态大语言模型中。
- 提出了一种能够在性能上匹配更大规模模型的轻量化多模态语言模型。
- 模型具有比同规模Transformer类模型3~4倍的生成速度,同时在克服视觉错觉和空间关系判断上有良好的表现。
02方法
Cobra网络结构如图1所示。由DINOv2和SigLIP组成融合的视觉编码器,经过MLP组成的投影模块后和文字嵌入联合输入到Mamba语言模型中。
图1 Cobra网络结构图
03 实验
本文提出的方法在生成速度上可以达到同量级基于Transformer模型,如TinyLLaVA,MobileVLM v2的3~4倍左右。同时达到和LLaVA v1.5相匹配的模型性能。更多的结果如图2和表1所示。
图2 生成速度和性能对比图
表1 在Benchmark上和开源SOTA模型的对比
此外,本文也给出了一些生成答案的可视化结果来验证所提出模型在视觉错觉和空间关系判断能力上的优势,如图3和图4所示:
图3 Cobra和其他基线模型在物体空间关系判断的示例
图4 Cobra和其他基线模型在关于视觉错觉现象的示例
04 结论
本文提出了Cobra,它解决了现有依赖于具有二次计算复杂度的Transformer网络的多模态大型语言模型的效率瓶颈。本文探索了具有线性计算复杂度的语言模型与多模态输入的结合。在融合视觉和语言信息方面,通过对不同模态融合方案的深入研究,本文成功优化了Mamba语言模型的内部信息整合,实现了更有效的多模态表示。
实验表明,Cobra不仅显著提高了计算效率,而且在性能上与像LLaVA这样的先进模型相当,尤其在克服视觉幻觉和空间关系判断方面表现出色。它甚至显著减少了参数数量。这为未来在需要高频处理视觉信息的环境中部署高性能AI模型(如基于视觉的机器人反馈控制)开辟了新的可能性。