Chameleon: Mixed-Modal Early-Fusion Foundation Models

相关链接:arxiv 关键字:多模态学习早期融合基础模型图像和文本生成统一建模

摘要

Chameleon 是由 Meta 的 FAIR 团队提出的一种新型的多模态基础模型系列,能够理解和生成任意序列的图像和文本。本文概述了一种从初始阶段开始稳定的训练方法、一种对齐方案,以及为早期融合、基于标记的多模态设置量身定制的架构参数化。模型在包括视觉问题回答、图像字幕、文本生成、图像生成和长形式混合模态生成在内的广泛任务范围内进行了评估。Chameleon 展示了广泛的通用能力,包括在图像字幕任务上的最先进性能,同时在文本仅有任务中超越了 Llama-2,并且与 Mixtral 8x7B 和 Gemini-Pro 等模型具有竞争力,并且在单一模型中执行了非平凡的图像生成。此外,根据人类对新的长形式混合模态生成评估的判断,它还匹配或超过了包括 Gemini Pro 和 GPT-4V 在内的大型模型的性能,这些评估中,提示或输出包含图像和文本的混合序列。Chameleon 标志着在统一建模完整多模态文档方面迈出了重要一步。

核心方法

Chameleon 的核心方法包括以下几个关键点:

  1. 早期融合架构:Chameleon 采用早期融合(early-fusion)架构,将图像和文本统一表示为离散的标记(tokens),并使用相同的 Transformer 架构处理这两种标记序列。
  2. 统一的表示空间:通过将所有模态投影到共享的表示空间,Chameleon 能够在模态之间无缝地进行推理和生成。
  3. 架构创新:为了解决混合模态设置中的优化稳定性和扩展性问题,Chameleon 引入了 Transformer 架构的新修改,例如查询-键归一化(query-key normalization)和层归一化(layer norms)的重新放置。
  4. 训练技术:Chameleon 展示了如何将用于文本仅有大型语言模型(LLMs)的监督微调方法适应到混合模态设置,从而在大规模上实现强对齐。
  5. 多模态预训练:Chameleon 在预训练阶段使用了大规模的完全无监督数据集,包括文本、图像和文本-图像对,以及交错的文本和图像数据。
  6. 稳定性维护:为了在训练过程中保持稳定性,Chameleon 采用了特定的架构和优化技术,包括 RMSNorm、SwiGLU 激活函数和 rotary positional embeddings (RoPE)。

实验说明

实验结果展示了 Chameleon 在多个任务上的性能,包括视觉问题回答、图像字幕、文本生成、图像生成和长形式混合模态生成。以下是一些关键的实验数据和结果:

任务类型 Chameleon 34B Llama-2 70B Mixtral 8x7B GPT-4V 备注
图像字幕 COCO 120.2 (2-shot) - - 78.5∗ 使用 API 评估
图像字幕 Flickr 74.7 (2-shot) - - - 同上
VQA VQA-v2 66.0 (2-shot) - - 55.3∗ 同上

实验数据表明,Chameleon 在图像字幕任务上表现出色,即使在较少的上下文训练样本下,也能与其他模型竞争。在 VQA 任务上,Chameleon 同样展现出强大的性能。实验中还包括了对 Chameleon 安全性的测试,结果表明绝大多数响应被认为是安全的。

结论

Chameleon 作为一个新的多模态基础模型系列,为多模态机器学习设定了新的标准。通过学习交错的图像和文本标记的统一表示空间,Chameleon 是一个单一模型,能够在广泛的视觉-语言基准测试中实现强大的性能,同时启用新的混合模态推理和生成能力。Chameleon 的成功关键在于其完全基于标记的架构,这允许模态之间的无缝信息整合。通过将图像量化为离散的标记并在混合模态数据上从头开始训练,Chameleon 学会了联合推理图像和文本,这在后期融合架构或维护每种模态单独编码器的模型中是不可能的。同时,Chameleon 引入了稳定和可扩展的早期融合模型训练的新技术,解决了以前限制这种方法规模的关键优化和架构设计挑战。在图像字幕和视觉问题回答等任务上,Chameleon-34B 优于 Flamingo 和 IDEFICS 等模型,同时在文本仅有基准测试中保持了竞争力。Chameleon 还通过在新的混合模态开放式 QA 基准测试中的强性能,解锁了多模态交互的全新可能性。