Chameleon: Mixed-Modal Early-Fusion Foundation Models

原创

liferecords 2024-05-17 23:52:04 博主文章分类：LLM ©著作权

文章标签 模态基准测试数据 文章分类 计算机视觉人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者liferecords的原创作品，请联系作者获取转载授权，否则将追究法律责任

Chameleon: Mixed-Modal Early-Fusion Foundation Models

相关链接：arxiv 关键字：多模态学习、早期融合、基础模型、图像和文本生成、统一建模

摘要

Chameleon 是由 Meta 的 FAIR 团队提出的一种新型的多模态基础模型系列，能够理解和生成任意序列的图像和文本。本文概述了一种从初始阶段开始稳定的训练方法、一种对齐方案，以及为早期融合、基于标记的多模态设置量身定制的架构参数化。模型在包括视觉问题回答、图像字幕、文本生成、图像生成和长形式混合模态生成在内的广泛任务范围内进行了评估。Chameleon 展示了广泛的通用能力，包括在图像字幕任务上的最先进性能，同时在文本仅有任务中超越了 Llama-2，并且与 Mixtral 8x7B 和 Gemini-Pro 等模型具有竞争力，并且在单一模型中执行了非平凡的图像生成。此外，根据人类对新的长形式混合模态生成评估的判断，它还匹配或超过了包括 Gemini Pro 和 GPT-4V 在内的大型模型的性能，这些评估中，提示或输出包含图像和文本的混合序列。Chameleon 标志着在统一建模完整多模态文档方面迈出了重要一步。

核心方法

Chameleon 的核心方法包括以下几个关键点：

早期融合架构：Chameleon 采用早期融合（early-fusion）架构，将图像和文本统一表示为离散的标记（tokens），并使用相同的 Transformer 架构处理这两种标记序列。
统一的表示空间：通过将所有模态投影到共享的表示空间，Chameleon 能够在模态之间无缝地进行推理和生成。
架构创新：为了解决混合模态设置中的优化稳定性和扩展性问题，Chameleon 引入了 Transformer 架构的新修改，例如查询-键归一化（query-key normalization）和层归一化（layer norms）的重新放置。
训练技术：Chameleon 展示了如何将用于文本仅有大型语言模型（LLMs）的监督微调方法适应到混合模态设置，从而在大规模上实现强对齐。
多模态预训练：Chameleon 在预训练阶段使用了大规模的完全无监督数据集，包括文本、图像和文本-图像对，以及交错的文本和图像数据。
稳定性维护：为了在训练过程中保持稳定性，Chameleon 采用了特定的架构和优化技术，包括 RMSNorm、SwiGLU 激活函数和 rotary positional embeddings (RoPE)。

实验说明

实验结果展示了 Chameleon 在多个任务上的性能，包括视觉问题回答、图像字幕、文本生成、图像生成和长形式混合模态生成。以下是一些关键的实验数据和结果：

任务类型	Chameleon 34B	Llama-2 70B	Mixtral 8x7B	GPT-4V	备注
图像字幕 COCO	120.2 (2-shot)	-	-	78.5∗	使用 API 评估
图像字幕 Flickr	74.7 (2-shot)	-	-	-	同上
VQA VQA-v2	66.0 (2-shot)	-	-	55.3∗	同上

实验数据表明，Chameleon 在图像字幕任务上表现出色，即使在较少的上下文训练样本下，也能与其他模型竞争。在 VQA 任务上，Chameleon 同样展现出强大的性能。实验中还包括了对 Chameleon 安全性的测试，结果表明绝大多数响应被认为是安全的。

结论

Chameleon 作为一个新的多模态基础模型系列，为多模态机器学习设定了新的标准。通过学习交错的图像和文本标记的统一表示空间，Chameleon 是一个单一模型，能够在广泛的视觉-语言基准测试中实现强大的性能，同时启用新的混合模态推理和生成能力。Chameleon 的成功关键在于其完全基于标记的架构，这允许模态之间的无缝信息整合。通过将图像量化为离散的标记并在混合模态数据上从头开始训练，Chameleon 学会了联合推理图像和文本，这在后期融合架构或维护每种模态单独编码器的模型中是不可能的。同时，Chameleon 引入了稳定和可扩展的早期融合模型训练的新技术，解决了以前限制这种方法规模的关键优化和架构设计挑战。在图像字幕和视觉问题回答等任务上，Chameleon-34B 优于 Flamingo 和 IDEFICS 等模型，同时在文本仅有基准测试中保持了竞争力。Chameleon 还通过在新的混合模态开放式 QA 基准测试中的强性能，解锁了多模态交互的全新可能性。