大模型LLM | 多模态大模型(MLLM)：Modality Encoder

原创

Android老皮 2024-10-25 15:48:01 ©著作权

文章标签 人工智能大模型 AI大模型 LLM AI 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者Android老皮的原创作品，请联系作者获取转载授权，否则将追究法律责任

经典的MLLM可以抽象为三个模块，即Modality Encoder、LLM 和连接它们的模态接口Connector。与人类相似，图像/音频等模态编码器是接收和预处理光/声信号的眼睛/耳朵，而LLM就像人类大脑，能够理解和推理处理后的信号。

在两者之间，模态接口用于对齐不同的模态。一些MLLM还包括Generator，用于输出非文本模态。本文主要介绍Modality Encoder

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_LLM

【经典MLLM架构】

一、Modality Encoder 简介

多模态编码器将原始信息（如图像或音频）压缩为更紧凑的表示形式。一种常见的方法是使用与其他模态对齐的预训练编码器，而不是从头开始训练。本文主要介绍 Modality Encoder。包括 Visual Encoder、Non-Visual Encoder、Unified Multimodal Encoder。

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_大模型_02

二、Visual Encoder

CLIP-VIT： 作为Vision-Language Model最流行的选择，提供了图像-文本的表征对齐，参数量和数据量的 scale 比较好

SigLip： 逐渐开始流行，源于它的参数量更小，性能更强

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_人工智能_03

局限性： 当前存在的预训练的ViTs，局限性是输入的是固定的低分辨率(224*224, 336*336)图像，对于OCR、追求图像细节的VQA等任务来说，高分辨率的感知是必要的。

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_LLM_04

如何处理高分辨率图像的输入呢？本文将介绍以下三种方案。

2.1 方案一：Image Slice-Based

基于图像切片的方案：将输入的高分辨率图像分割成多块，分别进行encoder

代表模型： GPT-4V, LLaVA-NeXT, MiniCPM-V 2.0/2.5, LLaVA-UHD, mPLUGDocOwl 1.5, SPHINX, InternLM-XComposer2-4KHD, Monke

下图为 llava-next 方案，采用改方案，对于 OCR 任务指标具有明显提升

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_LLM_05

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_大模型_06

2.2 方案二：Dual Branch Encoders

该方案采用两个分支分别进行图像编码，一个分支是hight-resolution image encoder，另一个分支是low-resolution image encoder，代表模型：CogAgent、Mini-Gemini、DeepSeek-VL、LLaVA-HR。

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_人工智能_07

2.3 方案三：VIT-Free

采用linear projection 直接将image patch映射为tokens，摆脱了vit的表示形式，但是该方案训练成本更高，并且会产生较长的视觉tokens，代表模型：Fuyu, OtterHD。

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_大模型_08

【Fuyu模型架构图】

三、Non-Visual Encoder

非视觉编码器包括音频编码器、3D编码器等
1）Audio：Ahisper、AudioCLIP、HuBERT、BEATs
2）3D Point：Point-BERT

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_LLM_09

四、Unified Multimodal Encoder

Unified Multimodal Encoder支持对多模态数据的统一编码，如图像、文本、音频、深度、热和惯性测量单元（IMU）数据进行编码。配备强大的编码器，可以响应多种模态的输入。

1）ImageBind： 将所有模态嵌入到图像的联合表示空间中。好的模态对齐表示有助于LLM理解

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_AI_10

【ImageBind: One Embedding Space To Bind Them All. 2023】

2）LanguageBind: 将所有模态嵌入语言的联合表示空间。好的模态对齐表示有助于LLM理解

大模型LLM | 多模态大模型(MLLM)：Modality Encoder_AI大模型_11

【LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment. 2023】

上一篇：大模型论文浅尝 | GenTKG：结合大语言模型的时间知识图谱生成式预测（NAACL2024）

下一篇：大模型开发 | 掌握Transformer之学习各组件（三）Attention Mask、输出层、计算损失

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯