51c多模态~合集1

原创

qq6669490e54384 2024-07-22 10:36:02 ©著作权

文章标签 模态数据编码器 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#多模态视觉-语言大模型的架构演进

本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进，对其中有代表性的工作进行了精炼总结，截止2024.04，持续更新ing... 欢迎大家多多点赞、收藏、讨论

首先，推荐一篇启发我很多的综述和对应的项目地址（本文的封面图也来自该综述）

A Survey on Multimodal Large Language Models
arxiv.org/abs/2306.13549

Awesome-Multimodal-Large-Language-Models
github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

这篇综述一张图总结了多模态LLM的典型架构：

51c多模态~合集1_数据

BLIP

【2022.01发布】https://arxiv.org/abs/2201.12086

统一视觉-语言理解和生成，使用captioner+filter高效利用互联网有噪数据

模型架构：

Image/text encoder: ITC loss对齐视觉和语言表征，基于ALBEF提出的momentum distillation
Image-grounded text encoder: ITM loss建模视觉-语言交互，区分positive/negative图文对，使用hard negative mining挖掘更高相似度的负例优化模型
Image-grounded text decoder: LM loss实现基于图像的文本解码，将双向self-attention替换为causal self-attention

BLIP的bootstrapping训练过程：

BLIP-2

【2023.01发布】https://arxiv.org/abs/2301.12597

使用相对轻量的Q-Former连接视觉-语言模态，通过两阶段训练：第1阶段基于冻住的视觉编码器，第2阶段基于冻住的LLM

第1阶段：同样优化ITC/ITM/LM loss，使用不同的self-attention mask，query和text端共享self-attention参数，使得可学习的query embedding提取与text语义最相关的视觉表征；使用BERT-base初始化，32个768维的query作为信息瓶颈

ITC：计算每个query与text的相似度，取最大的；使用batch内negatives，不再使用momentum queue
ITM：对每个query与text的分类logits取平均，使用hard negatives mining挖掘难负例
LM：text token和frozen image encoder不能直接交互，要求query能提取有益的视觉特征

第2阶段：可基于decoder-only/encoder-decoder LLM进行适配，FC层对齐维度

LLaVA

【2023.04发布】https://arxiv.org/abs/2304.08485

使用仅文本模态的GPT-4生成视觉-语言指令遵循数据，用于微调多模态LLM

使用图片的dense captions和bounding boxes作为prompt，可以生成对话、细节描述、复杂推理等指令

CLIP ViT-L/14 + Vicuna，使用简单的线性层进行映射

更复杂的：Flamingo中gated cross-attention，BLIP-2中的Q-former

LLaVA模型的两阶段训练

stage1. 预训练特征对齐：冻住vision encoder和LLM，只训练projection，学习一个兼容的visual tokenizer
stage2. 端到端微调：冻住vision encoder，在单轮/多轮对话数据上微调projection和LLM

MiniGPT-4

【2023.04发布】https://arxiv.org/abs/2304.10592

stage1. 预训练：使用image-text pair微调linear projection layer，vision encoder和LLM保持冻住

stage2. 指令微调：指令格式为：###Human:###Assistant:

InstructBLIP

【2023.05发布】https://arxiv.org/abs/2305.06500

stage1. 预训练：BLIP-2（使用image-text pairs进行两阶段训练）

stage2. 指令微调：只微调instruction-aware Q-former，冻住vision encoder和LLM

支持FlanT5(encoder-decoder)和Vicuna(decoder-only)

Qwen-VL

【2023.08发布】https://arxiv.org/abs/2308.12966

支持中英双语、多图像输入

Qwen-7B + OpenCLIP ViT-bigG，输入图像直接resize到视觉编码器输入

位置感知的VL adapter：使用基于Q-former的单层的cross-attention，将图像特征维度压缩到256，在query-key pairs中引入2D绝对位置编码增强位置信息

图像输入：256-dim图像特征

bounding box输入输出：(X_topleft, Y_topleft), (X_bottomright, Y_bottomright),…标记box所指内容

三阶段训练：

stage1. 预训练：基于大规模、弱标注、网络爬取的图像-文本对，输入分辨率224x224，冻住LLM，训练ViT和Q-former，主要目的是模态对齐

stage2. 多任务预训练：基于7种下游视觉-语言理解任务的高质量、细粒度标注数据训练，输入分辨率448x448，图像/文本数据交错，训练整个模型

stage3. 指令微调：提升指令遵循和多轮对话能力，冻住ViT，训练LLM和Q-former

Qwen-VL-Plus和Qwen-VL-Max提升了视觉推理能力、图像细节的识别/提取/分析能力（尤其是文本导向的任务）、支持高分辨率和极端纵横比的输入图像；在部分中文场景超过了GPT-4V和Gemini

InternLM-XComposer

【2023.09发布】https://arxiv.org/abs/2309.15112

交错图文构成：自动在输出文本中插入合适的图片

EVA-CLIP ViT + InternLM-7B + Q-former (将图像特征压缩到64个embedding）

两阶段训练：

stage1. 预训练：冻住ViT，训练LLM和Q-former

stage2. 监督微调：包括多任务训练和指令微调，冻住ViT和LLM，训练Q-former，对LLM进行LoRA微调，增强指令遵循和图文混排能力

Fuyu-8B

【2023.10发布】https://huggingface.co/adept/fuyu-8b

模型架构和训练过程简单，易于scaling；支持任意图像分辨率；推理速度快

decoder-only的transformer，没有专门的图像编码器；image patch直接线性映射到transformer第一层

LLaVA-1.5

【2023.10发布】https://arxiv.org/abs/2310.03744

仍使用MLP作为模态连接，突出了训练的数据高效性

CogVLM

【2023.11发布】https://arxiv.org/abs/2311.03079

深度视觉-语言模态融合，而不影响LLM原有的语言能力：冻住LLM和ViT，在attention和FFN层训练一份视觉专家模块

CogAgent

【2023.12发布】https://arxiv.org/abs/2312.08914

针对GUI场景的多模态理解和导引，使用高分辨率-低分辨率双编码器，支持1120x1120的屏幕输入

高分辨率分支使用更轻量的ViT，基于cross-attention将高分辨率图像特征与LLM每层进行融合

VILA

【2023.12发布】https://arxiv.org/abs/2312.07533

探索了视觉-语言模型训练的设计选择：

预训练阶段冻住LLM虽然能取得较好的zero-shot性能，但上下文学习能力依赖对LLM的微调
图文交错的预训练数据是有益的，只用图文数据对效果不够好
将纯文本的指令微调数据加入SFT阶段有助于缓解纯文本任务的能力退化，同时也能够增强视觉-语言任务的准确性

LLaVA-Next

【2024.01发布】https://llava-vl.github.io/blog/2024-01-30-llava-next/

相对于LLaVA-1.5，保持了极简的设计和数据高效性：

提高了输入图像的分辨率 (4x)，支持3种纵横比：672x672, 336x1344, 1344x336
更好的视觉推理和OCR能力：更好的指令微调数据配比
更好的多场景视觉对话：更好的世界知识和逻辑推理
更高效的部署和推理：SGLang

动态高分辨率：视觉编码器支持336x336的图像输入，对于672x672的图像，按照{2,2}的grid split成4个图像patch过encoder，downsample到336x336也过encoder，特征拼接作为visual tokens输入到LLM中

收集高质量用户数据，包括真实场景中反映用户更广泛意图的指令数据，利用GPT-4V进行数据构造

多模态文档/图表数据，增强文档OCR和图表理解能力

InternLM-XComposer2

【2024.01发布】https://arxiv.org/abs/2401.16420

提出了新的模态对齐方法partial LoRA：只在image token上添加LoRA参数，保证预训练语言知识的完整性，这样一个更轻量的视觉编码器同样有效

OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

两阶段训练：

stage1. 预训练：冻住LLM，微调ViT和partial LoRA模块，包括通用语义对齐（理解图像基本内容）、世界知识对齐（进行复杂的知识推理）、视觉能力增强（OCR、物体定位、图表理解）

stage2. 监督微调：微调整个模型，包括多任务训练、自由形式图文排布

InternLM-XComposer2-4KHD

2024.04发布了4KHD版本：https://arxiv.org/abs/2404.06512

支持动态分辨率（336px → 4K (3840x1600))：改进了patch division范式，保持训练图像原有的纵横比，自动变化patch数目，基于336x336的ViT配置layout

动态图像划分：将输入图像resize and pad到336的整数倍宽高

结合图像的global和local视角：global视角由输入直接resize到336x336，使用sep token分隔两种视角的token

图像2D结构的换行符：可学习的\n token分隔图像token行

Mini-Gemini

【2024.03发布】https://arxiv.org/abs/2403.18814

使用双视觉编码器提取低分辨率embedding作为query，高分辨率特征区域作为key/value，两者之间做cross-attention，输出挖掘的tokens作为prompt前缀，输入到LLM做推理，外接图像解码器生成图像(SDXL)

#DepictQA

图像质量感知多模态语言模型

基于多模态语言模型 (MLLM) 的图像质量感知方法，借助MLLM，对图像质量进行类似于人类的、基于语言的描述。

项目主页：https://depictqa.github.io
DepictQA-v1 (ECCV2024) ：https://arxiv.org/abs/2312.08962
DepictQA-v2 (arXiv, preprint) ：https://arxiv.org/abs/2405.18842
代码 (包括训练推理与数据集构造代码)：https://github.com/XPixelGroup/DepictQA
数据集：https://huggingface.co/datasets/zhiyuanyou/DataDepictQA

为什么会做这个项目？

图像质量感知是一个宏大而复杂的课题。比如：

图像是细节越多越好吗？

并不是。很多人都会喜欢湛蓝纯净的天空。因此，在飘了一些淡淡的云彩的天空中加入blur，使得天空的颜色更加均匀，人看起来反而更好看。

失真一定会带来低质量吗？

并不是。如下图所示，右图是在左图的基础上添加噪声得到的。但是在这种情况下，噪声可以使手部皮肤看起来更加真实，而左图则显得过度平坦化。在这种情况下，噪声使图像更加真实。

51c多模态~合集1_数据_02

图片来源：https://medium.com/photo-dojo/dont-fear-the-grain-263a37a64b87

很容易发现，图像质量感知与图像的局部内容是强相关的，甚至是与个人的喜好强相关的。

那么，如何刻画如此复杂的质量感知呢？

现有的图像质量评价 (IQA) 方法使用score来描述图像质量，可以直接用于对比不同模型的性能，被广泛地作为metric或者loss使用，促进了图像生成、修复等领域的发展。但是，score这种描述形式是图像质量感知的一个综合的方面，其表达能力的上限是不足的，无法刻画复杂的局部性和内容相关性。

在大语言模型 (LLM) 和多模态语言模型 (MLLM) 出现后，我们希望语言成为描述图像质量感知这个复杂问题的工具，这也是这一系列工作的初衷。

TL;DR

DepictQA是基于多模态语言模型 (MLLM) 的图像质量感知方法。我们希望借助MLLM，对图像质量进行类似于人类的、基于语言的描述。
DepictQA-v1。为了验证MLLM感知图像质量的可行性，我们 (1) 构造了full-reference下的任务框架，(2) 构建了一个包括大量的、简短的、模版化的构造数据 + 少部分的、详细的、人工标注的数据组成的数据集，(3) 训练了一个MLLM，验证了MLLM感知图像质量的可行性。
DepictQA-v2。在可行性验证之后，我们希望拓展模型的适用范围，进行了 (1) 任务框架的拓展 (任务类型从3种到8种)，(2) 数据集的scaling up (detail数据从5K到56K)，实现了 (3) 在自然图像上具有一定的泛化性。

51c多模态~合集1_数据_03

图1：DepictQA-v1作者与机构。

51c多模态~合集1_编码器_04

图2：DepictQA-v2作者与机构。

Motivation: Score-based质量感知方法的局限性

现有的图像质量感知方法主要是score-based方法。这些方法输出一个score来描述图像质量，可以用于对比不同模型的性能，被广泛地作为metric或者loss使用，促进了图像生成、修复等领域的发展。

虽然取得了如此巨大的成功，我们认为score的描述形式限制了更深层次的质量感知。

首先，图像质量包括了很多的因素，这些因素无法通过一个简单的score有效表达，例如图3中的噪声、色彩失真和伪影等。
其次，score无法模拟人类的感知过程。例如，在图3(b)中，人类一般首先识别图像的失真（即图像A中的噪声、图像B中的色彩失真和伪影），然后权衡这些失真对内容表达的影响（图像B中的色彩失真和伪影比图像A中的噪声更严重），最后得出结论 (图像A比图像B更好) 。但是，简单地对比score来判断好坏无法反应出人类复杂的感知过程。

最近，以ChatGPT为代表的大语言模型 (LLM) 将深度学习带入了大模型时代，随之出现的多模态大语言模型 (MLLM) 可以使用语言对图像的内容进行详细的描述。因此，我们希望探究基于MLLM、使用语言对于图像质量进行描述的方法。

51c多模态~合集1_编码器_05

图3：DepictQA-v1与score-based方法的比较。Score-based方法仅输出score，缺乏推理过程。DepictQA-v1识别图像的失真，权衡不同失真对纹理的影响，得出与人类判断更一致的结果。

51c多模态~合集1_数据_06

图4：DepictQA-v2的定性结果。DepictQA-v2能够准确识别失真类型，分析失真类型对于图像内容的影响，得出质量评估或者质量对比的结论。

DepictQA-v1

任务定义

我们建立了一个包括三个任务的任务框架。

质量描述。模型应该能够感知图像失真。如图5(a)，给出参考图像和一张失真图像，模型需要描述失真图像中的失真和纹理损伤，并判断失真图像的整体质量。
质量对比。模型应该能直接对比两张图像的好坏。如图5(b)，给出参考图像和两张不同的失真图像，模型需要确定哪一张失真图像的质量更好。
对比归因。模型应该能对两张图像的好坏进行判断并归因。如图5(c)，模型需要描述两张失真图像的失真和纹理损伤，并推理权衡利弊，对比图像质量的好坏。该任务是质量描述和质量对比的综合。

51c多模态~合集1_模态_07

图5：DepictQA-v1任务定义与数据收集。

数据收集

人工标注选项 + GPT-4语言化

在DepictQA-v1收集数据时，GPT-4V等强多模态模型还没有出现。我们设计了人工标注选项 + GPT-4语言化的数据策略。如图5所示，我们设计了由选择题构成的问卷，标注员标注问卷后，GPT-4将问卷的标注结果组合成语言，由此构造图像文本对。

大量的、简短的、模板化回答 + 少部分的、详细的回答

人工标注数据是详细的，但是费时费力获取难度大。因此，我们将已有的包含score的数据集转化为文本，构造大量的、简短的、模版化的数据。比如，图像A的score比图像B高，可以转化为"Image A maintains a better quality than Image B"。将模版化数据 + 详细数据混合训练，对于对比精度和归因准确性都有一定提升。

模型训练

如图6所示，我们采用了LLaVA框架，包括image encoder、image projector、LLM三部分。

区分多张图像

LLaVA的输入是单张图像，而我们涉及到多张图像。如何让模型区别多张图像是十分重要的。我们测试了4种区分多种图像的方法，并根据结果选择了textual hint + tag hint的方法。

51c多模态~合集1_模态_08

图6：DepictQA-v1模型架构。

加入high-level数据作为正则化

质量相关的描述语言是单一的，包括的独立词汇量偏少。仅仅用这些数据训练，模型存在过拟合、说套话、重复说话的问题。因此，我们在训练过程中加入了LAMM引入的COCO详细描述数据作为正则化。

实验结果

在双图对比、多图对比 (双图对比的拓展) 上，超越了经典的score-based方法。

51c多模态~合集1_数据_09

在质量描述和对比归因上，通用MLLMs不具有质量感知能力，而DepictQA-v1体现出了一定的质量感知能力。

51c多模态~合集1_数据_10

DepictQA-v2任务定义

DepictQA-v1主要关注了full-reference设置下的3种任务。在DepictQA-v2中，我们对任务定义进行了拓展，从3种任务扩展到8种任务，提出了一个多任务的框架。如图7所示，拓展后的任务框架包括了单图评估和双图对比两大类任务，每类任务都包括了brief和detail两个子任务，支持full-reference和non-reference设置。

51c多模态~合集1_编码器_11

图7：DepictQA-v2任务定义。

数据收集

更全面的自然图像。我们选择了KADIS-700K作为高质量图像的来源，一共包括了140K的高质量图像。
更全面的失真类型。我们构建了一个全面的失真库，包括了35种失真类型，每种类型包括了5个等级。
更大尺度的数据量。我们将detail数据从DepictQA-v1的5K扩增到了56K，相应地，brief的数据也扩增到了440K。
更合理的数据生成。在构造DepictQA-v2的数据集时，GPT-4V等强多模态模型已经出现。Co-Instruct直接采用了GPT-4V构造数据。虽然GPT-4V具有强大的内容识别、逻辑推理能力，但是其失真识别、质量对比能力都是不足的。因此，如图8所示，我们提出ground-truth-informed生成方法，将失真识别和质量对比的结果直接加入GPT-4V的prompt中，提升了生成数据的质量。

51c多模态~合集1_编码器_12

图8：DepictQA-v2数据收集。

模型训练

我们采用了DepictQA-v1的模型架构。

图像分辨率的适应。由于图像的分辨率以及比例也是质量的重要部分，我们提出对于clip image encoder的位置编码进行差值，而保留图像的原始分辨率和比例。
置信度的计算。MLLM的response缺乏一个良好的置信度。我们提取了response中的key tokens，计算了key tokens的预测概率作为置信度。

实验结果

在失真识别上，超越了通用MLLMs、以及已有的MLLM-based质量感知模型。

51c多模态~合集1_模态_13

在直接对比上，超越了score-based方法、通用MLLMs、以及已有的MLLM-based质量感知模型。

51c多模态~合集1_数据_14

在评估归因和对比归因上，超越了通用MLLMs、以及已有的MLLM-based质量感知模型。

51c多模态~合集1_数据_15

在web下载的真实图像上也体现出较好的泛化性。

51c多模态~合集1_数据_16

图9：DepictQA-v2在真实图像上的质量感知结果。

模型预测的置信度与模型性能的一致程度非常高。

51c多模态~合集1_数据_17

图10：置信度与模型性能的一致程度非常高。

不足与未来的工作

在这两篇工作中，我们展示了使用MLLMs描述图像质量的可能性。但是，MLLM-based图像质量感知模型的落地应用仍有很长的路要走。

数据的数量和覆盖范围不足，限制了模型的泛化性能。尽管DepictQA-v2已经进行了数据集的scaling up，但是对于非自然图像，其泛化性能依然不足。
MLLM-based方法的应用不像score-based方法那么自然。Score可以被直接对比选择更优的模型，但语言不能被直接对比。Score也可以被用作loss优化模型，但语言目前还不具有这种特性。因此，质量感知的语言能否被输入生成模型或者修复模型用于质量提升，还需要进一步的探索。

#InternVL2

最好的开源多模态基础模型

最近忙完了WAIC，有空写个帖子，宣传下InternVL2，最好的开源多模态基础模型，以及介绍下背后的几篇论文：

51c多模态~合集1_数据_18

第一篇：

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

世界上最大的图文交错数据集，支持我们模型的训练

第二篇：

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

首创多模态信息压缩学习，首次支持互联网尺度图文交错数据端到端预训练算法

第三篇：

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

https://arxiv.org/abs/2406.08394

VisionLLM v2通用任务解码器（强化模型专项能力）：首创向量链接技术，连接多模态大模型和各领域专用模型，通专结合，拓展多模态大模型的基础能力

#Multimodal-Unlearnable-Examples

多模态不可学习样本：保护数据免受多模态对比学习的威胁

在本文中，作者探索了多模态数据保护，特别关注图像-文本对，并生成了多模态不可学习样本来防止被多模态对比学习利用。

导读

多模态对比学习（如CLIP）通过从互联网上抓取的数百万个图像-字幕对中学习，在零样本分类方面取得了显著进展。然而，这种依赖带来了隐私风险，因为黑客可能会未经授权地利用图像-文本数据进行模型训练，其中可能包括个人和隐私敏感信息。最近的工作提出通过向训练图像添加难以察觉的扰动来生成不可学习样本（Unlearnable Examples），可以建立带有保护的捷径。然而，这些方法是为单模态分类任务设计的，在多模态对比学习中仍未得到充分探索。本文首通过评估现有方法在图像-标题对上的性能来探索这一背景，由于在该场景中缺乏标签，之前的无法有效地推广到多模态数据，并且在建立捷径方面的效果有限。在本文中提出了多步误差最小化（MEM），这是一种用于生成多模态不可学习样本的新颖优化过程。它扩展了误差最小化（EM）框架，以优化图像噪声和额外的文本触发器，从而扩大了优化空间，并有效地误导模型学习噪声特征和文本触发器之间的捷径。具体来说，采用投影梯度下降来解决噪声最小化问题，并使用HotFlip方法来近似梯度和替换单词，以找到最佳的文本触发器。大量实验证明了方法的有效性，保护后的检索结果几乎是随机猜测的一半，并且它在不同模型之间具有高度的可转移性。本篇工作的论文和代码均已开源。

51c多模态~合集1_编码器_19

【论文链接】https://arxiv.org/abs/2407.16307

【代码链接】https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

研究背景

近年来，随着多模态学习的兴起，研究者们对结合文本、图像和音频等多种数据类型的模型产生了浓厚的兴趣。其中，多模态对比学习成为了这一领域的重要方法，如CLIP和ALIGN等模型利用对比损失训练，以增强图像和文本的相关性，进而减少人工标注的需求，并展示了在图像分类、生成等任务中的潜力。然而，这些模型的训练依赖于大量的多模态数据，这些数据常常来自公开的数据集，如CC12M、YFCC100M和LAION5B，但这些数据集可能仍然不足，且可能包含大量敏感的个人信息，引发了对隐私泄露的担忧。

我们考虑了一个专注于生成多模态不可学习样本以应对与多模态对比学习相关的隐私风险的场景。在这种场景下，我们专注于图像-文本对作为代表性的多模态数据集。假设用户经常在社交媒体平台（如Facebook）上分享带有文本的个人照片，包括一些私人身份信息，如面孔、姓名、电话号码和地址。目前，黑客试图从互联网上收集大量此类图像-文本对，并利用多模态对比学习技术训练或微调大模型，如图1的左半部分所示。这些模型无意中捕获了用户的私人信息和面部特征，导致潜在的隐私泄露。保护者旨在通过对多模态数据进行不可学习的方法来防止这些敏感数据被未经授权利用。这些方法使在这种多模态不可学习样本上训练的模型无法访问用户的隐私特征，同时不妨碍用户在发布图像和文本后的社交互动，如图1的右半部分所示。

51c多模态~合集1_数据_20

图 1：Facebook上的帖子无意中会泄露了个人信息（如图左），但利用多模态不可学习样本可以保护数据可以防止未经授权的模型访问私人特征（如图右）。

动机

最近的研究致力于通过不可学习样本（Unlearnable Examples）来防止图像分类中的数据未经授权使用。这些方法通过对数据施加细微扰动来阻碍模型学习图像特征，也被称为可用性攻击（availability attacks）或无差别的中毒攻击（indiscriminate poisoning attacks）。它主要分为无代理模型攻击和基于代理模型的攻击，其中无代理模型攻击通过在像素级别生成噪声，而基于代理模型的攻击则通过代理模型生成特征级别的噪声。然而，所有用于分类的无代理模型方法在多模态场景下都无法生成图像噪声，因为这些方法旨在为与某个特定类别相关的图像找到一系列特定的噪声模式，而图像-文本对数据中没有标签。因此，只有基于代理模型的方法可以应用，我们扩展了两种典型的方法来生成不可学习的多模态示例（EM和UAP）。

The Error-minimizing Noise（EM）方法：

51c多模态~合集1_数据_21

Untargeted Adversarial Perturbation.(UAP)方法：

51c多模态~合集1_数据_22

尽管EM和UAP可以应用于图像-字幕对，但它们未能实现高效的保护，尤其是UAP。我们探讨了这些方法从图像分类到多模态对比学习有效性下降的原因。在图像分类中，EM和UAP优化具有相同标签的图像，使其在特征空间中收敛，导致模型容易捕获这些附加噪声并学习与标签的相关性，如图2（a）所示。但在多模态对比学习中，为了有效地应用EM和UAP方法，优化的图像噪声的方向必须与文本的特征相关，导致图像特征变得要么接近要么远离这些特征。然而，不同对的文本特征可能在图像–文本数据集中广泛分散。如图2（b）和（c）所示，与分类不同，模型更难捕捉字幕和EM和UAP生成的噪声之间的相关性。在图2（c）中，UAP的学习决策空间更加复杂，因此其保护效果不佳。

51c多模态~合集1_模态_23

图 2：不同方法在传统分类和多模态对比学习中的比较。𝐼表示图像，𝑇是配对的标题。蓝色区域是在不可学习样本上训练的模型的预期决策边界。

方法

51c多模态~合集1_模态_24

图 3：多步误差最小化方法（MEM）的框架

由于图像-文本对的分散，基于代理模型的方法仍然无法实现有效的保护。一个直观的增强策略是同时优化图像和文本，以获得更大的优化空间，促进它们在特征空间中不同对的收敛。因此，图像和文本集的优化特征表示呈现出相似的分布，便于模型学习它们的捷径，如图2（d）所示。为此，我们以EM方法为基本框架，并提出在字幕前添加额外的短文本触发器来最小化对比损失，遵循对文本任务的对抗攻击的设置。我们的方法可以被概念化为一个三层迭代优化问题，类似于EM的多步过程。具体来说，我们依次优化噪声δ和文本触发器t，以减少优化图像I + δ和优化文本T ⊕ t之间的对比损失，其中⊕表示可以在不同位置插入干净文本T的触发器。为了简单起见，我们在本文中选择在文本的开头添加文本触发器。因此，我们的多步误差最小化（MEM）方法可以表述为：

51c多模态~合集1_数据_25

通过参考EM中的方法依次迭代优化上述问题。使用投影梯度下降（PGD）来解决式中的噪声最小化问题。值得注意的是，为了减轻噪声对干净字幕的过拟合，我们通过在批处理中打乱干净字幕并添加正确匹配的文本触发器来增强它们。因此，当面对语义错误的字幕时，这种生成的噪声可以更多地关注文本触发器而不是部分字幕。因此，我们可以根据以下迭代公式获得最优的δ：

51c多模态~合集1_编码器_26

对于文本触发器最小化问题，首先通过在所有输入的前面重复单词“the”或“a”来初始化触发序列。此外，基于HotFlip优化文本触发器，通过梯度近似替换标记的效果。通过更新每个触发标记的嵌入，以最小化当前标记嵌入周围的CLIP损失的一阶泰勒近似：

51c多模态~合集1_编码器_27

最后，我们可以在候选标记的集合中使用束搜索来搜索每个最优文本触发器。我们考虑来自上式的前k个候选者，并在触发器的每个位置从前到后搜索，并使用当前批处理上的损失对每个束进行评分。我们遵循Wallace等人的方法，并使用小的束大小进行高效计算。在图3中，我们可以看到使用我们的MEM生成多模态不可学习样本的框架。

实验效果

有效保护性

51c多模态~合集1_模态_28

表 1：在不同数据集上几种方法生成的不可学习样本的有效性比较。

表1展示了它们在不同数据集上的检索结果。显然，UAP几乎无法为多模态数据提供任何保护，而EM则表现出一定程度的保护。然而，我们的MEM始终为多模态数据提供强大的保护，将检索性能降低到几乎是随机猜测的一半。特别是MEM - 5，由于其文本触发器更长，与MEM - 3相比，在降低黑客模型性能方面取得了更大的效果。图4展示了由不同方法生成的不可学习样本训练的训练损失下降曲线和在干净测试集上的检索Medr。从（a）中可以观察到，尽管EM使损失比正常训练下降得更快，但我们的方法MEM-3和MEM-5在第一个epoch时损失更小，这表明模型可以快速学习到捷径。从（b）中我们发现，所有模型的Medr都比随机猜测时降低，但在不可学习样本上训练的模型停止学习得最快，达到了最差的检索结果，并且随着epoch的增加不会进一步学习得更好。以上观察结果与表1中的结果一致。

51c多模态~合集1_模态_29

图 4：训练损失和测试指标Medr的曲线变化记

跨模型迁移性

51c多模态~合集1_模态_30

表 2：在不同模型架构上，基于ResNet50模型的MEM-3方法生成的不可学习样本的可转移性。

我们假设数据保护是一个完全黑盒的设置，其中保护者不知道黑客模型的架构。因此，我们评估了在ResNet50代理模型上生成的MEM在不同黑客模型上的性能，包括ResNet101和ViT。结果如表2所示。我们发现这些样本可以成功地在不同模型之间转移，并能降低CLIP模型的性能

可视化分析

51c多模态~合集1_模态_31

图 5：注意力图可视化：比较四种模型在干净数据和不同方法的不可学习样本上的情况。

图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图像，我们使用Grad-CAM来可视化模型的注意力，而对于文本，我们使用Integrated Gradients来可视化注意力。颜色越浅表示模型的注意力越高。值得注意的是，对于图5（1），（2）和（3）中的模型都关注中心区域，这与字幕相关。然而，图5（4）中由MEM - 3生成的样本训练的模型由于只学习了噪声特征，无法准确识别干净图像。同样在文本中，前三者中的模型都关注关键词“glass”，而后者中的模型将注意力放在前三个单词上，这可能是因为MEM-3总是优化噪声和前三个文本触发器来创建捷径。这些可视化结果表明，EM和UAP在保护多模态数据方面效果不佳，而MEM具有明显的有效性。

51c多模态~合集1_模态_32

图 6：干净样本和MEM-3优化的不可学习样本在干净模型和中毒模型下的t-SNE可视化。

我们在图6中可视化了正常模型下干净样本的特征分布以及MEM3在中毒模型上优化的不可学习样本的特征分布。我们用三角形表示图像特征，用圆圈表示文本特征，相同颜色表示数据集中五个相同但经过变换的图像及其对应的不同描述。从（a）中我们可以观察到，在干净模型下，相同的图像和文本在内部聚集在一起，并且相应的图像-文本对彼此接近。然而，在（b）中，相同的图像和文本出现了分歧，只有成对的图像和文本彼此接近。这表明我们的方法有效地促进了模型学习噪声和文本触发器之间的捷径。

案例探讨： 人脸隐私保护

我们进行了一个案例研究，将我们的MEM噪声应用于一个现实世界的场景：保护社交媒体平台上的个人人脸图像和相关信息，如姓名。我们使用PubFig数据库进行了实验，这是一个大型的现实世界人脸数据集，包含从互联网上收集的200个个体的58,797张图像。对于检索评估，我们随机选择每个名人的一张照片作为测试集，并使用所有剩余的图像进行训练。为了进行真实的微调，我们更改了他们的名字，并提供了一组与该名字相关的文本模板用于字幕生成。随后，我们使用MEM生成不可学习的样本，并使用不同的黑客模型进行评估。结果如表3所示。MEM可以防止这些微调模型学习人脸和姓名特征之间的相关性，从而阻碍在测试集上的准确人员检索。

51c多模态~合集1_模态_33

表 3：在不同预训练模型上，ResNet50微调生成的不可学习样本的保护效果。

结语

在本文中，我们探索了多模态数据保护，特别关注图像-文本对，我们生成了多模态不可学习样本来防止被多模态对比学习利用。我们将先前的分类方法扩展到这个背景下，揭示了由于模态增加和数据分散而存在的局限性。鉴于这些发现，我们引入了一种名为多步误差最小化（MEM）的新颖生成方法，它基于EM框架。MEM有效地在噪声和文本触发器之间建立了捷径，并展示了在不同黑客模型之间的可转移性。此外，我们使用各种可视化工具验证了我们方法的有效性。我们的工作开辟了一个新的方向，预计将适用于其他模态对，如音频-文本和音频-图像对。