多模态图像分类任务框架多模态图像文本结合

转载

mob64ca1418aeab 2024-08-02 17:25:43

文章标签 多模态图像分类任务框架人工智能深度学习计算机视觉神经网络 文章分类 计算机视觉人工智能

多模态图像合成与编辑综述（2021）

https://arxiv.org/abs/2112.13592

GitHub - fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey [Under Review]

二、跨模态引导

信息的每一种来源或形式都可以称为一种模态。例如，人们有触觉、听觉、视觉和嗅觉；信息媒介包括语音、视频、文本等，以及由各种传感器（例如雷达、红外和加速度计）记录的数据。上述每个数据形式都可以称为一种模态（或模式）。

在图像合成和编辑方面，我们将引导模态分为视觉引导、文本引导、音频引导和其他模态。以下小节将详细描述每种模态以及相关处理方法。

2.1、视觉引导

视觉引导包括从一些视觉线索如分割图、场景布局图、关键点、边缘图、文本、音频、场景图等等视觉引导生成真实图像，因为视觉线索可以被视为某种类型的图像，其允许使用卷积层直接编码以产生目标生成或编辑。由于视觉信息中的精确和清晰引导，视觉引导可以与图像合成中的真实图像配对或不配对。

Fig. 1. Typical multimodal guidance in image synthesis and editing: The first row shows intra-modal (i.e., visual) guidance including semantic maps, scene layouts, keypoints and edge maps, and cross-modal guidance including text, audio and scene graph. The second row shows the corresponding image synthesis and editing (the sample images in the first four columns are from [51] and those in last three columns are from [52]–[54]).

通过编辑视觉引导，例如语义图，图像合成方法可以直接适用于图像操作任务。此外，视觉引导的图像合成和编辑可以应用于许多低级视觉任务。例如，我们可以通过将灰度图像作为视觉引导，将相应的彩色图像作为基本事实来实现图像着色，还可以应用于图像超分辨率、图像去雾、图像去雨等等领域。

2.2、文本引导

与视觉引导（如边缘和对象遮罩）相比，文本引导提供了一种更灵活的方式来表达视觉概念。文本到图像合成任务旨在生成清晰、照片逼真的图像，与相应的文本指南具有高度语义相关性。这项任务非常具有挑战性，因为文本描述通常是模糊的，并且可能导致大量具有正确语义的图像。

此外，图像和文本具有异构特征，这使得很难学习跨两种模式的精确和可靠映射。因此，学习文本描述的精确嵌入在文本引导的图像合成和编辑中起着重要作用。

用文本引导合成和编辑图像首先需要从文本表示中学习有用的编码，传统文本编码器有Word2Vec、Bag-of-Words，随着深度神经网络的普及，Reed等人提出使用字符级卷积递归神经网络（char-CNN-RNN）随着自然语言处理领域中预训练模型的发展，一些研究[81]、[82]也探索了利用大规模预训练语言模型（如BERT）进行文本编码。

最近，对比语言图像预训练（CLIP）通过从大量图像和文本对中学习图像和相应字幕的对齐，实现了SOTA。如图所示，CLIP联合优化了文本编码器和图像编码器，以最大化正对之间的余弦相似度，并最小化负对的余弦相似性，从而产生信息性文本嵌入：

多模态图像分类任务框架多模态图像文本结合_人工智能_02

2.3、音频引导

Harwath等人探索从自然图像和描述图像的相应语音波形中学习神经网络嵌入。学习模型允许执行跨语言语音检索。声音不仅可以与视觉内容交互，还可以捕获丰富的语义信息。例如，通过转移来自其他预训练场景和对象识别模型的知识，SoundNet（声音识别的深度模型）可以学习仅使用听觉内容来识别场景和对象。

对应音频编码器可以从给定视频生成音频序列，其中采用深度卷积网络从视频截图中提取特征，然后使用LSTM生成相应输入视频的音频波形。输入音频段也可以由一系列特征来表示，这些特征可以是频谱图、FBANK和mel频率倒谱系数（MFCC），以及预训练音网模型的隐藏层输出。对于面部生成，还广泛采用动作单元（AU）来将驱动音频转换为用于面部生成的相干视觉信号。

2.4、其他引导

场景图：场景图将场景表示为有向图，其中节点是对象，边给出对象之间的关系。基于场景图的图像生成允许推理显式对象关系并合成具有复杂场景关系的真实图像。引导的场景图可以通过图卷积网络编码，该图卷积网预测对象边界框以产生场景布局。为了推导每个单独的主谓宾语关系，Vo等人建议进一步预测对象之间的关系单位，通过卷积LSTM将其转换为视觉布局。

三、多模态图像合成和编辑方法

多模态图像合成和编辑（MISE）的方法大致分为五类：基于GAN的方法（3.1）、自回归方法（3.2）、基于扩散的方法（3.3）、基于神经网络的方法（3.4）和其他方法（3.5）。

3.1、基于GAN的方法

基于GAN的方法已被广泛用于各种MISE任务，通过开发具有特定多模态输入的条件GAN或反转无条件GAN以产生目标潜在代码。一般将基于GAN的方法分为三类，包括具有模态内条件的方法、具有跨模态条件的方法和GAN反演方法。

3.1.1、具有模态内条件的方法

模态内引导为图像合成和编辑提供了某些视觉线索（如场景图、分割图、边缘图等），他们是很强的引导条件，可以无需配对训练数据就可以实现合成和编辑。可以将具有模态内条件的方法分为具有配对数据的方法和具有非配对数据的。其中：

1、配对数据：配对数据所提供的引导伴随着相应的真实图像，以提供一定的直接监督。Isola等人首先研究了条件GAN，将其作为一个称为Pix2Pix的通用框架，用于各种图像翻译任务（例如，从边缘到图像、从白天到夜晚以及从语义到图像）。为了缓解Pix2Pix中高分辨率图像合成的限制，Wang等人提出了Pix2PixHD，允许合成2048×1024的图像。然而，当存在非常不同的视图或严重变形时，Pix2Pix及其变体无法编码制导和真实图像之间的复杂场景结构关系。

另一方面，以前的方法直接用深度网络对视觉引导进行编码，以便进一步生成，这是次优的，因为引导信息的一部分往往在归一化层中丢失。SPADE被设计为通过如下图所示的空间自适应归一化从而有效地注入引导特征。SEAN引入了语义区域自适应归一化层，以实现区域风格注入。Shaham等人提出了ASAPNet用于翻译高分辨率图像的轻量级但高效的网络，Zhang等人和Zhan等人引入了基于示例的图像翻译框架，该框架在示例和条件输入之间建立了密集的对应关系，以提供准确的指导。Zhou等人建议利用GRU协助的补丁匹配以高效地建立高分辨率的通信。Zhan等人引入了一种双层对齐方案，以降低内存成本，同时建立密集的对应关系。

多模态图像分类任务框架多模态图像文本结合_多模态图像分类任务框架_03

2. 非配对数据：非配对图像合成利用非配对训练图像将图像从一个域转换到另一个域。Zhu等人设计了一个循环一致性损失，以通过确保输入图像可以从翻译结果中恢复来保存图像内容。然而，循环阻抗损失对于图像翻译来说限制太大，因为它假设两个域之间的双射关系。Park等人提出通过噪声对比估计最大化正对的互信息，以保存未配对图像翻译中的内容。Andonian等人引入对比学习来测量未配对图像翻译中的图像间相似度。然而，异构域通常具有映射，其中一个域中的单个图像在映射后可能与其在另一个域的表示不共享任何特征。因此，TravelGAN提出将域内向量变换保存在由连体网络学习的潜在空间中，学习跨异构域的映射。

3.1.2、跨模态条件引导的方法

典型的基于GAN的跨模态合成任务有：文本到图像合成和音频驱动的图像编辑

Fig. 5. (a) illustrates the hierarchically-nested adversarial network in HDGAN [112]; (b) illustrates the cycle structure in MirrorGAN [19]. The image is adapted from [112] and [19].

1、文本生成图像：文本到图像合成旨在生成能够准确反映文本描述语义的图像。Reed等人是第一个扩展条件GAN以实现文本到图像合成的人。由于GANs在图像合成方面的进步，该任务在采用堆叠架构、循环一致性和注意力机制方面取得了重大进展。如堆叠结构：StackGAN、StackGAN++、HDGAN；循环一致性：PPGN、CycleGAN、MirrorGAN；注意力机制：AttnGAN、SEGAN、ControlGAN、RiFeGAN；这也是我正在研究的领域，感兴趣可以深入查看专栏：文本生成图像专栏

2、音频驱动的图像编辑：由于其在实际应用中的价值，当前的音频驱动图像编辑方法侧重于说话面部生成音频驱动的说话面部生成的任务旨在合成说出给定音频剪辑的说话面部，这在数字面部动画、电影制作、视频配音等方面具有广泛的应用。音频驱动的谈话面部生成的一个基本挑战是如何将音频内容准确地转换为视觉信息。利用生成性对抗模型，Chung等人学习原始音频和视频数据的联合嵌入，并使用解码器将其投影到图像平面，以生成说话人脸；Zhou等人提出了一种DA-VS，它学习一种解纠缠的视听表示，这有助于提高合成的说话人脸的质量。Song等人介绍了一种条件RNN网络，用于对抗性地生成对话人脸。Chen等人设计了一种分层结构，将音频剪辑映射到面部地标中，进一步利用这些地标来生成会说话的面部。Zhou等人介绍了MakeItTalk，它从语音内容中预测说话人感知的面部标志，以更好地保留说话人的特征。，Yi等人提出将音频内容映射到3DMM参数，用于引导姿势可控的生成谈话面部；Zhou等人提出了一种PC-AVS，它通过学习姿势、身份和语音内容的分离特征空间来实现姿势可控的谈话面部生成。

3.1.3、GAN的逆映射

利用预先训练的GAN模型，一系列研究探索将给定图像反转回GAN的潜在空间，这被称为GAN逆映射。GAN逆映射将图像映射回潜在空间，通过将潜空间馈入预训练的GAN以通过优化重建图像来实现。在多模态图像合成和编辑方面，基于GAN逆映射方法的关键在于如何根据相应的指南编辑或生成潜在代码，且基于反演的方法往往对模态不太敏感，因为反演是在非结构化一维潜在空间上进行的。

多模态图像分类任务框架多模态图像文本结合_计算机视觉_05

潜在空间里的跨模态匹配：多模态图像合成和编辑可以通过在公共嵌入空间中匹配图像嵌入和跨模态输入（例如，语义图、文本）来实现，具体而言，跨模态编码器被训练以学习具有视觉语言相似性损失和成对排序损失的嵌入。为了在编辑后保持身份，可以在目标中使用实例级优化模块，该模块允许根据文本描述修改目标属性。由于在StyleGAN潜空间中执行优化，该框架固有地允许从给定的多模态条件生成图像。条件图像操作也可以通过共享潜在空间中的样式混合来执行。

潜在空间中的图像编码优化：与将文本映射到潜在空间不同，一个流行的研究路线旨在直接优化原始图像的潜在代码，并以测量跨模态一致性的某些损失为指导。部分研究使用对比语言图像预训练（CLIP）来指导文本到图像合成的逆映射过程，而不是使用特定的属性预测器。针对文本引导的图像修复，Bau等人定义了基于剪辑的语义一致性损失，该剪辑优化了修复区域内的潜在代码，以实现与给定文本的语义一致。StyleClip和StyleMC使用预训练的剪辑作为丢失监督，以将操纵结果与文本条件匹配，如图所示。通过引入用于反事实图像操纵的基于剪辑的对比丢失、用于稳健性标准剪辑分数的AugCLIP分数，过参数化策略，以在潜在空间中导航优化。

多模态图像分类任务框架多模态图像文本结合_多模态图像分类任务框架_06