基于文本驱动用于创建和编辑图像(附源代码)_目标检测


基于文本驱动用于创建和编辑图像(附源代码)_解决方案_02

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2206.02779.pdf


计算机视觉研究院专栏

作者:Edison_G

神经图像生成的巨大进步,再加上看似无所不能的视觉语言模型的出现,终于使基于文本的界面能够用于创建和编辑图像。


1

 概括


处理通用图像需要一个多样化的底层生成模型,因此最新的作品利用了扩散模型,这被证明在多样性方面超过了GAN。然而,扩散模型的一个主要缺点是它们的推理时间相对较慢。

基于文本驱动用于创建和编辑图像(附源代码)_解决方案_03


在今天分享中,研究者为通用图像的本地文本驱动编辑任务提出了一种加速解决方案,其中所需的编辑仅限于用户提供的掩码。研究者的解决方案利用了最近的文本到图像潜在扩散模型 (LDM),该模型通过在低维潜在空间中运行来加速扩散。

基于文本驱动用于创建和编辑图像(附源代码)_解决方案_04


首先转换通过将混合扩散融入LDM到本地图像编辑器中。接下来,针对这种LDM固有的无法准确重建图像的问题,提出了一种基于优化的解决方案。最后,研究者解决了使用薄掩码执行本地编辑的场景。根据可用的基线定性和定量地评估新提出的方法,并证明除了更快之外,新方法在减轻一些伪影的同时比基线实现了更好的精度。

项目页面地址:https://omriavrahami.com/blended-latent-diffusion-page


2

 新框架方法分析


Blended Latent Diffusion旨在为混合扩散论文中介绍的通用图像的本地文本驱动编辑任务提供解决方案。Blended Diffusion受到推理时间缓慢(在单个GPU上获得良好结果需要大约25分钟)和像素级伪影的影响。

为了解决这些问题,研究者提出将混合扩散合并到文本到图像的潜在扩散模型中。为了做到这一点,对潜在空间进行操作,并在该潜在空间中反复混合前景和背景部分,扩散过程如下:

基于文本驱动用于创建和编辑图像(附源代码)_计算机视觉_05

在潜在空间上操作确实享有快速的推理速度,但是它存在未屏蔽区域的不完美重建并且无法处理薄掩模。有关我们如何解决这些问题的更多详细信息,请继续阅。

基于文本驱动用于创建和编辑图像(附源代码)_计算机视觉_06

基于文本驱动用于创建和编辑图像(附源代码)_解决方案_07

基于文本驱动用于创建和编辑图像(附源代码)_解决方案_08

Noise artifacts

给定输入图像(a)和mask(b)以及引导文本“金色卷发”,与新提出的方法(d)相比,混合扩散会产生明显的像素级噪声伪影(c)。

如前所述,潜在扩散可以从给定的文本生成图像(文本到图像LDM)。然而,该模型缺乏以局部方式编辑现有图像的能力,因此研究者建议合并混合扩散到文本到图像的LDM。

新方法在第一章节进行了总结,有关算法的说明,请阅读原论文。LDM在变分自动编码器VAE = (𝐸(𝑥), 𝐷(𝑧))学习的潜在空间中执行文本引导的去噪扩散。将我们希望修改的部分作为前景(fg),将剩余部分作为背景(bg),遵循混合扩散的思想,并在此潜在空间中重复混合这两个部分,随着扩散的进行。使用VAE编码器𝑧init ∼ 𝐸(𝑥)将输入图像𝑥编码到潜在空间中。潜在空间仍然具有空间维度(由于VAE的卷积性质),但是宽度和高度比输入图像的小(8倍)。

因此,将输入掩码𝑚下采样到这些空间维度,以获得潜在空间掩码𝑚latent,它将用于执行混合。

基于文本驱动用于创建和编辑图像(附源代码)_目标检测_09

Background reconstruction comparison


基于文本驱动用于创建和编辑图像(附源代码)_计算机视觉_10

Background reconstruction using decoder weights finetuning


基于文本驱动用于创建和编辑图像(附源代码)_计算机视觉_11

Thin mask progression


基于文本驱动用于创建和编辑图像(附源代码)_目标检测_12

Progressive mask shrinking


基于文本驱动用于创建和编辑图像(附源代码)_解决方案_13

Comparison to baselines: A comparison with (1) Local CLIP-guided diffusion [Crowson 2021], (2) PaintByWord++ [Bau et al. 2021; Crowson et al. 2022], (3) Blended Diffusion [Avrahami et al. 2021], (4) GLIDE [Nichol et al. 2021] and (5) GLIDE-filtered [Nichol et al. 2021].

基于文本驱动用于创建和编辑图像(附源代码)_解决方案_14

限制:顶行,基于CLIP的排名只考虑了mask区域,因此结果有时只是分段逼真的,图像整体看起来并不逼真。 底行:该模型具有文本偏差-它可能会尝试创建带有文本的电影海报/书籍封面,或者除了生成实际对象之外。

© THE END 



ABOUT

计算机视觉研究院


计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!



基于文本驱动用于创建和编辑图像(附源代码)_目标检测_15