Paint by Inpaint: Learning to Add Image Objects by Removing Them First

相关链接:arxiv 关键字:图像编辑文本条件扩散模型对象添加数据集构建视觉-语言模型

摘要

图像编辑在计算机视觉和图形学社区中扮演着核心角色,其应用范围广泛。尽管随着文本条件扩散模型的引入,图像编辑技术取得了显著进步,但根据文本指令无缝添加图像对象而无需用户提供输入遮罩仍然是一个挑战。我们通过利用移除对象(Inpaint)的过程比添加对象(Paint)的过程简单得多的洞察来解决这个问题,这归因于使用分割掩码数据集以及在这些掩码内进行修复的修复模型。利用这一发现,我们通过实施自动化和广泛的流程,策划了一个包含图像对及其相应的去除了对象的版本的大规模图像数据集。使用这些对,我们训练了一个扩散模型来逆转修复过程,有效地将对象添加到图像中。与其它编辑数据集不同,我们的特征是自然目标图像而不是合成的;此外,它通过构造保持源和目标之间的一致性。我们还利用一个大型视觉-语言模型(VLM)提供有关移除对象的详细描述,并使用一个大型语言模型(LLM)将这些描述转换为多样化的自然语言指令。我们展示了训练模型在定性和定量上都超越了现有模型,并发布了大规模数据集以及训练模型供社区使用。

核心方法

  1. 逆向思维:将添加对象视为移除对象的逆过程,利用现有的分割掩码数据集和修复模型来创建包含对象和去除了对象的图像对。
  2. 数据集构建(PIPE):通过两阶段过程创建数据集,首先利用分割数据集和高性能的掩码修复模型生成源图像和目标图像对,然后为每对图像生成自然语言添加对象指令。
  3. 指令生成:使用大型视觉-语言模型(VLM)和大型语言模型(LLM)生成详细的对象描述,并将其转换为自然语言指令。
  4. 模型训练:使用PIPE数据集训练一个扩散模型,该模型可以根据文本指令将对象添加到图像中,同时保持与原始图像的一致性。
  5. 质量控制:在生成源-目标图像对时,引入了预移除和后移除步骤,以确保高质量的数据,并通过多种过滤和细化技术来提高数据集的质量。

实验说明

实验通过以下步骤进行:

  • 使用PIPE数据集测试集进行评估。
  • 在MagicBrush数据集上进行评估,该数据集专注于对象添加任务。
  • 在OPA数据集上进行评估,该数据集包含源图像、目标图像以及待添加的对象。

实验结果使用以下指标进行量化:

  • L1和L2距离度量:评估像素级修改与目标图像的一致性。
  • CLIP-I和DINO图像编码器:评估编辑图像与目标图像之间的语义相似性。
  • CLIP-T:评估局部文本描述与编辑后图像之间的文本-图像对齐。

结论

本文提出的Paint by Inpaint框架识别并利用了向图像中添加对象本质上是移除对象的逆过程这一事实。基于此,我们展示了PIPE,一个大规模的对象添加数据集。该数据集是通过利用现有的分割数据集和高性能的掩码修复模型构建的。我们证明了在PIPE上训练的扩散模型在指导向图像中添加对象方面达到了最先进的性能。此外,我们展示了将PIPE与其他编辑数据集结合使用可以增强一般编辑性能。尽管取得了令人印象深刻的定性和定量结果,但仍存在一些限制。尽管我们的数据策划流程显著提高了对象移除阶段的鲁棒性,但并不能完全免疫于错误。此外,尽管我们采用了各种方法来生成指令,但这些努力的有效性受到VLM和LLM产生类似人类指令的能力的限制。我们希望我们的工作能激发和推动未来的研究工作,以解决我们在研究中确定的局限性。


请注意,以上内容是根据提供的链接和指令进行的概述。由于没有提供具体的实验数据和结论部分的详细内容,这里提供的实验说明和结论是基于摘要和论文内容的一般性描述。如果需要更详细的数据和分析,请提供完整的实验数据和结论部分的文本。