香港大学和牛津大学提出了一种使用扩散模型进行基于区域的快速图像编辑方法RegionDrag, RegionDrag 是一种基于区域的图像编辑方法,通过使用户能够通过 手柄和 目标区域表达指令,提供比点拖动方法更快、更精确的图像编辑,在速度上显著超越之前的 SOTA,同时实现更好的性能。

相关链接

论文地址:https://arxiv.org/pdf/2407.18247

项目页面:https://visual-ai.github.io/regiondrag

代码地址:https://github.com/Visual-AI/RegionDrag

论文阅读

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_stable diffusion

RegionDrag:使用扩散模型实现基于区域的快速图像编辑 (ECCV 2024)

摘要

基于点拖拽的图像编辑方法(例如 DragDiffusion)引起了广泛关注。然而,由于基于点的编辑指令稀疏,基于点拖拽的方法存在计算开销大和对用户意图误解的问题。

本文提出了一种基于区域的复制粘贴拖拽方法 RegionDrag以克服这些限制。RegionDrag 允许用户以句柄和目标区域的形式表达编辑指令,从而实现更精确的控制并减少歧义。此外,基于区域的操作在一次迭代中完成编辑,比基于点拖拽的方法快得多。我们还结合了注意力交换技术,以增强编辑过程中的稳定性。

为了验证我们的方法,我们使用基于区域的拖拽指令扩展了现有的基于点拖拽的数据集。实验结果表明,RegionDrag 在速度、准确性和与用户意图的一致性方面优于现有的基于点拖拽的方法。值得注意的是,RegionDrag 在不到 2 秒的时间内完成了对分辨率为 512 x 512 的图像的编辑,比 DragDiffusion 快 100 倍以上,同时实现了更好的性能。

方法

RegionDrag 使用户能够输入句柄和目标区域对,然后通过两个主要步骤将它们用于编辑:

  1. 复制句柄区域覆盖的潜在表示并在反转期间存储自注意特征。
  2. 将复制的潜在表示粘贴到目标位置并在去噪期间插入存储的自注意特征。

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_AIGC_02

以操作鸟喙为例,全面比较基于点的编辑和基于区域的编辑。结果表明,基于区域的方法可以提供更加用户友好且歧义更少的编辑体验。

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_图像生成_03

RegionDrag方法的一般流程。区域对提供的丰富上下文使用户能够在一个反转和去噪周期内完成准确的编辑。手柄区域的潜在表示在多个时间步骤中被复制并粘贴到目标区域上以进行拖动编辑。自注意力块内的键和值被重复使用以确保图像一致性。

实验

RegionDrag 支持多种输入

用户可以输入区域或点来将图像内容从红色拖动到蓝色。

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_图像生成_04

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_stable diffusion_05

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_人工智能_06

快速AI编辑

区域输入提供的丰富上下文允许用户在短短 1.5 秒内编辑 512x512 的图像,比以前的点拖动方法快得多。

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_人工智能_07

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_图像生成_08

与基线方法的定性比较。处理区域和目标区域分别用红色和蓝色掩模表示。

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_人工智能_09

对输入变换点百分比影响的消融研究。

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_人工智能_10

说明多步骤复制粘贴影响的定性示例。

更多结果

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_stable diffusion_11

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_AIGC_12

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_stable diffusion_13

ECCV2024|RegionDrag:基于区域的图像编辑方法,通过手动拖拽实现图像编辑!_AIGC_14

结论

在本文中,我们介绍了一种高效且有效的基于区域的编辑框架 RegionDrag,用于高保真图像编辑。与利用基于点拖动的编辑的现有方法不同,RegionDrag 从区域的角度重新考虑了编辑问题。RegionDrag 允许通过复制和粘贴图像的潜在表示和自注意特征在单个步骤中完成编辑,这不仅提供了出色的效率,而且还实现了卓越的编辑性能。此外,我们基于现有数据集引入了两个新的基准,DragBench-SR 和 DragBench-DR,用于评估基于区域的编辑。实验结果一致证明了我们方法的卓越效率和编辑性能。