首个面向动作编辑的视频扩散模型,MotionEditor,首次利用扩散模型实现了视频运动信息的编辑。 

MotionEditor: Editing Video Motion via Content-Aware Diffusion

项目主页:https://francis-rings.github.io/MotionEditor/

论文地址:https://arxiv.org/pdf/2311.18830

代码:https://github.com/Francis-Rings/MotionEditor

1. 简介

尽管扩散模型在图像和视频编辑领域取得了显著的成功,但现有的工作主要集中在纹理编辑,即对视频中人物的属性、视频背景和视频风格进行编辑,尚未考虑到对视频中最独特、最鲜明的运动信息进行编辑。在本文中,我们首次探索了对视频动作的编辑,即给定参考视频和提示,我们的目标是对源视频的人物动作进行编辑,使其与参考视频中的人物动作保持一致,并在此过程中保留人物的外观信息。

为此,我们提出了MotionEditor,首次利用扩散模型实现了视频运动信息的编辑,如图1所示。MotionEditor首先针对原始视频进行单样本学习(one-shot learninig)以保留原始视频的纹理特征。具体地,针对ControlNet缺乏时序一致性的建模能力的难题,我们设计了运动适配器以增强时序建模能力及对姿态信号的控制能力,从而实现姿态信息与外观信息的高效交互,以保留原始视频的外观信息。在推理时,给定目标视频,我们设计了一种骨架对齐算法以缓解源视频姿态骨架和目标视频姿态参考骨架之间的大小和位置差异,从而将目标视频的动作更好地迁移到原始视频中。我们还设计了基于两分支架构(重建和编辑分支)的注意力注入机制,以保留源视频中人物和背景信息,并通过分支的交互大幅提升了生成质量。

MotionEditor_github

图1.MotionEditor: 一个基于扩散模型的视频编辑方法,可以将给定的参考视频中的运动信息迁移到源视频上。

MotionEditor_人工智能_02

2. 方法

2-1. 模型整体架构

如图2所示,MotionEditor首先通过引入额外的时序自注意力层将扩散模型中U-Net的空间Transformer扩展为3D Transformer,并提出了Consistent-Sparse Attention (CS Attention) 以取代扩散模型原始的空间自注意力。为了实现精确的运动编辑并保证时序一致性,我们设计了一个运动适配器对来自U-Net的特征和来自ControlNet的姿态信息进行融合。进而,我们采用单样本学习的策略来训练时序注意模块和运动适配器,以重建源视频输入。

MotionEditor_建模_03

图2.MotionEditor的框架图。

在训练阶段,只有运动适配器和U-Net中的时序注意力层是可训练的,在推理阶段,我们首先将源视频和参开视频的人物骨架通过缩放和仿射进行对齐,我们接着构建了一个双分支网络,一个用于重建原视频,一个用于执行视频编辑。运动适配器通过利用来自源视频的潜空间特征(latents)来增强ControlNet的运动信息建模能力,我们同时将来自重建分支的键(K)/值(V)注入到编辑分支中,使模型生成的视频保留原始视频的外观信息。

2-2. 运动适配器

我们的运动适配器将ControlNet输出的特征作为输入,以实现高效的空间建模。该适配器由全局建模路径和局部建模路径并行组成,其中全局建模路径包括内容感知交叉注意力模块和时序自注意力建模模块,局部建模路径则使用两个时序卷积块以捕获局部运动特征。

MotionEditor_github_04

这样的设计可以使运动适配器捕捉视频潜在空间中的运动线索,进而可以实现动作的编辑,避免外观与姿态不一致导致的冲突。

2-3. 高保真注意力注入机制

尽管我们的运动适配器可以准确地捕捉身体姿势,但它可能会意外地改变视频中人物和背景的外观。因此,我们提出从重建分支到编辑分支的高保真注意力注入机制,从而使编辑后的视频保留源视频中人物和背景的细节。由于前景特征和背景特征耦合程度过高,导致传统的注意力融合方法在模糊区域(即运动区域)质量较不理想。为了解决这个问题,我们通过语义掩码将键(K)和值(V)解耦为前景和背景,通过将分离的键(K)和值(V)从重建分支注入到编辑分支,大幅提升了生成质量。注意力注入机制如图3所示。

MotionEditor_人工智能_05

图3.推理过程中高保真的注意力注入机制示意图。我们利用原视频的前景掩码来引导在一致稀疏注意力中的键(K)/值(V)解耦合

MotionEditor_视频编辑_06

其中[.]指的是拼接操作。

MotionEditor_视频编辑_07

3. 实验

3-1. 视频动作信息编辑

MotionEditor_建模_08

图4. MotionEditor的视频运动信息编辑效果

MotionEditor_github_09

MotionEditor_视频编辑_10