这里介绍了一种基于 EG3D的新颖的基于编码器的反演框架,利用 EG3D 潜在空间的固有属性来设计鉴别器和背景深度正则化,能够训练一个几何感知编码器,将输入图像转换为相应的潜在代码。本文方法取得了与基于优化的方法相当的令人印象深刻的结果,同时运行速度提高了 500 倍。 让 Encoder 在 3D gan Inversion 中大显身手!

EG3D~_人工智能

  • 论文题目:Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware Encoding
  • 项目主页:https://eg3d-goae.github.io
  • 论文代码:https://github.com/jiangyzy/GOAE

GAN(生成对抗网络 )是一种生成式的模型,通过随机采样一个 latent(存在于 latent space,通常 W space 或 W+ space),将其输入到网络中可以生成一个真实图像。GAN Inversion 是其逆过程,旨在给定一张参考图片后,通过一系列方法获得其相应的 latent,从而可以输入到 GAN 的生成网络中恢复这个图片。

Inversion 在 2D GAN 中已经有广泛的研究,主要分为以下三种方法,optimization-based,encoder-based,hybrid。Optimization-based 通常通过迭代最小化目标损失函数不断优化一个随机初始的 latent 来得到目标 latent;encoder-based 通过训练一个 encoder 来经过一次网络前向就获得目标 latent;hybrid 会利用 encoder 提供一个合理的初始化 latent,之后再对其进行迭代优化。类似地,3D GAN Inversion 是在 3D GAN 的基础上,给定一张参考图片,找到其对应的 latent 从而获得其 3D 表示,达到三维重建的效果。

动机

不同于 2D, 3D Inversion 在训练过程仅靠单一视角的输入要产生多视角的几何,是一个病态的问题,容易陷入过拟合输入视角的图片,产生平坦的 3D 形状。需要特别考虑几何,遮挡等问题,因此更加复杂,且目前的方法集中在 optimization-based,耗时较久,且容易过拟合到输入视角上,难以获得完整合理的 3D 几何。

因此,我们设计了一个 encoder-based 的框架来解决 3D GAN Inversion。首先探究了 3D GAN 中 canonical space (标准空间)的性质,并以此提出了 geometry-aware (几何感知)的 encoder,以及 Adaptive Feature Align (AFA,自适应特征对齐)模块提升细节纹理,和 mix tri-plane (遮挡感知融合)

EG3D~_人工智能_02

方法我们以 EG3D 为例进行分析,实验显示不同 condition 下采样的 latent 会产生不同质量的3D几何,在完整的 latent space 中,不是每一个采样的 w 都能产生完整的几何,只有在 canonical latent space 中采样得到的 latent 可以生成高质量的完整几何(Fig. 3 中间一行),其生成的相应 3D 表示 tri-plane上的特征也体现出 canonical 性质,因此定义为 canonical feature space。(以人脸为例,tri-plane 体现的是一个正脸的视角)

EG3D~_sed_03

但是 latent (W space,W+ space) 的表达能力在之前 2D GAN Inversion 研究中已经被验证是比较有限的,无法做到高质量的重建,一些细节纹理需要补充,因此设计了自适应特征对齐的 AFA 模块。我们在第一步 encoder 的重建中获得的 latent 生成的 feature 是标准的,然而第一步重建结果和输入图片的残差 feature 是和输入图片的视角绑定在一起的,他们在 spacial 上不能直接对齐,因此这里设计了一个 attention 的调制,把 生成网络中间的 canonical feature 作为 query,残差的 feature 作为 key 和 value 从而将两者自适应地对齐,达到了补充细节纹理的效果。AFA 模块结构如下。 

EG3D~_人工智能_04

而给定的图片是2D的,存在遮挡的问题,应该只在输入图片能看见的位置补充的细节,因此我们根据相机的内外参和输入视角的深度,定义了可见点集和遮挡点集,在对tri-plane渲染进行特征选取的时候,对于可见点集,我们使用补充细节后的tri-plane的特征;对于遮挡点集,我们使用第一步 encoder 获得的能生成完整几何的 triplane 的特征。通过这种方法,将两个 tri-plane 结合在一起获得最后的 3D 表示。

EG3D~_人工智能_05

实验

实验对比上,我们的方法和 optimization-based 的方法相比,在输入视角的重建上没有明显差别,且我们不会过拟合在输入视角,能生成高质量的多视角,在极端视角和表情下能有更好的表现。和其他 encoder-based 方法相比各方面质量明显更好。消融实验也体现出上述每一个模块的重要性。 

Qualitative Analysis

EG3D~_人工智能_06

Quantitative Analysis

EG3D~_人工智能_07

novel view video

EG3D~_人工智能_08

 

EG3D~_3D_09

Ablation geometry-aware loss

EG3D~_sed_10

Ablation AFA

EG3D~_点集_11

Ablation mix tri-plane 

EG3D~_人工智能_12