【导读】上海科技大学和加州大学圣地亚哥分校的研究人员提出了一种新的人像生成系统,不仅能够单独控制人像中的不同属性,还能让用户从无到有即时创建出一个彩色的人像。
大家都知道,用GAN可以进行人像的生成。
但在GAN学习的潜在空间里,人的姿势、形状和纹理样式等不同属性通常都是结合在一起的。
那么想控制某个特定部位的属性怎么办?
为此,来自上海科技大学和加州大学圣地亚哥分校的研究团队就提出了名为「SofGAN」的人像生成系统。
论文地址:https://arxiv.org/pdf/2007.03780.pdf
项目地址:https://apchenstu.github.io/sofgan/
这个系统将人像的潜在空间解耦为两个子空间:几何空间和纹理空间。
从两个子空间采样的潜在代码分别馈送到两个网络分支:一个生成具有规范姿势的肖像的3D几何图形,另一个生成纹理。
对齐的3D几何还带有语义部分分割。
编码为语义占用字段SOF,能够在任意视图上渲染一致的2D语义分割图。
然后将其与生成的纹理图融合,使用语义实例(SIW)模块,处理为人像照片。
也就是说,这个系统可以单独控制人像的头发、眼睛、眼镜、皱纹和肤色,生成高质量肖像图像。
这个方法还可以推广到各种应用中,例如制作外观一致的面部动画和动态造型。
解耦表征
这项工作的主要贡献是「解开」已学到的面部特征,例如姿势和纹理,这样SofGAN也可以生成与不正对相机的视角的图像。
作者从图像渲染系统中吸取灵感,提出了将图像场景解耦为几何空间和纹理空间的方法。
同时将传统的占用字段扩展到语义占用字段(SOF)以模拟肖像几何。
SOF描述了每个空间点在k语义类上的概率分布,包括头发、脸、脖子、衣服等。
用SofGAN合成图像步骤:
- 对SOF进行光线跟踪,从给定的用户特定视点获得2D分割图。
- 采用GAN生成器,从纹理空间采样的样式代码对每个语义区域进行纹理化。
- 提出语义实例(SIW)纹理模块支持动态和区域样式控制。
解耦表征能够显式控制姿势、形状和纹理样式。
从原图像开始,在第二列的图像中改变了人物的头部姿势、面部轮廓和纹理样式。
而第三列则是从不完整的segmap中生成交互式图像,用户能够逐部分添加到segmap,并即时生成彩色图像。
SIW-StyleGAN的特点之一就是语义级别的样式控制。
也就是能够根据指定的语义分割图进行区域样式调整,单独控制每个语义区域的样式。
SofGAN还可以根据全局、背景、肤色、头发等语义区域生成不同的图像。
SofGAN框架可以通过改变相机角度,从几何样本或真实图像中生成自由视点的人像图像。
SOF使用多视图语义分割图进行训练,视图之间的几何投影约束在SOF中编码,这样就能够在改变视点时保持人像的形状和表情一致。
此外,用户还能从无到有,用户逐一将各部分添加到segmap,即时生成彩色图像。
比如用哈利波特演员Daniel Radcliffe作为跟踪模板画一个人出来。
当然,这些都只是生成了静态的图像。
SofGAN还能生成动态图像。
看上去也是十分自然,非常逼真。
效果怎么样?
经过三天训练,1500次迭代,SofGAN生成的图像与英伟达的Spade和PixPixHD以及SEAN等方法相比,从单个分割图中获得的图像更逼真。
SofGAN能够生成逼真图像,因为它有以下三个特点:
1. 对单个属性进行显示控制,其余属性保持不变。
因此SofGAN可以支持相应的渲染效果,比如自由视点渲染、全局和区域样式调整、面部变形、表情编辑等。
2. 训练未配对的数据。
与之前需要使用配对/对其RGB和分割图像进行训练的方法不同,SIW模块可以使用未配对的真实世界图像和合成语义分割图直接进行训练。
3. 按需和交互式生成。
SofGAN生成器的定制架构能够从不准确甚至不完整的分割图中合成逼真的人像。因此,用户能够从一个界面像Photoshop的工具,为交互式肖像设计手绘语义轮廓。
而综合实验表明,在CelebA和FFHQ数据集上,SofGAN图像生成器都达到了SOTA FID和LPISP分数,可用于广泛的综合任务。