论文解读

论文解读:动态神经辐射场单目重建4D人脸_数据

论文解读:动态神经辐射场单目重建4D人脸_背景图_02

给定一个单目相机拍摄人的纵向视频,作者重建一个动态神经辐射场来表示一个4D面部,它允许我们去合成新颖的头部位姿和面部表情变化。



摘要


数字模型和重建一个说话的人对于大部分应用来说是一个关键一步。尤其是在AR和VR远程应用中,需要获得新颖的视角和头部位姿。相对于当前主流基于模型几何和本身具备的属性,以及基于图像的方法来构建模型。作者引入了基于场景表示网格的头部隐式表达方法。作者用体素渲染方去生成图像,从这个混合表示和证明这个动态神经场景表示能够从单目输入数据中学习,不需要特别的捕获设备。论文主页链接:https://gafniguy.github.io/4D-Facial-Avatars/




方法

先看一下4D面部重建的流程图。给定一个纵向视频和一张没有人的背景图像作为输入,作者应用一个3D变形模型来对面部表情跟踪。在位姿和表情评估基础上,作者用体渲染方式来合成人脸图像。沿着视角光线样本作为输入到动态神经辐射场,这是一个另外条件学习每帧的隐编码。因为背景是固定的,作者设置每条光线的最后采样的颜色到背景图像的对应值上。 

动态神经辐射场

论文解读:动态神经辐射场单目重建4D人脸_数据_03

动态神经辐射场

作者此方法参考了NerF,使用一个多层感知机MLP,将说话的头部嵌入到一个规范化的空间内。在这个动态辐射场函数,包括变量位置p,视角方向v以及动态面部表情delta。作者将这些输入到MLP中,输出颜色和透明度值来进行体素渲染。

论文解读:动态神经辐射场单目重建4D人脸_序列图_04

为弥补面部表情和位姿估计中的误差,作者也提供了一个每帧学习到的隐编码r到MLP中。作者使用10张序列图像来计算位置p,用4张序列图像来计算视角方向v。需要注意的是,面部表情向量中只能粗糙展示几何表面改变,而不能对人眼的转动进行表示。

体渲染纵向视频

作者采用一个二阶段的体嵌入方法。这个动态神经辐射场含有两个实例,一个粗糙和一个精细。在粗糙网络模型后使用精细网络,可以获得更重要的样本点。

论文解读:动态神经辐射场单目重建4D人脸_序列图_05

论文解读:动态神经辐射场单目重建4D人脸_背景图_06

网络架构和训练

动态神经辐射场是使用MLP来表示。作者使用了8层全连接网络,每层含有256个神经元,并后面添加ReLU激活函数。对应的损失函数如下所示,粗糙和精细网络损失的累加和。

论文解读:动态神经辐射场单目重建4D人脸_背景图_07



结论


不同模型和方法互相比较

论文解读:动态神经辐射场单目重建4D人脸_序列图_08

真值、重建结果、改变位姿、改变表情:

论文解读:动态神经辐射场单目重建4D人脸_序列图_09

每天我们会定期发布最新关于《计算机视觉与图形学》相关论文和知识,请扫描下方二维码关注我们:

论文解读:动态神经辐射场单目重建4D人脸_数据_10