Generative PointNet: Deep Energy-Based Learning on Unordered Point Sets for 3D Generation, Reconstruction and Classification

转载

mb5fe3290a9b4fe 2021-10-13 23:23:00

Label：点网生成:在无序点云集合上的基于能量的深度学习去生成3D，重建和分类

摘要

我们以energy-based model的形式提出了一种针对无序点集合（如点云）的生成模型，这里的energy函数通过自底向上的输入置换不变网络去参数化。这个能量函数学习每个点的坐标编码然后把所有独立的点特征聚合到整个点云的一个energy里面。我们的模型可以用MCMC的最大似然估计来训练，而不需要类似GANs和VAEs那种辅助网络来实现。与大多数依赖于手工距离度量的点云生成器不同，因为他根据能量函数定义的统计特性，通过匹配观测示例去合成点云。此外，我们可以学习到一种基于能量模型的短周期MCMC，作为流状发生器用于点云重建和插值。学习到的点云表示可以用于点云分类。实验证明了所提出的生成点云模型的优越性。

介绍

背景和动机

和体素与mesh相比，点云可以提供一个简练且详细的对三维对象的表达。

点云生成模型是三维计算机视觉的基础问题，因为它提供了一个明确的概率分布，有利于点云的合成和分析任务。尽管对于点云的分类和分割任务在这几年取得了长足的进步例如PointNet，PointNet++，DeepSet, ShapeContextNet, PointGrid, Dynamic GCN, SampleNet，但三维点云生成模型的开发进展却相对滞后。其生成的主要挑战是与图像、视频和体素化的的格式不同，点云不是规则结构，而且无序的点集，这样使得将现有模型扩展到点云上很难。目前的3D生成模型的大部分工作都是基于体素数据的。

补全的难点：无序点集
现有补全方法：将点云数据体素化，然后推广现有的补全模型到体素上。

随着最近各种生成任务的成功，如图像和视频生成，研究人员对点云生成越来越感兴趣。他们大多基于完善的GAN，例如VAE等。或带有手工距离度量的encoder-decoder。本文提出了一种用于三维点云概率建模的生成模型。具体的讲就是模型是以EBM的形式直接定义在一个无序点集的概率密度函数。他的形式是基于能量的深度模型，他的能量函数的参数通过一个置换不变的自底向上的深度网络确定，该网络适用于定义无序点集上的能量。我们模型上的最大似然估计遵循的是Grenander所称的“综合分析”的方案。具体而言就是在每次学习迭代中，采用基于梯度的MCMC方法，通过Langevin dynamics sampling方法生成假3D点云数据。然后根据假样例和真观测样例之间的差异更新模型参数，根据函数定义的某些置换不变统计特性将假样例和真样例进行匹配。

energy-based model

Generative PointNet: Deep Energy-Based Learning on Unordered Point Sets for 3D Generation, Reconstruction and Classification_建模

我们没有将分布的点隐式建模为一个自顶而下的生成器（隐式是因为生成器模型的边际概率密度需要对潜在噪声变量进行积分，这个是没法处理的。），也没有通过一个对抗性学习方法间接学习模型（在上面的公式中进行极大、极小的判别器、生成器训练。），或通过变分推理方案间接学习模型，将编码器用作推理模型来近似难以处理的后验分布。我们将此分布明确的建模为EBM并且通过MCMC-based MLE直接学习这个模型，而不需要额外的网络。极大似然估计不会遇到模型崩溃或者不稳定的问题，这个问题一般因为两种模型的不平衡训练程度而存在于GAN中。

提出一种规避GAN模型崩溃的方法。
隐式建模的不可行原因
没有使用变分推理，但是为什么没有使用呢？上面好像上面好像没有回答。
拥有无限拟合能力的gan其能力的上限是很高的，但是由于两个模型的对抗和博弈，使得他们很难训练和收敛。有非常多的文论都在研究gan的收敛（纳什均衡）和稳定（mode collapse等）。

使用编码器-解码器生成的点云模型，通常依赖手工制作的距离度量来度量两个点集之间的不相似性。我们模型的MLE学习对应于观测到的点云和生成的点云之间的统计匹配，其中统计属性由能量函数对学习参数的导数定义。因此，我们的模型并不依赖于手工制作的距离度量。

不依赖手工距离度量

如上所述，关于学习算法MLE学习算法采用“综合分析”方案，迭代如下两个步骤。

合成步骤：从当前模型生成假的合成的示例。
分析步骤：根据真实的观测实例和虚假的合成示例的差异，更新模型的参数。

下面是合成步骤的不同实现：

持久链，运行步数有限的MCMC，例如郎之万动力，从之前的学习迭代中生成合成案例。
对比观察链，从观察到的案例中，运行有限步数的MCMC。
非持久性短期MCMC，从高斯白噪声运行有限步MCMC。

按照方案1，可以学习到无偏模型，从而规避模型崩溃的可能性，但是学习非常耗时。
方案2会学习到一个有偏模型，但是通常无法生成真实的合成案例。
方案3，尽管学习到的模型仍然可能有偏差，类似于对比发散，但学习非常有效，并且由噪声初始化的短期MCMC可以生成真是的合成示例。

此外，噪声初始化的短期郎之万动力学可被视为将初始噪声转换为合成案例的类流模型或类生成器模型。有趣的是，学习到的短期动力学可以重建观察案例和给不同的案例插值，类似于流模型和生成器模型。

在我们的工作中，我们采用了计划3。

我们证明了学习到的短期MCMC可以生成真实的点云模式，并且可以重建观测点云并在点云之间插值。此外，即使它学习了有偏模型，所学习的能量函数和特征仍然对分类有用。

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯