3D目标检测 | PointPillars论文和代码解析

转载

3D视觉工坊 2023-01-01 11:27:42

文章标签 点云 3D 数据 文章分类 Hadoop 大数据

作者丨周威@知乎

编辑丨3D视觉工坊

1 前言

本文要解析的模型叫做PointPillars，是2019年出自工业界的一篇Paper。

该模型最主要的特点是检测速度和精度的平衡。该模型的平均检测速度达到了62Hz，最快速度达到了105Hz，确实遥遥领先了其他的模型。这里我们引入CIA-SSD模型中的精度-速度图，具体对比如下所示。

3D目标检测 | PointPillars论文和代码解析_3D

图1 精度-速度图

可以看出，截止CIA-SSD论文发表前，PointPillars的检测速度都是遥遥领先的，而且精度也不低。

现有的一些研究喜欢将不规则、稀疏的点云数据按照以下两种方式进行处理，然后引入RPN层进行3D Bbox Proposal，这两种方法为：

（1）将点云数据划纳入一个个体素（Voxel）中，构成规则的、密集分布的体素集。常见的有VoxelNet和SECOND，这在之前的文章中已经解析过了；

（2）从俯视角度将点云数据进行处理，获得一个个伪图片的数据。常见的模型有MV3D和AVOD，这也说过了。

本文采用了一种不同于上述两种思路的点云建模方法。从模型的名称PointPillars可以看出，该方法将Point转化成一个个的Pillar（柱体），从而构成了伪图片的数据。

然后对伪图片数据进行BBox Proposal就很简单了，作者采用了SSD的网络结构进行了Proposal。

本文的论文地址为：

https://arxiv.org/abs/1812.05784

代码地址为:

https://github.com/SmallMunich/nutonomy_pointpillars

2 数据处理和网络结构

前面说到本文的一大亮点是将点云划分为一个个的Pillar，从而构成了伪图片的数据。

如何构成这个伪图片呢？作者在论文中是给出了这样的图，如下。

3D目标检测 | PointPillars论文和代码解析_数据_02

具体实现步骤如下：

按照点云数据所在的X，Y轴（不考虑Z轴）将点云数据划分为一个个的网格，凡是落入到一个网格的点云数据被视为其处在一个pillar里，或者理解为它们构成了一个Pillar。

每个点云用一个 3D目标检测 | PointPillars论文和代码解析_3D_03 维的向量表示，分别为。其中 3D目标检测 | PointPillars论文和代码解析_点云_05 为该点云的真实坐标信息（三维）和反射强度； 3D目标检测 | PointPillars论文和代码解析_数据_06 为该点云所处Pillar中所有点的几何中心；为 3D目标检测 | PointPillars论文和代码解析_3D_08 , 相对位置。

假设每个样本中有 3D目标检测 | PointPillars论文和代码解析_数据_10 个非空的pillars，每个pillar中有 3D目标检测 | PointPillars论文和代码解析_3D_11 个点云数据，那么这个样本就可以用一个 3D目标检测 | PointPillars论文和代码解析_点云_12 张量表示。

那么可能就有人问了，怎么保证每个pillar中有 3D目标检测 | PointPillars论文和代码解析_3D_13 个点云数据呢？

如果每个pillar中的点云数据数据超过个，那么我们就随机采样至个；如果每个pillar中的点云数据数据少于个，少于的部分我们就填充为0；

这样的话，作者很容易就实现了点云数据的张量化，具体过程如下。

实现张量化后，作者利用简化版本的PointNet对张量化的点云数据进行处理和特征提取。

特征提取可以理解为对点云的维度进行处理，原来的点云维度为 3D目标检测 | PointPillars论文和代码解析_3D_14 ,处理后的维度为 ,那么我们就获得了一个 3D目标检测 | PointPillars论文和代码解析_点云_16 的张量。

接着，我们按照Pillar所在维度进行Max Pooling操作，即获得了 3D目标检测 | PointPillars论文和代码解析_数据_17 维度的特征图。

为了获得伪图片特征，作者将 3D目标检测 | PointPillars论文和代码解析_数据_18 转化为 3D目标检测 | PointPillars论文和代码解析_点云_19 ，即 3D目标检测 | PointPillars论文和代码解析_3D_20 。那么我们就获得了形如的伪图片了。具体过程如下：