摘要
三维物体通常表示为点云中的三维框。 这种表示模拟了经过充分研究的基于图像的2D边界框检测,但也带来了额外的挑战。 3D世界中的目标不遵循任何特定的方向,基于框的检测器很难枚举所有方向或将轴对齐的边界框匹配到旋转的目标。 在本文中,我们提出用点来表示、检测和跟踪三维物体。 我们的框架CenterPoint,首先使用关键点检测器检测目标的中心,然后回归到其他属性,包括3D尺寸、3D方向和速度。 在第二阶段,它使用目标上的额外点特征来改进这些估计。 在CenterPoint中,三维目标跟踪简化为贪婪最近点匹配。 由此产生的检测和跟踪算法简单、高效、有效。 CenterPoint在nuScenes基准测试中实现了最先进的3D检测和跟踪性能,单个模型的NDS和AMOTA分别为65.5和63.8。 在Waymo开放数据集上,Center-Point的表现远远超过了之前所有的单一模型方法,在所有仅使用激光雷达的提交中排名第一。
强大的3D感知能力是许多先进驾驶系统的核心组成部分。 与已经深入研究的二维检测问题相比,点云的三维检测提出了一系列有趣的挑战:首先,点云是稀疏的,大多数三维物体都没有测量。 其次,结果输出是一个三维的框,它通常没有与任何全局坐标系很好地对齐。 第三,3D物体有各种大小、形状和高宽比,例如,在交通领域,自行车接近平面,公共汽车和豪华轿车被拉长,行人很高。 2D和3D检测之间的这些显著差异使得这两个领域之间的idea转移更加困难。 轴向2D方框是自由形状3D目标的糟糕代理。 一种解决方案可能是为每个目标方向分类不同的模板(锚),但这不必要地增加了计算负担,并可能引入大量潜在的假正样本检测。 我们认为,连接2D和3D领域的主要潜在挑战在于目标的这种表示。
在本文中,我们展示了如何将物体表示为点(图1),极大地简化了3D识别。 我们的两阶段3D检测器CenterPoint使用关键点检测器来找到物体的中心和它们的属性,第二阶段改进了所有的估计。 具体来说,CenterPoint使用标准的基于Lidar的骨干网,即VoxelNet或PointPillars,来构建输入点云的表示。 然后,它将这种表示平铺到一个高架地图视图中,并使用基于标准图像的关键点检测器来寻找目标中心。 对于每个检测到的中心,它会从中心位置的点特征退化到所有其他目标属性,如3D尺寸、方向和速度。 此外,我们使用一个轻量级的第二阶段来细化目标位置。 第二阶段提取被估计物体三维边界框中每个面的三维中心的点特征。 它恢复了由于步幅和有限的接收域而丢失的局部几何信息,并以较小的成本带来了良好的性能提升。
基于中心的表示法有几个关键的优点:首先,与包围框不同,点没有内在的方向。 这大大减少了目标检测器的搜索空间,并允许主干学习目标的旋转不变性和等价性。 其次,基于中心的表示简化了下游任务,如跟踪。 如果物体是点,轨迹就是空间和时间中的路径。 中心点预测目标在连续帧和链接目标之间的相对偏移(速度)。 第三,基于点的特征提取使我们能够设计一个有效的两阶段细化模块,其速度远快于以往的方法。
我们在两个流行的大数据集上测试我们的模型:Waymo Open和nuScenes。 我们发现,在不同的主干下,从盒子表示到基于中心表示的简单切换可以增加3-4个mAP。 两阶段细化进一步带来额外的2 mAP提升,计算开销很小(< 10%)。 我们最好的单一模型在Waymo上实现了71.8和66.4 level 2 mAPH的车辆和行人检测,在nuScenes上实现了58.0 mAP和65.5 NDS,优于所有已发布的方法。 值得注意的是,在NeurIPS 2020 nuScenes 3D检测挑战赛中,前4名获奖作品中有3个以CenterPoint为基础。 对于3D跟踪,在nuScenes上我们的模型执行63.8 AMOTA优于之前的先进的8.8 AMOTA。 在Waymo 3D跟踪基准上,我们的模型对车辆和行人的跟踪分别达到59.4和56.6 level 2 MOTA,比以前的方法高出50%。 我们的端到端3D检测和跟踪系统几乎是实时运行的,在Waymo上是11 FPS,在nuScenes上是16 FPS。
2、相关工作二维目标检测可以从图像输入预测轴链边界框。 RCNN家族找到一个类别不可知论的边界框候选人,然后对其进行分类和改进。 YOLO、SSD和RetinaNet直接找到一个类别特定的候选框,避免了后续的分类和细化。 基于中心的检测器,如CenterNet或CenterTrack,直接检测隐式的目标中心点,而不需要候选框。 许多三维检测器都是从这些二维检测器演化而来的。 我们证明基于中心的表示是3D应用的理想选择。
三维目标检测的目标是预测三维旋转的包围框。 它们不同于输入编码器上的2D检测器。 Vote3Deep利用以特征为中心的投票有效地处理等距3D体素上的稀疏3D点云。 VoxelNet使用每个体素内部的PointNet[38]生成统一的特征表示,使用3D稀疏卷积和2D卷积的头部生成检测。 第二[54]简化了VoxelNet,加快了稀疏的3D卷积。 PIXOR将所有点投影到带有3D占用和点强度信息的2D特征图上,以消除昂贵的3D卷积。 PointPillars用支柱表示取代了所有的体素计算,每个地图位置都有一个细长的体素,提高了骨干效率。 MVF和Pillar-od结合多种视图特征来学习更有效的支柱表示。 我们的贡献集中在输出表示,并与任何3D编码器兼容,并可以改进它们。
VoteNet通过使用点特征抽样和分组的投票聚类来检测目标。 相反,我们直接通过中心点的特征回归到3D边界框,而不需要投票。 Wong等人和Chen等人在目标中心区域使用了类似的多点表示(即点锚),并回归到其他属性。 我们对每个对象使用一个正单元,并使用关键点估计损失。
两阶段三维目标检测。 最近的研究考虑直接将RCNN风格的2D检测器应用于3D领域。 他们中的大多数应用RoIPool或RoIAlign在3D空间中聚合特定于ROI的特征,使用基于PointNet的点或体素特征提取器。 这些方法从3D激光雷达测量中提取区域特征(点和体素),由于大量的点,导致运行时间令人望而却步。 相反,我们从中间特征图中提取5个表面中心点的稀疏特征。 这使我们的第二阶段非常有效,并保持有效。
3D目标的跟踪。 许多2D跟踪算法容易跟踪3D目标。 然而,基于3D卡尔曼滤波器的专用3D跟踪器仍然有边缘,因为它们更好地利用了场景中的三维运动。 在这里,我们采用了CenterTrack的一种更简单的方法。 我们使用速度估计和基于点的检测来通过多帧跟踪目标的中心。 这种跟踪器比专用的3D跟踪器更快、更准确。
3、基础知识2D CenterNet将目标检测改写为关键点估计。 它取一幅输入图像,对每K个类预测一个w×h热图。 输出热图中的每个局部最大值(即大于其8个邻居的像素)对应于检测对象的中心。 为了检索一个2D框,CenterNet回归到所有类别之间共享的尺寸图。 对于每个检测目标,尺寸图将其宽度和高度存储在中心位置。 CenterNet架构使用了标准的全卷积图像主干,并在顶部添加了密集的预测头。 在训练过程中,CenterNet学习对每个类,在每个标注的对象中心处预测带有渲染高斯核的热图,并回归到标注边界框中心的目标大小S。 为了弥补由主干网结构的跨步引入的量化误差,CenterNet也回归到一个局部偏移。
在测试时,检测器生成K热图和密集的类不可知回归图。 热图中的每个局部最大值(峰值)对应一个目标,置信度与峰值处的热图值成正比。 对于每一个被检测的目标,检测器从相应的峰值位置的回归图中获取所有的回归值。 根据应用程序域的不同,非最大抑制(NMS)可能是合理的。
3D目标检测 设为三维位置(x, y, z)和反射率r测量值的无序点云。 三维物体检测的目标是从该点云预测鸟瞰图中一组三维物体包围框。 每个包围框由相对于物体地面的中心位置、3D尺寸和以偏差表示的旋转组成。 在不失一般性的前提下,我们采用自中心坐标系统,传感器位置为(0,0,0),yaw= 0。
现代3D物体检测器使用3D编码器将点云量化到常规容器中。 然后,基于点的网络为一个容器内的所有点提取特征。 然后,3D编码器将这些特征集合到其主要特征表示中。 大部分的计算都发生在骨干网中,骨干网只对这些量化和池化的特征表示进行操作。 骨干网络的输出是一个映射视图参考框架中宽度为W,长度为L,通道数为F的映射视图特征映射。 宽度和高度都直接与个体体素条的分辨率和主干网络的步幅有关。 常见的骨干包括VoxelNet和PointPillars。
对于一个映射视图特征映射M,一个检测头(通常是一个或两级边界框检测器),然后从锚定在这个开销特征映射上的一些预定义边界框生成目标检测。 由于3D包围框具有不同的尺寸和方向,基于锚的3D检测器很难将轴向的2D框与3D目标相匹配。 此外,在训练过程中,以往基于锚的3D检测器依赖于2D Box IoU进行目标分配,这为不同类别或不同数据集选择正/负阈值带来了不必要的负担。 在下一节中,我们将展示如何基于点表示建立一个有原则的3D目标检测和跟踪模型。 我们引入了一种新的基于中心的检测头,但依赖于现有的3D骨干(VoxelNet或PointPillars)。
4、CenterPoint图2显示了CenterPoint模型的总体框架。 设为3D主干的输出。 CenterPoint的第一阶段预测特定类别的热图、目标大小、亚体素位置细化、旋转和速度。 所有的输出都是密集的预测。
中心热图头
中心头部的目标是在任何被检测物体的中心位置产生一个热图峰值。 这个头产生一个K通道热图,每个K类有一个通道。 在训练过程中,它的目标是由带注释的边界框的3D中心投影到地图视图中产生的2D高斯函数。 我们使用focal loss。 自上而下地图视图中的目标比图像中的目标更稀疏。 在地图视图中,距离是绝对的,而图像视图通过透视扭曲了距离。 考虑一个道路场景,在mapview中车辆所占的面积很小,但在图像视图中,一些大的物体可能会占据屏幕的大部分。 此外,透视投影中深度维数的压缩自然使图像中物体中心更接近彼此。 遵循CenterNet的标准监控会导致非常稀疏的监控信号,其中大多数位置都被认为是背景。 为了抵消这一点,我们增加了目标热图Y的正向监督,通过放大每个ground-truth目标中心渲染的高斯峰。 具体来说,我们设置高斯半径为,其中是允许的最小高斯半径,f是在CornerNet中定义的半径函数。 通过这种方式,CenterPoint保持了基于中心的目标分配的简单性; 该模型从附近的像素得到更密集的监督。
回归。 我们将一些目标属性存储在目标的中心特征处:亚体素位置的优化,地面高度,3D尺寸,偏转角度。 亚体素定位的细化减少了由于体素化和主干网络的步幅而产生的量化误差。 高度高于地面的有助于在3D中定位物体,并添加被地图视图投影删除的缺失的海拔信息。 方位预测采用偏航角的正弦和余弦作为连续回归目标。 结合框大小,这些回归头提供了三维包围盒的完整状态信息。 每个输出使用它自己的头。 我们在ground-truth中心位置使用L1损失来训练所有输出。 我们回归到对数大小,以更好地处理各种形状的框。 在推理时,我们通过索引到每个目标的峰值位置的稠密回归头输出提取所有属性。
速度头和跟踪
为了通过时间跟踪目标,我们学习预测每个检测目标的二维速度估计作为额外的回归输出。 速度估计需要时间点云序列[6]。 在我们的实现中,我们将以前帧中的点转换并合并到当前参考帧中,并通过时间差(速度)来预测当前帧和过去帧之间物体位置的差异。 与其他回归目标一样,速度估计也利用地面真实目标在当前时间步长的位置上的L1损失进行监督。
在推断时,我们使用这个偏移量以一种贪婪的方式将当前的检测与过去的检测关联起来。 具体来说,我们利用负速度估计将当前帧中的目标中心投影回上一帧,然后通过最近距离匹配将它们与被跟踪的目标进行匹配。 按照SORT,在删除它们之前,我们保持不匹配的跟踪到T = 3帧。 我们用最后已知的速度估计更新每个不匹配的轨迹。 详细跟踪算法图见补充。
CenterPoint将所有热图和回归损失合并到一个共同的目标中,并联合优化它们。 它简化并改进了以前基于锚的3D检测器(见实验)。 然而,当前所有目标属性都是从目标的中心特征推断出来的,而中心特征可能不包含足够的信息来进行精确的对象定位。 例如,在自动驾驶中,传感器往往只看到物体的侧面,而不是中心。 接下来,我们通过使用一个轻量级点特征提取器的第二个细化阶段来改进CenterPoint。
4.1、两阶段CenterPoint
我们使用CenterPoint作为第一阶段。 第二阶段从骨干网的输出中提取额外的点特征。 我们从预测边界框的每个面的三维中心提取一个点特征。 注意,边界框的中心,顶部和底部的中心都投射到地图视图中的同一个点上。 因此,我们只考虑四个向外的框面和预测的目标中心。 对于每个点,我们使用双线性插值从主映射视图输出m中提取一个特征。接下来,我们将提取的点特征连接起来,并将它们通过一个MLP传递。 第二阶段在一级CenterPoint的预测结果之上预测一个类不可知的置信度得分和框的细化。
对于类不可知的置信评分预测,我们遵循,并使用一个得分目标,我引导着盒子的3D IoU与相应的地面真相边界框:
是在第t个提议框和地面真相之间的IoU。 我们使用二元交叉熵损失进行训练:
我是预测的自信分数。 在推理,我们直接使用类从单程中心预测,计算最终的信心得分的几何平均两个分数,其中是最后的预测目标的置信度和和分别是第一阶段和第二阶段目标t的置信度。
4.2、结构
所有第一级输出共享一个前3 × 3卷积层、批处理归一化和ReLU。 然后,每个输出使用自己的两个由批处理规范和ReLU分隔的3 × 3卷积分支。 我们的第二阶段使用一个共享的两层MLP,带有批规范、ReLU和Dropout, drop率为0.3,然后是单独的三层MLP,用于置信度预测和框回归。
5、实验我们在Waymo Open Dataset和nuScenes Dataset上评估CenterPoint。 我们使用两种3D编码器实现CenterPoint: VoxelNet和PointPillars,分别被称为CenterPoint- voxel和CenterPoint-Pillar。
Waymo Open Dataset.
Waymo Open Dataset包含798个训练序列和202个验证序列,用于车辆和行人。 点云包含激光雷达64道,对应每0.1s 180k点。 官方的三维检测评估指标包括三维包围框平均精度(mAP)和mAP加权方向精度(mAPH)。 mAP和mAPH是基于欠条阈值0.7的车辆和0.5的行人。 对于三维跟踪,官方指标是多目标跟踪精度(MOTA)和多目标跟踪精度(MOTP)。 官方评估工具包还提供了两个难度等级的性能分解:1级是包含5个以上激光雷达点的框,2级是包含至少1个激光雷达点的框。
我们的Waymo模型对X轴和Y轴的检测范围为[?75.2m, 75.2m],对Z轴的检测范围为[2m, 4m]。 CenterPoint-Voxel使用(0.1m, 0.1m, 0.15m)体素大小,遵循PV-RCNN,而CenterPoint-Pillar使用网格大小(0.32m, 0.32m)。
nuScenes Dataset.
nuScenes包含1000个驱动序列,分别有700、150、150个序列用于训练、验证和测试。 每个序列大约20秒长,激光雷达频率为20 FPS。 数据集为每个激光雷达帧提供校准的车辆姿态信息,但每10帧(0.5s)只提供框标注。 nuScenes使用32道激光雷达,每帧产生大约3万个点。 总共有28k, 6k, 6k,用于训练,验证和测试的注释框架。 这些注释包括10个具有长尾分布的类。 官方的评估指标是班级的平均水平。 对于3D检测,主要指标是平均平均精度(mAP)[13]和nuScenes检测评分(NDS)。 mAP使用鸟瞰中心距离< 0.5m, 1m, 2m, 4m,而不是标准的盒重叠。 NDS是mAP和其他属性度量的加权平均值,包括平移、比例、方向、速度和其他盒属性[6]。 在我们的测试集提交之后,nuScenes团队添加了一个新的神经规划度量(PKL)[35]。 PKL度量基于规划者路线的KL发散(使用3D检测)和地面真实轨迹来度量3D目标检测对下行自主驾驶任务的影响。 因此,我们也报告了在测试集上评估的所有方法的PKL度量。
对于3D跟踪,nuScenes使用AMOTA,它会惩罚ID开关、假阳性和假阴性,平均超过各种召回阈值。
对于nuScenes的实验,我们将X、Y轴的检测范围设置为[51.2m, 51.2m], Z轴是[5m, 3m]。 CenterPoint-Voxel使用(0.1m, 0.1m, 0.2m)体素大小,CenterPoint-Pillars使用(0.2m, 0.2m)网格。
训练和测试
我们使用与先前工作相同的网络设计和训练计划。 详细的超参数见补充。 在两阶段CenterPoint的训练过程中,我们从第一阶段的预测中随机抽取了128个正负比为1:1的框。 如果一个提议与至少0.55 IoU的ground truth注释重叠,则该提议是积极的。 在推断过程中,我们对非最大抑制(NMS)之后的前500个预测运行第二阶段。 推断时间是在Intel Core i7 CPU和Titan RTX GPU上测量的。
5.1、主要的结果
3D检测
我们首先在Waymo和nuScenes的测试集上展示我们的3D检测结果。 这两个结果都使用了一个CenterPoint-Voxel模型。 表1和表2总结了我们的结果。 在Waymo测试集上,我们的模型实现了71.8 level 2 mAPH的车辆检测和66.4 level 2 mAPH的行人检测,车辆和行人的mAPH分别比之前的方法提高了7.1%和10.6%。 在nuScenes(表2)上,我们的模型在多尺度输入和多模型集成方面比去年的冠军CBGS[65]高出5.2% mAP和2.2% NDS。 如后面所示,我们的模型也快得多。 补充材料包含了沿着类的细分。 我们的模型在所有类别中显示了一致的性能改进,并在小类别(交通锥+5.6 mAP)和极端纵横比类别(自行车+6.4 mAP,施工车辆+7.0 mAP)中显示了更显著的改善。 更重要的是,我们的模型signif? 在神经平面度量(PKL)下,ic明显优于所有其他提交的作品,这是一个由机构评估的隐藏度量。 在我们的排行榜提交后。 这突出了我们框架的泛化能力。
3D跟踪
表3显示了CenterPoint在Waymo测试集上的跟踪性能。 我们在第4节中描述的基于速度的最接近距离匹配显著优于Waymo论文[46]中的官方跟踪基线,后者使用基于卡尔曼滤波的跟踪器[51]。 我们观察到车辆和行人跟踪的MOTA分别提高了19.4和18.9。 在nuScenes(表4)上,我们的框架比上次挑战的获胜者Chiu et al.[10]高出8.8 AMOTA。 值得注意的是,我们的跟踪不需要单独的运动模型,运行时间可以忽略不计,比检测时间长1毫秒。
5.2、消融研究
基于中心的方法和基于Anchor的方法
我们首先比较了基于中心的单阶段检测器和基于锚的同类检测器。 在Waymo上,我们遵循最先进的PV-RCNN[42]来设置锚超参数:我们在每个位置使用两个锚,分别为0°和90°,车辆的正/负IoU阈值为0.55/0.4,行人的0.5/0.35。 在nuScenes上,我们遵循上一届挑战赛冠军CBGS的主播分配策略[65]。 我们还比较了基于网格点的表示,如VoteNet、PointRCNN和PIXOR所使用的,它将地面真值框内的所有点都赋值为正。 对于这个实验,我们保持所有其他参数与我们的CenterPoint模型相同。
如表5所示,在Waymo数据集上,简单地从锚点转换到我们的中心,VoxelNet和PointPillars编码器分别得到4.3 mAPH和4.5 mAPH的改进。 在nuScenes上(表6),CenterPoint通过3.8-4.1 mAP和1.1-1.8 NDS在不同的骨干上改进了基于锚的对等对象。 与基于网格点的表示(3.2-3.3 mAP和1.4-2.0 NDS改进)相比,结果相似。 为了理解这种改进的来源,我们进一步展示了基于Waymo验证集上目标大小和方向角度的不同子集的性能分解。
我们首先根据它们的方向角度将地面真相实例分为三个箱子:0°到15°,15°到30°,和30°到45°。 该部门测试检测器检测严重旋转的箱体的性能,这对安全部署自动驾驶至关重要。 我们还将数据集分为三个部分:小、中、大,每个部分包含1/3的地面真值框。
表7和表8总结了结果。 当框旋转或偏离盒子的平均大小时,我们基于中心的检测器比基于锚的基线性能要好得多,这证明了模型在检测目标时捕获旋转和大小不变性的能力。 这些结果令人信服地突出了使用基于点的3D目标表示的优势。
一阶段和两阶段
在表9中,我们展示了在Waymo验证中使用2D CNN特征的单级和两级CenterPoint模型之间的比较。 具有多个中心特征的两级细化为两种3D编码器提供了很大的精度提升,开销较小(6ms-7ms)。 我们还与RoIAlign进行了比较,RoIAlign对RoI中的6 × 6点进行了密集采样,我们基于中心的特征聚合取得了类似的性能,但速度更快、更简单。 体素量化限制了两阶段CenterPoint对PointPillars行人检测的改进,因为行人在模型输入中通常只停留在1像素内。 在我们的实验中,两阶段细化并没有带来单阶段CenterPoint模型在nuScenes上的改进。 这部分是由于nuScenes中稀疏的点云。 nuScenes使用32道激光雷达,每帧产生约3万个激光雷达点,约为Waymo数据集点数的1/6。 这限制了可获得的信息和两阶段改进的潜力。 在PointRCNN和PV-RCNN两阶段方法中也观察到类似的结果。
不同特征组件的影响
在我们的两阶段CenterPoint模型中,我们只使用2D CNN特征图中的特征。 然而,以前的方法也提出利用体素特征进行第二阶段的精化。 在这里,我们比较两种体素特征提取基线:
Voxel-Set Abstraction
PV-RCNN提出了体素集抽象(VSA)模块,它扩展了Point-Net++的集合抽象层,以在一个固定半径球中聚合体素特征。
Radial basis function (RBF) Interpolation
Point-Net++和SA-SSD使用径向基函数从三个最近的非空3D特征体聚合网格点特征。
对于这两个基线,我们使用官方实现将鸟瞰功能与体素功能结合起来。 表10总结了结果。 这表明鸟瞰图特征足以提供良好的性能,同时与文献中使用的体素特征相比效率更高[19,39,42]。
为了与之前未对Waymo测试进行评估的工作进行比较,我们还在表11中报告了Waymo验证的结果。 我们的模型在很大程度上优于所有已发布的方法,特别是对于2级数据集具有挑战性的行人类(+18.6 mAPH),其中盒只包含一个激光雷达点。
3D跟踪
表12显示了基于nuScenes验证的三维跟踪消融实验。 我们与去年的挑战赛冠军Chiu et al.[10]进行了比较,后者使用基于马氏距离的卡尔曼滤波来关联CBGS检测结果[65]。 我们将评估分解为检测器和跟踪器,使比较严格。 对于相同的检测目标,使用简单的基于速度的最近点距离匹配比基于卡尔曼滤波的马氏距离匹配[10]的效果要好3.7 AMOTA(第1行vs. 3行,第2行vs. 4行)。 有两个改进的来源:1)我们用学到的点速度建模物体运动,而不是用卡尔曼滤波器建模三维包围盒动态; 2)我们通过中心点距离来匹配对象,而不是盒子状态的马氏距离或3D边界盒IoU。 更重要的是,我们的跟踪是一个简单的最近邻匹配,没有任何隐藏状态计算。 这节省了3D卡尔曼滤波器[10]的计算开销(73ms vs. 1ms)。
结论
提出了一种基于中心的基于激光雷达点云的三维目标检测与跟踪框架。 我们的方法使用标准的三维点云。 编码器与几个卷积层在头部产生鸟瞰图热图和其他密集的回归输出。 检测是一种简单的局部峰提取和精细化,跟踪是一种最接近距离的匹配。 CenterPoint简单,接近实时,在Waymo和nuScenes基准测试中实现了最先进的性能。