CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶

转载

SAP虾客 2021-05-19 12:57:11

来自自动驾驶公司轻舟智航和约翰霍普金斯大学的学者提出了一个自监督学习框架，可从未标注的激光雷达点云和配对的相机图像中进行点云运动估计，与现有的监督方法相比，该方法具有良好的性能，当进一步进行监督微调时，模型优于 SOTA 方法。

理解各种交通参与者的运动对于自动驾驶汽车在动态环境中安全运行至关重要。运动信息对于各种车载模块非常关键，涉及检测、跟踪、预测、规划等多个任务。自动驾驶汽车通常配有多个传感器，其中最常用的是激光雷达（LiDAR）。因此，如何从点云中表征和提取运动信息是自动驾驶研究中一个基础的问题。

总体来看，这一研究方向存在如下挑战：

存在多个交通参与者的类别，每个类别都表现出特定的运动行为；

点云的稀疏性导致两次 LiDAR 扫描之间缺乏精确的对应关系；

计算过程需要满足严格的时间限制和有限的车载计算。

传统的自动驾驶系统通常通过识别场景中其它交通参与者，并根据所观测的历史信息来预测交通场景会如何变化，从而实现运动信息估计。但是，大多数识别模型都是为检测若干已知类别的物体而训练的。对于实际情况而言，这种封闭式场景（closed-set）显然不足以让模型识别那些在训练数据中未出现的物体类别。

物体运动信息作为一种与语义信息相比层次较低的信息，应该在开放环境（open-set）中被估计，而与物体是否属于已知类别无关。一种预测类别无关（class-agnostic）运动的方法是通过估计每个点的 3D 运动从点云中估计场景流（scene flow），但是这种密集运动场的预测目前在计算上还无法高效处理一次完整的 LiDAR 扫描，从而无法在需要实时大规模点云处理的自动驾驶中进行实际应用。

表征并估计点云运动信息的另一种方式是基于 BEV（bird’s eye view）的方式。在这种方式中，点云被离散化为网格单元，每个网格单元被称为体柱，点云的运动信息可以通过所有体柱的位移向量来描述，该位移向量描述了每个体柱在地面上的移动大小和方向。这种表征方法成功简化了场景运动，因为地面上物体的运动是自动驾驶中主要考虑的因素，而垂直方向上的运动则没有那么重要。

此外，以这种形式表征点云非常有效。因为所有的关键操作都可以通过 2D 卷积进行，而 2D 卷积在 GPU 上的计算速度非常快。最近的一些研究表明：这种表征可以很容易地推广到类别无关的点云运动估计中。但是，这需要依靠大量带有标注的点云数据，例如将目标检测和跟踪作为间接的运动监督信息，但是点云数据的标注成本高昂。

另外统计发现，一辆自动驾驶汽车每天会产生超过 1TB 的数据，但仅有不到 5% 的数据被最终利用。因此，为了充分利用海量未标注的数据，在没有手工标注的数据上进行学习就显得尤为重要。虽然近年来人们对语言和视觉方面自监督学习的关注越来越大，但点云方面的自监督学习仍然相对比较落后。这一现状激发了轻舟智航和约翰霍普金斯大学学者的研究兴趣。

论文链接：
https://arxiv.org/pdf/2104.08683.pdf

在这篇论文中，来自轻舟智航、约翰霍普金斯大学的研究者提出了一个自监督学习框架，利用激光雷达和相机的自监督学习进行点云运动估计。

用于自动驾驶的自监督「点云运动学习」

如图 1 所示，为了充分利用 BEV 中运动表征的优点，该研究将点云组织成体柱（pillar），并将与每个体柱相关的速度称为体柱运动（pillar motion）。该研究引入了一种基于点云的自监督学习方法，假设连续两次扫描之间的体柱或物体的结构形状是不变的。

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶_人工智能

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶_人工智能_02

图 1：该研究提出的自监督柱运动学习概览。

然而，这在大多数情况下是不成立的，因为 LiDAR 的稀疏扫描，连续两个点云之间缺乏精确的点与点的对应。该研究的解决方案是利用从相机图像中提取的光流来提供跨传感器的自监督和正则化。如图 2 所示，这种设计形成了一个统一的学习框架，包括 LiDAR 和配对相机之间的交互：(1)点云有助于将自车运动（ego-motion）导致的图像运动从光流中分解出来；(2)光流为点云中的体柱运动学习提供了辅助正则化；(3)反投影（back-projected）光流形成的概率运动掩膜（probabilistic motion masking）提升了点云结构的一致性。

注意，与相机相关的模块仅用于训练，在推理阶段不会被使用，因此，在运行时不会对相机相关的模块引入额外的计算。

据了解，这项工作是首个能够在完全自监督框架下进行点云体住运动预测的学习范式。该研究提出了新的自监督以及跨传感器（cross-sensory）监督信号，通过紧密整合 LiDAR 点云和配对相机图像来实现所需的自监督。实验表明，与现有的监督方法相比，该方法具有良好的性能。

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶_人工智能_03

图 2：用于点云体柱运动估计的自监督学习框架。

如图 2 所示，该研究提出的运动学习方法将点云的结构一致性自监督与跨传感器的运动正则化紧密耦合。正则化包括从光流中分解出自我运动，并在传感器之间执行运动一致性（motion agreement）。该研究还引入了一种基于反投影（back-projected）光流的概率运动掩膜（probabilistic motion masking）来增强点云的结构相似性匹配。

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶_人工智能_04

图 3：概率运动掩膜说明，左：投影点在前向相机图像上的光流（已将自我运动分解）。右：点云的一部分，颜色表示非空体柱的静态概率。

实验

研究人员首先进行了各种组合实验，以评估设计中每个单独组件的贡献。如表 1 所示：

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶_人工智能_05

表 1：每个单独组件的贡献，结果包括均值和中位误差。

该研究将所提方法与表 3 中的各种监督算法进行了比较。实验首先将提出的自监督模型与 FlowNet3D 、 HPLFlowNet 进行了比较，这些模型都在 FlyingThings3D 以及 KITTI Scene Flow 进行了预训练。在表 3 中，该研究提出的模型在很大程度上优于这两种有监督的预训练模型。

值得注意的是，该研究提出的自监督模型甚至优于或接近一些在基准数据集上全监督训练的方法，如 FlowNet3D、HPLFlowNet、PointRCNN。实验结果表明该研究提出的自监督设计的优越性，以及自监督训练在目标领域的重要性。

当使用真值标签进一步微调该研究提出的自监督模型时，该模型实现 SOTA 性能。如表 3 所示，对于快速运动的目标，微调模型明显优于 MotionNet。这表明，该研究提出的自监督模型为有效的监督训练提供了更好的基础，并且自监督学习的增益不会随着复杂的监督训练而减少。

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶_人工智能_06

表 3：与 SOTA 结果对比。实验分为三个速度组，表中记录了平均误差和中位误差。

最后，实验展示了利用不同的自监督组合进行体柱运动估计的定性结果。如图 5 所示，这些示例呈现了不同的交通场景。与该研究的完整模型相比，仅使用结构一致性损失的基本模型倾向于在背景区域（第 1 列和第 5 列）和静态前景目标（第 2 列和第 3 列）中生成假阳性运动预测。与基本模型相比，完整模型还能够在移动目标上产生更平滑的体柱运动（第 5 列和第 6 列）。此外，如第 4 列所示，基本模型中缺少场景右上角的移动卡车，但可以通过完整模型进行合理的估计。这再次验证了从相机图像中提取的运动信息的有效性。

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶_人工智能_07

图 5：点云体柱运动预测对比。第一行显示真值运动场，第二行显示的是该研究全模型的评估结果，而只使用结构一致性的基础模型的预测结果在第三行。每一列都演示了一个场景。

本篇论文中的一作和二作都是来自轻舟智航的学者。轻舟智航是一家近期备受关注的自动驾驶公司，作为一支始创于硅谷的全华人团队，轻舟智航不仅是国内唯一一家 Waymo 系的自动驾驶公司，还是国内首个启动 5G 无人公交常态化运营的公司。

目前，轻舟智航在苏州、深圳、武汉、北京等地都部署有无人小巴，供普通市民通勤及体验。之所以能在不到两年就面向公众开放体验，跟其核心团队的构成息息相关。这支团队的创始团队都是硅谷的自动驾驶老兵，清一色都是技术大拿及海归博士。其他核心团队成员则是来自特斯拉、Uber ATG、福特、英伟达、Facebook 等等。

本篇论文的作者：

罗晨旭实习于轻舟智航，是约翰霍普金斯大学（Johns Hopkins University）计算机科学系的博士研究生；杨晓东目前担任轻舟智航 Principal Scientist and Director of Research，曾任英伟达（NVIDIA Research）高级科学家；Alan Yuille 是约翰霍普金斯大学计算机科学系的 Bloomberg Distinguished Professor。