Transformer 3d目标检测 kitti 3d视频目标检测

转载

mob64ca141834d3 2024-06-12 12:54:35

文章标签 算法编程语言 python 计算机视觉机器学习 文章分类 计算机视觉人工智能

本文提出仅从单目视频以端到端的方式联合训练3D检测和3D跟踪。关键组件是一个时空信息流模块，该模块聚合几何和外观特征，预测当前和过去帧中所有对象的鲁棒相似性分数。此外，还提出了时间一致性损失，该损失限制了三维世界坐标系中对象的时间拓扑，以使轨迹更加平滑。
Time 3D在nuScenes 3D跟踪基准上达到21.4%的AMOTA，13.6%的AMOTP，超过所有已发布的竞争对手，运行速度为38 FPS，而Time 3D在nuScenes 3D检测基准上达到31.2%的mAP，39.4%的NDS。

Transformer 3d目标检测 kitti 3d视频目标检测_python

论文：Time 3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving

论文：http://arxiv.org/pdf/2205.14882

代码：未公开

背景

三维目标检测是自动驾驶的一项重要任务。与激光雷达系统相比，单目摄像头价格便宜、稳定、灵活，深受批量生产汽车的青睐。然而，由于缺乏深度信息，单目3D目标检测是一个自然的不适定问题，因此很难估计3D目标的准确和稳定状态。典型的解决方案是通过2D多对象跟踪器（MOT）平滑先前和当前的状态。

目前，大多数模型仍然是人为设计的，因此相应的跟踪器只能独立跟踪探测器。

而这些方法在自动驾驶场景中存在三个缺点：

1）分别处理检测和关联，其中独立的跟踪模块切断了不确定性从3D探测器到跟踪的传输，而不能将误差差分传递回3D探测器。

2）来自同一类别的对象通常具有相似的外观信息，并且在自动驾驶场景中经常发生遮挡和不同的速度变化。未能将这些异构线索整合到一个统一的网络中。

3）不直接约束网络中外观和几何信息流的情况下估计轨迹，这对于轨迹平滑度、速度估计和运动属性（例如停车、移动或停车）至关重要。

因此，作者提出了将3D单目目标检测和3D MOT结合到一个具有端到端训练方式的统一架构中，该架构可以：

（1）仅从单目图像预测2D框、3D框、Re-ID特征，而无需任何额外的合成数据、CAD模型、实例掩码或深度图。

（2）对这些线索的兼容特征表示进行编码。

（3）学习差异关联，通过跨时间同时组合异质线索来生成轨迹。

（4）引导流经所有对象的信息，以生成具有时间一致性的目标状态。

为了为不同线索设计兼容的特征表示，作者提出将2D框和3D框的不同大小的参数转换为统一表示、2D角点和3D角点，其中几何信息可以通过广泛使用的PointNet结构从角点原始坐标中提取为高维特征。图1显示了Time 3D的pipeline。

Transformer 3d目标检测 kitti 3d视频目标检测_编程语言_02

图1 Time 3D的示意图

本文的主要贡献：

（1）提出了一个统一的框架，通过端到端的方式组合不同线索，共同学习3D对象检测和3D多对象跟踪。

（2）提出了一种嵌入提取器，通过将二维和三维长方体转换为统一表示，使几何和外观信息兼容。

（3）提出了一种时间一致性损失，通过约束时间拓扑使轨迹更加平滑。

（4）在nuScenes 3D跟踪基准测试中的实验表明，该方法在实时（26FPS）运行时，与其他竞争对手相比，取得了最佳的跟踪精度。

方法

Time 3D仅将单目视频图像作为输入，包括以下步骤：

1）在JDE模式下，设计了一种快速准确的单目3D目标检测器，用于获取每帧的2D框、3D框、类别和Re-ID嵌入。

2）一个异构线索嵌入模块，将外观和几何特征编码为兼容的特征表示

3）一个时空信息流模块，将所有对象的信息跨帧相互传播，估计相似度以生成三维轨迹，并聚合世界坐标系中的几何相对关系以估计速度、属性和框平滑度优化。

图2 展示了Time 3D的整个架构细节。

Transformer 3d目标检测 kitti 3d视频目标检测_编程语言_03

图2 Time 3D的架构细节

1. 单目三维目标检测

采用KM3D作为单目3D检测器，该检测器根据可微几何推理模块（GRM）进行位置估计，预测尺寸、方向和九个透视角。FairMOT之后，添加了一个与其他检测头平行的Re-ID头，其重点是生成不同对象的区分特征。与其他头部实现相同的卷积层，但输出256维向量以在每个对象的2D中心提取Re-ID特征。

2. 异构线索嵌入

理想的数据关联可以在很长一段时间内进行多个线索（例如外观和几何）的嵌入。但是，外观特征（Re-ID特征）在向量空间中，几何特征（例如位置、尺寸和方向）在欧几里德空间中，使得它们很难在统一的网络中组合。因此，在本文中，作者对外观、几何和运动信息的兼容表示进行了编码。

对于图像中的每个2D框和3D框，首先将其参数转换为2D角点和3D角点。这些角点被展平，然后输入到轻量级的PointNet中，该网络仅由3层MLP和MaxPooling组成，以生成具有d维特征的几何特征。

除了在外观特征中重新标识外，作者还添加了类别线索，可以进一步用于约束同一对象在不同帧之间的相似性。

3. 时空信息流

将transformer体系结构扩展到时空信息，其中的自我注意力机制在某个时间传播对象信息，交叉关注跨时间聚合对象信息。空间信息流的结构如图2底部所示。

首先从3D探测器的主中心头提取图像中的中心点，并索引其相应的外观特征和几何特征，然后与MLP层连接以生成其输入嵌入。空间信息流可以概括为：

Transformer 3d目标检测 kitti 3d视频目标检测_编程语言_04

空间信息流模块过程严格遵循对传播信息的自我注意力机制，并对空间拓扑进行编码。

时间信息流模块从成对的帧中聚合信息和在residual下使用多头交叉注意力机制。时间流模块的结构如图2顶部所示。在交叉注意力机制中，点积权重探索了不同帧中成对检测对象之间的关系。它表示由softmax归一化的0-1的概率一致性，其中0定义为不同的对象，1是相同的对象。这种概率可以用作直接跟踪的相似性分数。

为了防止ID转换，作者将Time 3D设计为半全局关联，因此还需要捕获时间信息。

考虑到图像对中的对象可能没有对应关系，作者在DAN之后学习了未识别目标的额外行和列。简单地将FFN添加到交叉注意力机制的权重中，并估计适应性矩阵Γ，将其训练为单峰适应性矩阵进行一对一匹配，如图3所示。

Transformer 3d目标检测 kitti 3d视频目标检测_python_05

图3 单峰适应性矩阵

时间信息流分支可以生成跟踪信息，并指导外观和几何信息的时间聚合。然后，时间聚合模块对目标的时间过渡进行建模，以预测框平滑度细化和时间相关变量（例如速度、运动属性）。因此，时间信息流的机制可以总结为：

Transformer 3d目标检测 kitti 3d视频目标检测_计算机视觉_06

4. 训练损失

作者将多任务损失分为三部分：单目目标3D检测损失LMono3D、跟踪损失Ltracking和时间一致性损失LCons。

1) 单目目标3D检测损失LMono3D

Transformer 3d目标检测 kitti 3d视频目标检测_机器学习_07

2) 跟踪损失Ltracking

Transformer 3d目标检测 kitti 3d视频目标检测_计算机视觉_08

3) 时间一致性损失LCons

Transformer 3d目标检测 kitti 3d视频目标检测_编程语言_09

5. 跟踪推断

如图4所示。作者首先在每次tamp时按顺序执行3D对象检测、异构线索提取和空间信息流。然后，存储空间特征及其时间戳。给定当前帧图像及其空间特征，通过向前传递时间信息流来计算适应性矩阵。为了减少ID切换，作者按照DAN计算当前帧中对象的适应性矩阵和存储在所有轨迹中的空间特征，并将它们相加为对象和轨迹之间的相似性分数。最后，采用Hungarian算法获得最优分配。在逐帧运行分配过程时，生成对象轨迹。因此，每个帧图像只通过一次高权重的3D检测、嵌入提取器和空间信息网络，而存储的空间特征通过轻量级的时间信息流被多次使用以计算相似度得分。因此，Time 3D可以实时运行。

Transformer 3d目标检测 kitti 3d视频目标检测_python_10

图4：跟踪推断

实验

表1 3D跟踪和3D物体检测性能测试集

Transformer 3d目标检测 kitti 3d视频目标检测_计算机视觉_11

图5 Time 3D的定性结果

Transformer 3d目标检测 kitti 3d视频目标检测_计算机视觉_12

表2 不同线索的消融实验在nucenes val的性能

Transformer 3d目标检测 kitti 3d视频目标检测_计算机视觉_13

表3 带或不带Re-ID功能的消融实验在nucenes val上的性能

Transformer 3d目标检测 kitti 3d视频目标检测_算法_14

表4：时空信息流的消融实验

Transformer 3d目标检测 kitti 3d视频目标检测_算法_15

图6 用于说明时间一致性损失的示例

Transformer 3d目标检测 kitti 3d视频目标检测_算法_16

结论

本文提出了一种新的框架，在实时运行的情况下，仅从单目视频中联合学习三维目标检测和三维多目标跟踪。作者的框架将异构线索（包括类别、2D框、3D框和Re-ID特征）编码为兼容嵌入。基于transformer的体系结构将时空信息流传递到估计轨迹，并通过时间一致性损失进行优化，使其更加平滑。在nuScenes数据集上，所提出的Time 3D在实时运行的同时实现了最先进的跟踪性能。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。