1、摘要
近年来,将检测和ReID统一到一个网络之中来完成多目标跟踪的方法取得了巨大的突破,且引起了研究人员的广泛关注。然而当前的一体化跟踪器仅依赖于单帧图片进行目标检测,在遇到一些现实场景的干扰,如运动模糊、目标相互遮挡时,往往容易失效。一旦检测方法因为特征的不可靠而将当前帧的目标错判成背景时,难免会破坏目标所对应的轨迹的连贯性。在本文中,我们提出了一个再查询网络来召回被错分为“假背景”的目标框。该再查询网络创新性的将ID向量的功能从匹配扩展到运动预测,从而实现以较小的计算开销将已有目标的轨迹有效地传播到当前帧。而通过ID向量为媒介进行时序信息传播,所生成的迁移信息有效地防止了模型过度依赖于检测结果。因此,再查询网络有助于一体化方法召回“假背景”同时修复破碎的轨迹。基于已有的一体化方法CSTrack,本文构建了一个新颖且高性能的一体化跟踪器,其在MOT16和MOT17两个基准上分别取得了巨大的增益,即相比于CSTrack,MOTA分数从70.7/70.6提高到76.4/76.3。此外,它还取得了新SOTA的MOTA和IDF1性能。
🔺该方法用一种简单的方式将SOT中的时序挖掘能力也应用到JDE类型的一体化模型中,缓解了过度依赖检测结果而带来的轨迹断裂的问题。
2、方法
本文方法扩展了原来用于匹配的embedding的功能,使其不仅仅用于数据关联,也可以用于先前目标的传播。具体来说,我们设计了一种re-check模块,通过SOT中的cross correlation操作实现目标的传播,并通过限制目标的位置方便后续目标的传播可靠性。此外,考虑到了多目标跟踪场景目标会随时离开场景,本模块中引入当前帧特征进行微调,以去除离开目标所引发的假阳性。该方法通过一次向前传播低代价地实现实例目标传播。
二、《Joint 3D Object Detection and Tracking Using Spatio-Temporal Representation of Camera Image and LiDAR Point Clouds》
作者: Junho Koh, Jaekyum Kim, Jin Hyeok Yoo, Yecheol Kim, Dongsuk Kum, Jun Won Choi
Hanyang University
论文链接:https://arxiv.org/pdf/2112.07116.pdf
1、摘要
本文提出了一种基于摄像机和激光雷达传感器的三维目标检测与跟踪的联合目标检测与跟踪(JoDT)框架。所提出的方法称为三维检测跟踪,使探测器和跟踪器协同生成摄像机和激光雷达数据的时空表示,然后进行三维目标检测和跟踪。该探测器通过对摄像机和激光雷达融合获得的空间特征的加权时间聚合来构建时空特征。然后,检测器使用保持到前一个时间步长的轨迹信息来重新配置初始检测结果。基于检测器生成的时空特征,跟踪器使用图神经网络(GNN)将检测到的对象与之前跟踪的对象关联起来。我们设计了一个完全连接的GNN,通过结合基于规则的边缘剪枝和基于注意力的边缘门控,利用空间和时间的对象上下文来提高跟踪性能。在KITTI和nuScenes基准上进行的实验表明,与基线方法相比,所提出的三维检测跟踪在检测和跟踪性能方面都取得了显著的改进,并通过检测器和跟踪器之间的协作,在现有方法中实现了最先进的性能。
2、方法
本文在结构上涉及的模块很多,设计细节可以去阅读原文。处理的流程如下:首先,照相机和激光雷达的特征通过SFANet进行聚合,并做特征融合。紧接着,Trk-RPN和Trk-RefNet使用从跟踪器中提取的轨迹与融合特征一起处理,预测和细化获得3D检测结果。通过检测框在特征图上ROI获得匹配向量,与先前帧之间构建两两匹配关系。SG-GNN利用对象之间的时空关系来进行对象关联。最后,根据SG-GNN的输出结果,计算出亲和度矩阵。该网络结构是以端到端方式进行训练的。