现代 detection transformers (DETR) 使用一组目标查询(object queries)来预测边界框列表,按分类置信度分数对它们进行排序,并选择top-ranked 预测作为给定输入图像的最终检测结果。高性能的目标检测器需要对边界框预测进行准确的 rank。对于基于 DETR 的检测器,由于分类分数和定位精度之间的不匹配,top-ranked 边界框的定位质量不太准确,从而阻碍了高质量检测器的构建。在这项工作中,本文通过提出一系列 rank-oriented 的设计(统称为 Rank-DETR),介绍了一种简单且高性能的基于 DETR 的目标检测器。本文的主要贡献包括:(i)rank-oriented 架构设计,可以促进正预测并抑制负预测,以确保较低的误报率,以及(ii)rank-oriented 损失函数和匹配成本设计,在 ranking 期间优先预测更准确的定位精度,以提高高 IoU 阈值下的 AP。本文应用该方法来改进最近的 SOTA 方法(例如 H-DETR 和 DINO-DETR),并报告了在使用 ResNet-50、Swin-T 和 Swin-L 等不同 backbones 时强大的 COCO 目标检测结果,证明本文方法的有效性。
标题:Rank-DETR for High Quality Object Detection
用于高质量目标检测
论文链接:https://arxiv.org/pdf/2310.08854.pdf
代码链接:https://github.com/LeapLabTHU/Rank-DETR
作者单位:清华大学 北京大学 剑桥大学 微软亚洲研究院
网络设计:
本研究的主要重点是使用 DETR 构建高质量的目标检测器,该检测器在相对较高的 IoU 阈值下表现出强大的性能。本文认为在构建这些检测器时为边界框预测建立准确的 ranking order 至关重要。为了实现这一目标,本文引入了两种 rank-oriented 设计,可以有效地利用精确 ranking information 的优势。首先,本文在每个 Transformer 解码层之后提出一个 rank-adaptive classification head 和一个 query rank layer。rank-adaptive classification head使用 rank-aware 可学习 logit 偏差向量调整分类分数,而 query rank layer 将额外的 ranking embeddings 融合到目标查询(object queries)中。其次,本文提出了两种 rank-oriented 优化技术:损失函数修改和匹配成本设计。这些函数促进了模型的 ranking procedure,并优先考虑与真实情况相比具有更高 IoU 分数的更准确的边界框预测。总之,本文的 rank-oriented 设计持续增强了目标检测性能,特别是高 IoU 阈值下的 AP 分数。
图 1:说明 rank-oriented 架构设计。(a) rank-oriented 架构由最后 L − 1 Transformer 解码器层之前的 query rank layer和每个 Transformer 解码层之后的 rank-adaptive classification head 组成。(b) rank-adaptive classification head 学习相应地调整分类分数。(c) query rank layer 利用最新的 ranking information 来重新创建用作以下 Transformer 解码器层的输入的内容查询(content queries)和位置查询(position queries)。
图 2:rank-oriented 匹配成本和损失设计的可视化。(a) 原始 DETR 及其变体使用分类头和边界框回归头来执行预测。匹配成本函数是分类分数和边界框重叠分数的线性组合。(b) rank-oriented 匹配成本和损失方案使用 GIoU 感知的分类头和高阶匹配成本函数来优先考虑更准确的定位精度的预测。
实验结果: