#今日论文推荐#ECCV 2022 | 通往数据高效的Transformer目标检测器

本文介绍一下我们中稿今年 ECCV 的一项工作。对目标检测模型所需要的数据进行标注往往是十分繁重的工作,因为它要求对图像中可能存在的多个物体的位置和类别进行标注。本文旨在减少 Detection Transformer 类目标检测器对标注数据的依赖程度,提升其数据效率。

Detection Transformer 的开山之作是 DETR [1],在常用的目标检测数据集 COCO [2] 上,DETR 取得了比 Faster RCNN [3] 更好的性能,但其收敛速度显著慢于基于 CNN 的检测器。为此,后续的工作大多致力于提升 DETR 的收敛性 [4,5,6,7]。在 COCO 数据集上这些后续方法能够在训练代价相当的情况下取得比 Faster RCNN 更好的性能,表现出了 Detection Transformers 的优越性。

目前的研究似乎表明 Detection Transformers 能够在性能、简洁性和通用性等方面全面超越基于 CNN 的目标检测器。但我们研究发现,只有在 COCO 这样训练数据丰富(约 118k 训练图像)的数据集上 Detection Transformers 能够表现出性能上的优越,而当训练数据量较小时,大多数 Detection Transformers 的性能下降显著。
如图 1 所示,在常用的自动驾驶数据集 Cityscapes [8](约 3k 训练图像)上,尽管 Faster RCNN 能够稳定的取得优良的性能,大多数 Detection Transformers 的性能显著下降。并且尽管不同 Detection Transformers 在 COCO 数据集上性能差异不到 2AP,它们在小数据集 Cityscapes 上的性能有大于 15AP 的显著差异。
这些发现表明 Detection Transformers 相比于基于 CNN 的目标检测器更加依赖标注数据(data hungry)。然而标注数据的获得并非易事,尤其是对于目标检测任务而言,不仅需要标出多个物体的类别标签,还需要准备的标出物体的定位框。同时,训练数据量大,意味着训练迭代次数多,因此训练 Detection Transformers 需要消耗更多的算力,增加了碳排放。可见,要满足现有 Detection Transformers 的训练要求需要耗费大量的人力物力。

论文题目:Towards Data-Efficient Detection Transformers 详细解读:https://www.aminer.cn/research_report/62e885f77cb68b460ff99b4dhttps://www.aminer.cn/research_report/62e885f77cb68b460ff99b4d AMiner链接:https://www.aminer.cn/?f=cs