transformer目标检测 sota transformer目标检测前景

转载

mob64ca13fb1f2e 2024-05-20 19:12:16

文章标签 深度学习计算机视觉人工智能目标检测数据集 文章分类 计算机视觉人工智能

#今日论文推荐#ECCV 2022 | 通往数据高效的Transformer目标检测器

本文介绍一下我们中稿今年 ECCV 的一项工作。对目标检测模型所需要的数据进行标注往往是十分繁重的工作，因为它要求对图像中可能存在的多个物体的位置和类别进行标注。本文旨在减少 Detection Transformer 类目标检测器对标注数据的依赖程度，提升其数据效率。

Detection Transformer 的开山之作是 DETR [1]，在常用的目标检测数据集 COCO [2] 上，DETR 取得了比 Faster RCNN [3] 更好的性能，但其收敛速度显著慢于基于 CNN 的检测器。为此，后续的工作大多致力于提升 DETR 的收敛性 [4,5,6,7]。在 COCO 数据集上这些后续方法能够在训练代价相当的情况下取得比 Faster RCNN 更好的性能，表现出了 Detection Transformers 的优越性。

目前的研究似乎表明 Detection Transformers 能够在性能、简洁性和通用性等方面全面超越基于 CNN 的目标检测器。但我们研究发现，只有在 COCO 这样训练数据丰富（约 118k 训练图像）的数据集上 Detection Transformers 能够表现出性能上的优越，而当训练数据量较小时，大多数 Detection Transformers 的性能下降显著。
如图 1 所示，在常用的自动驾驶数据集 Cityscapes [8]（约 3k 训练图像）上，尽管 Faster RCNN 能够稳定的取得优良的性能，大多数 Detection Transformers 的性能显著下降。并且尽管不同 Detection Transformers 在 COCO 数据集上性能差异不到 2AP，它们在小数据集 Cityscapes 上的性能有大于 15AP 的显著差异。
这些发现表明 Detection Transformers 相比于基于 CNN 的目标检测器更加依赖标注数据（data hungry）。然而标注数据的获得并非易事，尤其是对于目标检测任务而言，不仅需要标出多个物体的类别标签，还需要准备的标出物体的定位框。同时，训练数据量大，意味着训练迭代次数多，因此训练 Detection Transformers 需要消耗更多的算力，增加了碳排放。可见，要满足现有 Detection Transformers 的训练要求需要耗费大量的人力物力。

论文题目：Towards Data-Efficient Detection Transformers 详细解读：https://www.aminer.cn/research_report/62e885f77cb68b460ff99b4dhttps://www.aminer.cn/research_report/62e885f77cb68b460ff99b4d AMiner链接：https://www.aminer.cn/?f=cs

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。