本文提出了一种名为DETR-GA的方法,用于跨域弱监督目标检测。该方法使用 DETR 架构,为编码器添加了多个类查询和为解码器添加了前台查询,以将语义聚合到图像级预测中。实验表明,在四个流行的跨域基准测试中,DETR-GA 的性能优于最先进的方法。

原文链接:https://arxiv.org/abs/2304.07082

DETR-GA_跨域

cross-domain问题是实际应用中object detection的关键挑战。具体来说,训练数据和测试数据之间通常存在domain的gap。当在source域上训练的检测器直接部署在新的target域上时,这种域差距会显着影响检测精度。为了解决这种gap,现有的领域适应方法可以分为有监督、无监督  和弱监督方法。在这三种方法中,弱监督方法是一个值得关注的方向,因为它只需要图像级别的注释,并且在适应效果和注释成本之间取得了很好的权衡。因此,本文关注的任务是cross-domain weakly supervised object detection(CDWSOD),旨在通过弱监督使检测器从源域适应目标域。

作者认为 DETR 风格的detection具有解决 CDWSOD 的巨大潜力。与目前由纯卷积神经网络检测器(“CNN 检测器”)主导的 CDSOD 方法相比,本文是第一个探索用于 CDWSOD 的 DETR 式检测器的论文。作者对 DETR 的乐观态度并不是因为它在通用对象检测中的流行或竞争结果。 作者们凭经验发现 DETR 风格的检测器在直接进行跨域部署方面几乎没有取得任何优于 CNN 检测器的优势。相反,本文的动机是基于洞察力,即 DETR 式检测器具有结合强监督和弱监督的优势,这对于 CDWSOD 至关重要。

CDWSOD 需要较弱的监督和图像级预测能力,这可以由 DETR 的注意力机制和远程建模能力,所以其中的编码器和解码器恰恰可以满足这些要求。为了充分利用 CDWSOD 中的弱监督信息,本文提出了DETR with additional Global Aggregation (DETR-GA)。DETR-GA 将基于注意力的全局聚合添加到 DETR 中,以便进行图像级预测,同时保留原始实例级预测。基本上,DETR 在解码器中使用多个对象查询来探测局部区域并给出实例级预测。在DETR的基础上,DETR-GA做了两个简单而重要的改变:对于编码器/解码器,它分别增加了多个类query/一个foreground的query来聚合整个图像的语义信息。总体而言,DETR-GA 利用对编码器和解码器的弱监督将检测能力从源域转移到目标域。实验结果表明,DETR-GA 大大提高了跨域检测精度。

DETR-GA_编码器_02

Overview

首先来定义一下任务:与弱监督对象检测中仅利用目标域的弱监督不同,CDWSOD 旨在通过弱监督使检测器从源域适应目标域。在源域中,每个图像都有带有对象类和边界框的实例级注释,而在目标域中,每个图像只有多类标签,指示存在哪些类。

对于DETR,它是Facebook提出的基于Transformer的端到端目标检测网络,发表于ECCV2020。它是一种新型的物体检测算法,采用了Transformer网络结构,将物体检测问题转化为一个集合预测问题,通过全局损失函数来实现端到端的训练和推理。DETR通过消除传统物体检测算法中的anchor、NMS等复杂设计,实现了简单高效的物体检测。

对于DETR-GA的整体结构 如上图所示,DETR-GA 将源图像和目标图像的混合作为其输入。为了充分利用弱监督,DETR-GA 在编码器和解码器中为原始检测器补充了图像级预测。鉴于编码器和解码器的图像级预测能力,DETR-GA 有助于在源域和目标域上进行联合训练。编码器通过弱监督在源域和目标域中对齐类语义。之后,解码器通过混合监督(即对源的强监督和对目标的弱监督)进一步将对象检测能力从源传递到目标。

DETR-GA_跨域_03

Encoder with Class Queries

在提出的方法中,编码器使用class query将语义聚合为图像级预测。class query被添加到encoder中,每个查询对应于一个特定的类。在训练过程中,监督较弱的课堂查询能够大致定位相应的位置,排除来自非相关区域的干扰。编码器使用二进制分类器来预测第 i 个类别的存在。在推理期间,编码器不需要图像级预测,无需额外计算成本即可恢复标准的 DETR pipeline。

DETR-GA_人工智能_04

Decoder with Foreground and Object Queries

自注意力更新公式如下:

DETR-GA_人工智能_05

DETR-GA_编码器_06

在 DETR-GA 的编码器和解码器中使用基于query的聚合进行弱监督对象检测的关键优势在于,它可以促进图像级预测的全局聚合。解码器中的对象查询和前台查询在类语义上达成共识,使得强监督和弱监督在域对齐方面互惠互利。编码器中的弱监督类查询能够大致定位相应的位置,排除来自非相关区域的干扰。

实验

DETR-GA_编码器_07

该论文使用了四个数据集进行方法评估,其中包括PASCAL VOC、Claript、Calicarous和Comic。PASCAL VOC 数据集用作带有实例级注释的源域,而其他三个艺术绘画数据集则用作带有图像级注释的目标域。VOC 0712 的分裂被用作源域训练数据,它提供了大约 16.5 万个 20 个物体类别的真实世界图像。剪贴画数据集有列车分割和测试分割,两者都包含 20 个对象类别的 500 张图像。

所提出的方法 DETR-GA 显著提高了跨域检测精度并推进了最先进的技术。该方法在PASCAL VOC与Claript all数据集上的mAp提高了29.0%至79.4%。该方法在剪贴画、水彩和漫画数据集上的表现也优于最先进的方法。结果证明了所提出的跨域弱监督目标检测方法的有效性。

DETR-GA_数据集_08

可以发现本文提出的每一个组件也都是有用的,都带来了性能上的增益。而原始的DETR从某种程度上来说,虽然有优秀的结构,但似乎不太适合进行跨域检测。这个消融实验向我们证明了论文提出方法的有效性。 

DETR-GA_跨域_09

从前景和后景图的attention map也可以发现本文提出方法的作用。

讨论

本文有一些局限性,包括:

  • 所提出的方法仅限于跨域场景,在其他设置中可能表现不佳。
  • 该方法依赖于弱监督,监督可能并不总是可用的,或者可能无法提供足够的信息来进行准确检测。 
  • 所提出的方法可能不适用于检测小型物体或形状复杂的物体。
  • 实验是在有限数量的数据集上进行的,并且尚未充分探讨将所提出的方法推广到其他数据集的问题。
  • 所提出的方法可能需要大量的计算资源,可能不适合实时应用。

本文提出了一些未来可以做的工作来改进所提出的方法。这些包括:

  • 探索在 CDWSOD 中使用其他基于注意力的模型。
  • 研究不同类型的弱监督方法对所提方法的影响。
  • 探索使用其他类型的查询进行全局聚合。
  • 研究将其他类型的域适应技术与提出方法相结合的使用情况。
  • 探索将所提出的方法用于其他计算机视觉任务,例如语义分割和实例分割。

结论

本文提出了一种名为DETR-GA的方法,用于跨域弱监督目标检测(CDWSOD)。该方法使用 DETR 架构,为编码器添加了多个类查询和为解码器添加了前台查询,以将语义聚合到图像级预测中。编码器中的类查询有助于聚合与类对应的全局语义,而解码器中的前台查询与对象查询相关联,从而将强监督和弱监督相结合,有利于域对齐。实验表明,在四个流行的跨域基准测试中,DETR-GA 的性能优于最先进的方法。