DETR-GA

原创

qq6669490e54384 2024-08-07 14:53:32 博主文章分类：人工智能 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

本文提出了一种名为DETR-GA的方法，用于跨域弱监督目标检测。该方法使用 DETR 架构，为编码器添加了多个类查询和为解码器添加了前台查询，以将语义聚合到图像级预测中。实验表明，在四个流行的跨域基准测试中，DETR-GA 的性能优于最先进的方法。

原文链接：https://arxiv.org/abs/2304.07082

DETR-GA_编码器

cross-domain问题是实际应用中object detection的关键挑战。具体来说，训练数据和测试数据之间通常存在domain的gap。当在source域上训练的检测器直接部署在新的target域上时，这种域差距会显着影响检测精度。为了解决这种gap，现有的领域适应方法可以分为有监督、无监督和弱监督方法。在这三种方法中，弱监督方法是一个值得关注的方向，因为它只需要图像级别的注释，并且在适应效果和注释成本之间取得了很好的权衡。因此，本文关注的任务是cross-domain weakly supervised object detection（CDWSOD），旨在通过弱监督使检测器从源域适应目标域。

作者认为 DETR 风格的detection具有解决 CDWSOD 的巨大潜力。与目前由纯卷积神经网络检测器（“CNN 检测器”）主导的 CDSOD 方法相比，本文是第一个探索用于 CDWSOD 的 DETR 式检测器的论文。作者对 DETR 的乐观态度并不是因为它在通用对象检测中的流行或竞争结果。作者们凭经验发现 DETR 风格的检测器在直接进行跨域部署方面几乎没有取得任何优于 CNN 检测器的优势。相反，本文的动机是基于洞察力，即 DETR 式检测器具有结合强监督和弱监督的优势，这对于 CDWSOD 至关重要。

CDWSOD 需要较弱的监督和图像级预测能力，这可以由 DETR 的注意力机制和远程建模能力，所以其中的编码器和解码器恰恰可以满足这些要求。为了充分利用 CDWSOD 中的弱监督信息，本文提出了DETR with additional Global Aggregation (DETR-GA)。DETR-GA 将基于注意力的全局聚合添加到 DETR 中，以便进行图像级预测，同时保留原始实例级预测。基本上，DETR 在解码器中使用多个对象查询来探测局部区域并给出实例级预测。在DETR的基础上，DETR-GA做了两个简单而重要的改变：对于编码器/解码器，它分别增加了多个类query/一个foreground的query来聚合整个图像的语义信息。总体而言，DETR-GA 利用对编码器和解码器的弱监督将检测能力从源域转移到目标域。实验结果表明，DETR-GA 大大提高了跨域检测精度。

Overview

首先来定义一下任务：与弱监督对象检测中仅利用目标域的弱监督不同，CDWSOD 旨在通过弱监督使检测器从源域适应目标域。在源域中，每个图像都有带有对象类和边界框的实例级注释，而在目标域中，每个图像只有多类标签，指示存在哪些类。

对于DETR，它是Facebook提出的基于Transformer的端到端目标检测网络，发表于ECCV2020。它是一种新型的物体检测算法，采用了Transformer网络结构，将物体检测问题转化为一个集合预测问题，通过全局损失函数来实现端到端的训练和推理。DETR通过消除传统物体检测算法中的anchor、NMS等复杂设计，实现了简单高效的物体检测。

对于DETR-GA的整体结构如上图所示，DETR-GA 将源图像和目标图像的混合作为其输入。为了充分利用弱监督，DETR-GA 在编码器和解码器中为原始检测器补充了图像级预测。鉴于编码器和解码器的图像级预测能力，DETR-GA 有助于在源域和目标域上进行联合训练。编码器通过弱监督在源域和目标域中对齐类语义。之后，解码器通过混合监督（即对源的强监督和对目标的弱监督）进一步将对象检测能力从源传递到目标。

DETR-GA_跨域_03

Encoder with Class Queries

在提出的方法中，编码器使用class query将语义聚合为图像级预测。class query被添加到encoder中，每个查询对应于一个特定的类。在训练过程中，监督较弱的课堂查询能够大致定位相应的位置，排除来自非相关区域的干扰。编码器使用二进制分类器来预测第 i 个类别的存在。在推理期间，编码器不需要图像级预测，无需额外计算成本即可恢复标准的 DETR pipeline。

DETR-GA_编码器_04

Decoder with Foreground and Object Queries

自注意力更新公式如下：

DETR-GA_编码器_05

DETR-GA_数据集_06

在 DETR-GA 的编码器和解码器中使用基于query的聚合进行弱监督对象检测的关键优势在于，它可以促进图像级预测的全局聚合。解码器中的对象查询和前台查询在类语义上达成共识，使得强监督和弱监督在域对齐方面互惠互利。编码器中的弱监督类查询能够大致定位相应的位置，排除来自非相关区域的干扰。

实验

DETR-GA_跨域_07

该论文使用了四个数据集进行方法评估，其中包括PASCAL VOC、Claript、Calicarous和Comic。PASCAL VOC 数据集用作带有实例级注释的源域，而其他三个艺术绘画数据集则用作带有图像级注释的目标域。VOC 0712 的分裂被用作源域训练数据，它提供了大约 16.5 万个 20 个物体类别的真实世界图像。剪贴画数据集有列车分割和测试分割，两者都包含 20 个对象类别的 500 张图像。

所提出的方法 DETR-GA 显著提高了跨域检测精度并推进了最先进的技术。该方法在PASCAL VOC与Claript all数据集上的mAp提高了29.0％至79.4％。该方法在剪贴画、水彩和漫画数据集上的表现也优于最先进的方法。结果证明了所提出的跨域弱监督目标检测方法的有效性。

DETR-GA_编码器_08

可以发现本文提出的每一个组件也都是有用的，都带来了性能上的增益。而原始的DETR从某种程度上来说，虽然有优秀的结构，但似乎不太适合进行跨域检测。这个消融实验向我们证明了论文提出方法的有效性。

DETR-GA_跨域_09

从前景和后景图的attention map也可以发现本文提出方法的作用。

讨论

本文有一些局限性，包括：

所提出的方法仅限于跨域场景，在其他设置中可能表现不佳。
该方法依赖于弱监督，监督可能并不总是可用的，或者可能无法提供足够的信息来进行准确检测。
所提出的方法可能不适用于检测小型物体或形状复杂的物体。
实验是在有限数量的数据集上进行的，并且尚未充分探讨将所提出的方法推广到其他数据集的问题。
所提出的方法可能需要大量的计算资源，可能不适合实时应用。

本文提出了一些未来可以做的工作来改进所提出的方法。这些包括：

探索在 CDWSOD 中使用其他基于注意力的模型。
研究不同类型的弱监督方法对所提方法的影响。
探索使用其他类型的查询进行全局聚合。
研究将其他类型的域适应技术与提出方法相结合的使用情况。
探索将所提出的方法用于其他计算机视觉任务，例如语义分割和实例分割。

结论

本文提出了一种名为DETR-GA的方法，用于跨域弱监督目标检测（CDWSOD）。该方法使用 DETR 架构，为编码器添加了多个类查询和为解码器添加了前台查询，以将语义聚合到图像级预测中。编码器中的类查询有助于聚合与类对应的全局语义，而解码器中的前台查询与对象查询相关联，从而将强监督和弱监督相结合，有利于域对齐。实验表明，在四个流行的跨域基准测试中，DETR-GA 的性能优于最先进的方法。