#今日论文推荐# 何恺明团队提出探索用于目标检测的不分层ViT Backbone

作者探索了普通的、非分层的视觉Transformer(ViT)作为目标检测的骨干网络。这种设计使原始 ViT 架构能够针对对象检测进行微调,而无需重新设计用于预训练的分层主干。通过对微调的最小调整,本文的普通骨干检测器可以获得具有竞争力的结果。令人惊讶的是,作者观察到:(1)从单尺度特征图(没有常见的FPN设计)构建一个简单的特征金字塔是足够的,(2)在很少的跨窗口传播块的辅助下,使用窗口注意(不移动)是足够的。通过使用预训练的纯ViT主干mask自动编码器(MAE),本文的检测器名为ViTDet,可以与之前所有基于分层主干的SOTA方法取得竞争性的结果,仅使用ImageNet-1K预训练就可以在COCO数据集上达到61.3 APbox。

现代目标检测器通常由一个与检测任务无关的主干特征提取器和一组包含特定检测先验知识的颈部(neck)和头部(head)组成。颈部/头部中的常见组件可能包括RoI 操作 、区域建议网络 (RPN) 或锚点(Anchor)、特征金字塔网络 (FPN)  等。如果特定任务的颈部/头部的设计与骨干的设计脱钩,它们可能会并行发展。根据实验,目标检测研究受益于对通用主干和检测特定模块的很大程度上独立探索。长期以来,由于卷积网络 (ConvNet) 的实际设计,这些主干一直是多尺度、分层架构,这严重影响了用于检测多尺度对象的颈部/头部设计(例如,FPN )。在过去的一年中,视觉Transformer (ViT) 已被确立为视觉识别的强大支柱。与典型的 ConvNets 不同,原始的 ViT 是一个简单的、非分层的架构,它始终保持单尺度特征图。它的“极简主义”追求在应用于对象检测时遇到了挑战——例如,如何通过上游预训练的简单主干处理下游任务中的多尺度对象?是否普通的 ViT在使用高分辨率检测图像效率低下?放弃这种追求的一种解决方案是将分层设计重新引入主干。该解决方案,例如 Swin Transformers,可以继承基于 ConvNet 的检测器设计并显示出成功的结果。

在这项工作中,作者追求不同的方向:探索仅使用普通、非分层主干的目标检测器。如果这个方向成功,它将能够使用原始 ViT 主干进行目标检测;这将使预训练设计与微调需求脱钩,保持上游与下游任务的独立性,就像基于 ConvNet 的研究一样。这个方向也部分遵循了 ViT 在追求通用特征时“减少归纳偏置”的哲学。由于非局部自注意力计算可以学习平移等变特征,它们还可以从某些形式的监督或自监督预训练中学习尺度等变特征。

论文题目:Exploring Plain Vision Transformer Backbones for Object Detection 详细解读:https://www.aminer.cn/research_report/62fa49d07cb68b460f03d054

LLVIP 目标检测 vit目标检测_人工智能

https://www.aminer.cn/research_report/62fa49d07cb68b460f03d054 AMiner链接:https://www.aminer.cn/?f=cs