从此不迷路

计算机视觉研究院

FP-DETR:通过完全预训练提升transformer目标检测器_目标检测

FP-DETR:通过完全预训练提升transformer目标检测器_计算机视觉_02

公众号IDComputerVisionGzq

计算机视觉研究院专栏

作者:Edison_G

目标检测是计算机中的基础问题之一,具有广泛的运用价值,如自动驾驶、无人零售、行人检测和安防等。



尽管基于CNN的目标检测算法(如Faster RCNN[1],YOLO[2],FCOS[3])取得了长足进展,它们依赖大量的手工设计,如基于规则的标签匹配机制、启发式的去重后处理等。最近,Detection Transformer[4,5,6,7]提供了一种简洁的目标检测框架,在实现端到端的同时也取得了不错的检测性能。




与此同时,模型的预训练被证明对下游任务有诸多好处,如更好的性能[8],更快的收敛速度和更强的鲁棒性[9]等。然而,现有Detection Transformer中的核心模块transformer却是从头训练的,这限制了其性能。尽管UP-DETR[10]尝试通过无监督的方法来预训练transformer,它的预训练过程依赖已经训练好的主干网络,并且主干网络和transformer两部分是分别预训练的。


我们认为利用预训练提升detection transformer性能面临的主要阻碍有:(1)transformer的decoder部分难以预训练:现有的预训练方法大多为CNN或transformer encoder结构设计。由于decoder中包含多个物体内容嵌入,在常用的单物体的分类任务上无法充分预训练。(2)分类预训练和检测任务之间存在一定的差异:首先,分类预训练中没有对物体做显式的定位回归;其次,分类预训练时只有一个class token代表物体,而没有物体间的关系建模。


针对解决以上问题,我们提出一种encoder-only的目标检测模型,它能够很容易的在常用的图像分类任务上充分预训练。此外,我们提出一个简单的任务适配器来解决预训练分类任务与下游检测任务之间的差异,使得完成预训练的模型能够在下游的检测任务上实现有效的微调。


具体来说,在模型结构设计中,我们受到以下观察的启发:


(1)CNN主干和detection transformer中的编码器都可以被看作是特征提取器,并且transformer编码器单独作为特征提取器的有效性已经被现有工作证明[11]。由此,我们可以用一个简单的多尺度tokenizer代替复杂的CNN主干,而只用transformer编码器进行特征提取。同时为了降低处理高分辨输入的复杂度,我们在transformer中使用Deformable Attention[5]。(2)解码器的主要作用是从图像中聚合与物体有关的性能,而将物体内容嵌入序列与图像特征序列连起来送入transformer的编码器也可以完成以上信息聚合的功能。由此,我们将模型中的CNN主干和解码器均去除,得到一个encoder-only的目标检测模,如图1左图所示。Encoder-only的Transformer能够很方便的在ImageNet的分类任务上预训练,并且它使我们能够有效利用ViT[11,12,13]领域的进展来实现有效的预训练。


FP-DETR:通过完全预训练提升transformer目标检测器_目标检测_03


物体间的关系建模对detection transformer做目标检测十分重要,它既能够帮助模型去除重复的检测,又能够提升物体识别的准确性。然而,在预训练过程中,在仅用单个class token无法实现物体关系的建模。为了解决这一问题,我们在微调模型时,提出一个简单的任务适配器来提升物体间的关系建模,如图1右图所示。默认地,我们的任务适配器是一个简单的self-attention层。


此外,我们提出一种新的视角来理解decoder中的查询位置嵌入,并将其类比为NLP中的文本提示语。具体来说,NLP中的文本提示语[14]如图2左图所示,它改变了下游任务的形式,以模仿预训练的任务的形式,并利用文本提示语帮助预训练的模型更好地处理下游任务。然而,找到最佳的文本提示并不容易,最近的工作如P-tuning[15]尝试在一个连续的空间中搜索提示语,以弥补上游和下游任务之间的差距。


类似的,在我们的检测器中,查询位置嵌入被映射到参考点,指导不同的查询内容嵌入从图像内容的特定区域提取相应的内容。换句话说,查询位置嵌入作为一个视觉线索,指出了模型应该关注的图像区域,如图2右图所示。我们的直觉是,如果在ImageNet上预训练的分类器知道要看哪里,它就能很容易地识别出指定区域内的物体,就像在ImageNet分类预训练期间那样。从这个角度来看,查询位置嵌入作为一种视觉提示,类似于NLP中的文本提示。此外,训练模型定位物体的过程相当于在连续空间中搜索文本提示的过程。而最终分类的过程则对应于NLP中的填空和答案映射的过程。


FP-DETR:通过完全预训练提升transformer目标检测器_计算机视觉_04


在实验部分,我们首先在常用的COCO 2017数据集上测试我们方法的有效性。如下表所示,FP-DETR相比于现有的detection transformer相比,取得了非常具有竞争力的表现。具体来说,FP-DETR-Base与Deformable DETR[5]性能相当,而其24M参数的变体可与UP-DETR[10]的性能相媲美,并优于约40M参数的Conditional DETR[16]和DETR[4]。


FP-DETR:通过完全预训练提升transformer目标检测器_计算机视觉_05


为了更好地理解任务适配器的作用,我们对FP-DETR进行了消融研究,如表3所示。我们有以下观察。首先,移除任务适配器会导致模型性能的明显下降。没有任务适配器,模型就不能很好地捕捉物体间的关系,而这种关系对于去除重复的物体和提高物体识别率是至关重要的。其次,用双向LSTM层最为任务适应器也有助于使预训练的模型适应下游任务,但它的效果比自我注意层略差。我们猜想,与self-attention层相比,双向-LSTM在建模长距离依赖性方面略差,特别是当查询嵌入的数量达到300时。


FP-DETR:通过完全预训练提升transformer目标检测器_数据集_06


模型的鲁棒性对于像自动驾驶这样生命攸关的人工智能应用至关重要。为此,我们评估了物体检测器对COCO-C[17]上常见图像降质的鲁棒性。如表4所示,在这种严格的条件下,所有的检测器都发生了明显的性能下降。然而,与现有的detection transformer相比,FP-DETR的性能下降最少。值得注意的是,FP-DETR-Base在15种降质类型中的14种表现最好,尽管它在干净的COCO 2017数据集上的表现与Deformable DETR相当。这是因为在ImageNet上的重复预训练有助于模型学习更鲁棒的特征表示[9]。


FP-DETR:通过完全预训练提升transformer目标检测器_目标检测_07


在现实世界的应用中,收集大量的数据往往是不可行的。因此,模型需要通过在有限的数据上进行训练而表现良好。表5展示了不同模型在只有2,975张训练图像的Cityscapes数据集上进行模型微调的结果。所有的模型都以8个批次的规模进行训练,以保证足够的训练迭代。结果是用不同的随机种子重复运行5次的平均值。可以看出,大多数detection transformer,包括DETR、UP-DETR、条件DETR和YOLOS-B,在这种条件下表现不佳。可变形DETR表现良好,然而它的表现仍然比我们的FP-DETR-Base和FP-DETR-Small差。此外,我们的FP-DETR-Lite只有11M的参数,却与40M的Deformable DETR的性能相当。


FP-DETR:通过完全预训练提升transformer目标检测器_计算机视觉_08


最后,我们展示一些检测的主观结果,如下图所示。前两行提供了在COCO-C数据集上的FP-DETR-Base的一些定性结果。可以看出,由于存在各种退化的存在,如弹性变换、变焦模糊、雾气等,图像质量明显下降了。然而,FP-DETR-Base仍然能够在低能见度和大变形的情况下产生可信的结果,这体现了其鲁棒性。最后一行显示了我们的FP-DETR-Base在Cityscapes数据集中的一些定性结果。可以看出,FP-DETR能够在小数据集上快速学习,并产生准确的物体检测结果,甚至对远处的小汽车也是如此。这些结果证明了我们方法的泛化能力。


FP-DETR:通过完全预训练提升transformer目标检测器_数据集_09


论文链接:

​https://openreview.net/forum?id=yjMQuLLcGWK ​





参考文献




Wang W, Cao Y, Zhang J, et al. FP-DETR: Detection Transformer Advanced by Fully Pre-training[C]//International Conference on Learning Representations. 2022.

[1] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems, 2015, 28.

[2] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.

[3] Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 9627-9636.

[4] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European conference on computer vision. Springer, Cham, 2020: 213-229.

[5] Zhu X, Su W, Lu L, et al. Deformable detr: Deformable transformers for end-to-end object detection[C]//International Conference on Learning Representations. 2021.

[6] Fang Y, Liao B, Wang X, et al. You only look at one sequence: Rethinking transformer in vision through object detection[J]. Advances in Neural Information Processing Systems, 2021, 34.

[7] Chen Z, Zhang J, Tao D. Recurrent Glimpse-based Decoder for Detection with Transformer[J]. arXiv preprint arXiv:2112.04632, 2021.

[8] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.

[9] Hendrycks D, Lee K, Mazeika M. Using pre-training can improve model robustness and uncertainty[C]//International Conference on Machine Learning. PMLR, 2019: 2712-2721.

[10] Dai Z, Cai B, Lin Y, et al. Up-detr: Unsupervised pre-training for object detection with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1601-1610.

[11] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]//International Conference on Learning Representations. 2021.

[12] Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.

[13] Xu Y, Zhang Q, Zhang J, et al. Vitae: Vision transformer advanced by exploring intrinsic inductive bias[J]. Advances in Neural Information Processing Systems, 2021, 34.

[14] Liu P, Yuan W, Fu J, et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing[J]. arXiv preprint arXiv:2107.13586, 2021.

[15] Liu X, Zheng Y, Du Z, et al. GPT understands, too[J]. arXiv preprint arXiv:2103.10385, 2021.

[16] Meng D, Chen X, Fan Z, et al. Conditional detr for fast training convergence[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3651-3660.

[17] Michaelis C, Mitzkus B, Geirhos R, et al. Benchmarking robustness in object detection: Autonomous driving when winter is coming[J]. arXiv preprint arXiv:1907.07484, 2019.





 THE END