w~视觉~合集3

原创

qq6669490e54384 2024-10-22 12:08:03 博主文章分类：人工智能 ©著作权

文章标签 视觉 文章分类 计算机视觉人工智能

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#几个论文

Fast Charging of Energy-dense Lithium-ion Batteries

Real-time Short Video Recommendation on Mobile Devices

Semantic interpretation for convolutional neural networks: What makes a cat a cat?

Prompt-to-Prompt Image Editing with Cross Attention Control

Poisson Flow Generative Models

Creating a Dynamic Quadrupedal Robotic Goalkeeper with Reinforcement Learning

Video-driven Neural Physically-based Facial Asset for Production

论文 1：Fast Charging of Energy-dense Lithium-ion Batteries

作者：Chao-Yang Wang 等

论文地址：https://www.nature.com/articles/s41586-022-05281-0

摘要：电动汽车的电池材料有不同的选择，例如固态锂电池。今天介绍另一种特殊材料 —— 镍箔，通过在电池内部加入一层薄薄的镍，标准电动汽车电池可以在 10 分钟左右充满大部分电量。这可以为配备多个昂贵电池组的电动汽车提供一种更经济的替代品。

这项研究是由宾夕法尼亚州立大学材料与工程学杰出教授王朝阳等多位研究人员完成的，并发表在了 10 月 12 日的 Nature 上。王朝阳教授是燃料电池和二次电池领域的专家学者，并于 2019 年 12 月当选为美国国家发明家科学院院士。

推荐：11 分钟充电 70%，华人教授在锂电池中加镍箔登上 Nature。

论文 2：Real-time Short Video Recommendation on Mobile Devices

作者：Xudong Gong 等

论文地址：https://dl.acm.org/doi/10.1145/3511808.3557065

摘要：本文针对短视频推荐场景，传统服务端部署的推荐系统在决策时机和实时特征利用方面的不足问题，通过在移动客户端部署推荐系统来实时响应用户反馈，提高推荐结果的精准度，提升用户体验。论文提出的方案 100% 流量部署到了快手短视频推荐生产环境，影响了日均超过 3.4 亿用户的体验。

w~视觉~合集3_视觉

端上重排系统。

推荐：移动端部署推荐系统：快手获数据挖掘顶会 CIKM 2022 最佳论文。

论文 3：Semantic interpretation for convolutional neural networks: What makes a cat a cat?

作者：Hao Xu 等

论文地址：https://onlinelibrary.wiley.com/doi/10.1002/advs.202204723

摘要：近年来，CNN 因其优异性能，在计算机视觉、自然语言处理等各个领域受到了研究者们的青睐。但是，CNN 是一个「黑盒」模型，即模型的学习内容和决策过程很难用人类能够理解的方式提取和表达，这限制了它的预测可信度和实际应用。

因此，CNN 的可解释性受到了越来越多的关注，研究者们试图采用特征可视化，网络诊断和网络架构调整等方式辅助解释 CNN 的学习机制，将这一「黑盒」透明化，使人类更容易理解、检测和改进其决策过程。

近日，北京大学，东方理工，南方科技大学和鹏城实验室等机构的研究团队提出了一种语义可解释人工智能 (semantic explainable AI, S-XAI）的研究框架，从语义层面解释了 CNN 的学习机制，并以猫狗二分类问题为例，形象地揭示了模型是如何学习类别意义上的猫的概念，即「何以为猫」。

w~视觉~合集3_视觉_02

推荐：何以为猫？可解释 AI 从语义层面理解 CNN 的识别机制

论文 4：Prompt-to-Prompt Image Editing with Cross Attention Control

作者：Amir Hertz 等

论文地址：https://prompt-to-prompt.github.io/ptp_files/Prompt-to-Prompt_preprint.pdf

摘要：动动嘴皮子就能把图改好是甲方和乙方的共同愿望，但通常只有乙方才知道其中的酸楚。如今 AI 却向这个高难度问题发起了挑战。

在一篇 10 月 17 日上传到 arXiv 的论文中，来自谷歌研究院、以色列理工学院、以色列魏茨曼科学研究所介绍了一种基于扩散模型的真实图像编辑方法——Imagic，只用文字就能实现真实照片的 PS，比如让一个人竖起大拇指、让两只鹦鹉亲吻。

w~视觉~合集3_视觉_03

w~视觉~合集3_视觉_04

推荐：挡不住了！扩散模型只用文字就能 PS 照片了。

论文 5：Poisson Flow Generative Models

作者：Yilun Xu 等

论文地址：https://arxiv.org/pdf/2209.11178.pdf

摘要：扩散模型最早来源于物理中的热力学，最近却在人工智能领域大放异彩。还有什么物理理论可以推动生成模型研究的发展呢？

最近，来自 MIT 的研究者受到高维电磁理论的启发，提出了一种称作泊松流（Poisson Flow）的生成模型。理论上，这种模型具有直观的图像和严谨的理论；实验上，它在生成质量、生成速度和鲁棒性上往往比扩散模型更好。本文已被 NeurIPS 2022 接收。

w~视觉~合集3_视觉_05

左图：泊松场在三维中的轨迹；右图：在图像上使用 PFGM 的前向 ODE 和反向 ODE。

推荐：卷！MIT 泊松流生成模型击败扩散模型，兼顾质量与速度。

论文 6：Creating a Dynamic Quadrupedal Robotic Goalkeeper with Reinforcement Learning

作者：Xiaoyu Huang 等

论文地址：https://arxiv.org/pdf/2210.04435.pdf

摘要：机器狗不仅能跑能跳，踢足球、当守门员也都很在行。这款机器狗是 MIT 在 2019 年研发的 Mini Cheetah，现在来自加州大学伯克利分校等机构的研究者为 Mini Cheetah 部署了一个新的强化学习框架，让它完成足球守门任务，守门成功率高达 87.5%。

w~视觉~合集3_视觉_06

推荐：认真的吗？让机器狗当守门员，还发了篇论文。

论文 7：Video-driven Neural Physically-based Facial Asset for Production

作者：Longwen Zhang 等

论文地址：https://arxiv.org/pdf/2202.05592.pdf

摘要：上海科技大学科研团队联合数字人底层技术公司影眸科技，将首创的 4D PBR 扫描技术与神经网络表达相结合，训练多 VAE 的网络结构，跳过了传统的绑定与动态贴图制作流程。这项工作已经被计算机图形学顶会 SIGGRAPH Asia 2022 接收为 Technical Paper - Journal Track 并受邀作报告分享。

w~视觉~合集3_视觉_07

最后在推荐一些链接哦

10 篇 NLP 精选论文

1. EnTDA: Entity-to-Text based Data Augmentation Approach for Named Entity Recognition Tasks. (from Philip S. Yu)

2. Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots. (from Jian Sun)

3. Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong Learning in Task-Oriented Dialogue. (from Jian Sun)

4. Deep Bidirectional Language-Knowledge Graph Pretraining. (from Jure Leskovec)

5. Transcending Scaling Laws with 0.1% Extra Compute. (from Quoc V. Le)

6. Extracting Cultural Commonsense Knowledge at Scale. (from Gerhard Weikum)

7. Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering. (from Raymond J. Mooney)

8. Multilingual Word Sense Disambiguation with Unified Sense Representation. (from Hongming Zhang, Tong Zhang)

9. MICO: A Multi-alternative Contrastive Learning Framework for Commonsense Knowledge Representation. (from Hongming Zhang, Tong Zhang)

10. A Survey of Active Learning for Natural Language Processing. (from Eduard Hovy)

10 篇 CV 精选论文

1. A Tri-Layer Plugin to Improve Occluded Detection. (from Andrew Zisserman)

2. Using Language to Extend to Unseen Domains. (from Trevor Darrell)

3. Large-batch Optimization for Dense Visual Predictions. (from Liang Chen)

4. Towards Sustainable Self-supervised Learning. (from Ming-Ming Cheng, Shuicheng Yan)

5. Learning Dual Memory Dictionaries for Blind Face Restoration. (from Lei Zhang, Wangmeng Zuo)

6. Multi-view Tracking Using Weakly Supervised Human Motion Prediction. (from Pascal Fua)

7. Two-level Data Augmentation for Calibrated Multi-view Detection. (from Pascal Fua)

8. Perceptual Grouping in Vision-Language Models. (from Jonathon Shlens)

9. Consistency and Accuracy of CelebA Attribute Values. (from Kevin W. Bowyer)

10. Is synthetic data from generative models ready for image recognition?. (from Philip Torr)

10 篇 ML 精选论文

1. A Reinforcement Learning Approach in Multi-Phase Second-Price Auction Design. (from Michael I. Jordan)

2. Spatiotemporal Classification with limited labels using Constrained Clustering for large datasets. (from Vipin Kumar)

3. Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model. (from Thorsten Joachims)

4. Mutual Information Regularized Offline Reinforcement Learning. (from Shuicheng Yan)

5. Uncertainty Disentanglement with Non-stationary Heteroscedastic Gaussian Processes for Active Learning. (from Kevin Murphy)

6. Deep conditional transformation models for survival analysis. (from Torsten Hothorn)

7. G-Augment: Searching For The Meta-Structure Of Data Augmentation Policies For ASR. (from Quoc V. Le)

8. A Pareto-optimal compositional energy-based model for sampling and optimization of protein sequences. (from Kyunghyun Cho)

9. Planning for Sample Efficient Imitation Learning. (from Yang Gao)

10. FedFM: Anchor-based Feature Matching for Data Heterogeneity in Federated Learning. (from Yonina C. Eldar)

#腾讯优图实验室~论文1

今年，腾讯优图实验室共有16篇论文入选，研究方向含轻量化模型结构设计、文档理解、深度伪造溯源、掌纹生成、人脸隐私保护、无监督异常检测、图像和谐化、小样本扩散模型领域自适应、增量识别、3D形状生成等研究方向。

以下为腾讯优图实验室入选论文概览：

01 重新思考基于注意力机制的高效模型中的移动模块设计

Rethinking Mobile Block for Efficient Attention-based Models

w~视觉~合集3_视觉_08

本文专注于开发现代化、高效且轻量级的模型以用于密集预测，同时在参数量、计算量和性能之间进行权衡。轻量级CNN模型有倒残差模块（Inverted Residual Block，IRB）作为基础结构，但基于注意力的对应基础模块研究尚未得到认可。

本文从统一的角度重新思考了高效的IRB模块和Transformer中的有效组件，将基于CNN的IRB扩展到基于注意力的模型，并抽象出一个残差元移动块（Meta Mobile Block，MMB）用于轻量级模型设计。遵循简单但有效的设计准则，我们推导出一个现代的倒残差移动模块（Inverted Residual Mobile Block，iRMB），并仅使用iRMB构建一个类似ResNet的高效模型（EMO）用于下游任务。在ImageNet-1K、COCO2017和ADE20K基准测试上的大量实验证明了提出方法的优越性。例如，EMO-1M/2M/5M在ImageNet-1K上达到了71.5、75.1和78.4的Top-1，超过了同时代基于CNN/Attention的模型，同时在参数、效率和准确性上得到了良好的权衡。

论文下载地址：

https://arxiv.org/pdf/2301.01146.pdf

02 一种选择性区域关注的端到端文档理解模型

Attention Where It Matters: Rethinking Visual Document Understandingwith Selective Region Concentration

w~视觉~合集3_视觉_09

本文提出了一种新颖的端到端文档理解模型SeRum，用于从文档图像中提取有价值的关键信息，可用于文档分析、检索和办公自动化等场景。不同于常规的多阶段技术方案，SeRum将文档图像理解和图像文字识别任务统一转换为对感兴趣区域视觉Token集合的局部解码过程，并提出内容感知的Token-Merge模块。

这种机制使模型能够更加关注由查询解码器生成的感兴趣区域，提高了模型识别的准确性，并加快生成模型的解码速度。文章中还设计了多个针对性的预训练任务，以增强模型对图片内容理解和区域感知能力。实验结果表明，SeRum在文档理解任务上实现了sota性能，并在文本识别任务上取得了有竞争力的结果。

03 从粗到细：一种学习紧凑型判别表征的单阶段图像检索

Coarse-to-Fine: Learning Compact Discriminative Representation for Single-Stage Image Retrieval

w~视觉~合集3_视觉_10

图像检索是从数据库中找到与查询图像视觉相似的图像，基于检索-排序范式的两阶段方法取得了优越的性能，但其需要额外的局部和全局模块，在实际应用中效率低下。为了更好地权衡检索效率和准确性，现有的方法将全局和局部特征融合为一个联合表征以执行单阶段图像检索。然而，受到复杂的环境影响如背景、遮挡和视角等，这些方法仍具有挑战性。

在这项工作中，我们设计了一个由粗到细的框架CFCD来学习紧凑的特征，用于端到端的单阶段图像检索--只需要图像级标签。本文首先设计了一种新颖的自适应损失函数，可在每个小批量样本内动态调整其特征的尺度和角度，通过由小到大逐步增加来加强训练过程中的监督和类内紧凑性。此外，我们还提出了一种对比学习机制，通过困难负采样策略以及选择突出的局部描述符来将细粒度语义关系注入全局表示，从而优化全局范围内的类间显著性。广泛的实验结果证明了我们方法的有效性，我们的方法在 Revisited Oxford 和 Revisited Oxford 等基准测试中实现了最先进的单阶段图像检索性能。

04 D3G：基于单帧标注探索高斯先验用于视频片段定位

D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with GlanceAnnotation

w~视觉~合集3_视觉_11

基于文本的视频片段定位任务（Temporal sentence grounding, TSG）旨在给定自然语言查询从未经过修剪的视频中定位出对应的特定片段。最近，弱监督方法与全监督方法相比仍有较大性能差距，而后者需要费力的时间戳标注。在本研究，我们致力于减少TSG任务的标注成本并与全监督方法相比仍保持具有竞争力的性能。为了实现这个目标，我们研究了最近提出的基于单帧标注的TSG任务，其对于每个文本查询，只需要对应的单帧标注信息。

在此设定下，我们提出了基于单帧标注和动态高斯先验的视频片段定位框架（D3G），其主要由语义对齐组对比学习模块 (SA-GCL) 和动态高斯先验调整模块（DGA）组成。具体来说，SA-GCL模块通过联合利用高斯先验和语义一致性从2D时序图中采样可靠的正样本片段，这有助于对齐文本-视频片段对在联合嵌入空间的表征。此外，为了缓解由单帧标注带来的标注偏置问题并有效建模由多个事件组成的复杂文本查询，我们进一步提出了DGA模块，其主要负责动态调整高斯先验分布来逼近真实目标片段。我们在三个具有挑战性的基准上广泛的实验验证所提出的D3G的有效性。D3G的性能明显优于最先进的弱监督方法并缩小与完全监督的方法相比的性能差距。

05 基于对比式伪标签学习的开放场景深伪溯源方法

Contrastive Pseudo Learning for Open-world Deepfake Attribution*本文由腾讯优图实验室、上海交通学共同完成

w~视觉~合集3_视觉_12

随着生成技术的快速发展，对于深度伪造人脸的攻击类型溯源问题已经引起了广泛关注。现有的诸多研究在GAN溯源任务上有了一些进展，但忽略了更具威胁性的人脸替换或表情驱动等攻击类型。此外，开放场景下存在着大量没有攻击类型标注的伪造人脸数据，这部分数据也尚未被充分利用起来。为了应对这些挑战，本文构建了一个名为“开放场景下深度伪造溯源”（OpenWorld-DeepFake Attribution，OW-DFA）的新基准，涵盖了人脸替换、表情驱动、属性编辑、人脸替换等20多种主流伪造技术，以评估开放场景下不同伪造人脸类型的溯源性能。

同时，本文针对OW-DFA任务提出了一个对比式伪标签学习（Contrastive Pseudo Learning，CPL）算法，包括以下两个部分：1）引入全局-局部投票模块，以修正不同攻击类型产生的伪造区域大小差异；2）设计基于概率的伪标签策略，以缓解在利用无标签数据时相似攻击方法所引起的噪声。此外，本文还将CPL算法进一步与目前广泛使用的预训练和迭代学习技术结合在一起，进一步提高了溯源性能。本文通过大量的实验证明了所提出的CPL方法在OW-DFA基准测试上的优越性，有效促进了深度伪造溯源任务的可解释性和安全性，并对深度伪造检测领域有着积极影响。

06 面向掌纹识别的拟真掌纹生成

RPG-Palm: Realistic Pseudo-data Generation for Palmprint Recognition

*本文由腾讯优图实验室、腾讯微信支付33号实验室、合肥工业大学共同完成

w~视觉~合集3_视觉_13

掌纹作为一种稳定且隐私友好的生物特征识别技术，最近在识别应用中显示出巨大的潜力。然而，大规模公开掌纹数据集的缺乏限制了掌纹识别技术的进一步研究和发展。在本文中，我们提出了一种ID可控的拟真掌纹生成模型。第一，我们引入条件调制模块来提高类内多样性；第二，提出身份感知损失，以确保不配对训练下生成样本的身份一致性。

同时，我们进一步改进了Bezier掌纹线生成策略以保证身份间可区分性。大量的实验结果表明，使用生成掌纹数据预训练可以显着提高识别模型的性能。例如，我们的模型在训练/测试 1:1 和 1:3设定下，相较最先进的 BezierPalm通过率提高了 5% 和 14% @FAR=1e-6。当仅使用 10% 的真实数据训练时，我们的方法仍优于基于ArcFace使用100% 真实数据训练的模型，这表明我们的方法向无需使用真实数据进行模型训练的掌纹识别更进了一步。

论文下载地址：

https://github.com/RayshenSL/RPG-PALM

07 PartialFace:基于随机频率分量的人脸识别隐私保护方法

Privacy-Preserving Face Recognition Using Random Frequency Components

*本文由腾讯优图实验室、复旦大学共同完成

w~视觉~合集3_视觉_14

本文对隐藏人脸图像视觉特征和改善抗重建攻击能力进行了探讨，并提出一种可提供训练、推理阶段隐私保护的人脸识别方法PartialFace。本文首先利用人类和模型对不同频域分量的感知差异，通过修剪肉眼可感知的低频分量隐藏图像视觉信息。其次，本文注意到同类方法的隐私保护缺陷，即识别模型精度依赖较大规模的高频分量，而这些分量搭载的冗余信息可能使模型暴露于重建攻击。

为应对这一问题，本文观察到模型注意力在不同频域分量上存在差异，提出在随机选择的分量组合上训练模型，使模型建立从局部频域信息到整体人脸信息的映射。从而，本文在维持识别精度的同时，将所需高频分量规模降低到同类方法的1/6，提高了隐私保护性能。经广泛实验验证，本文所提方法可提供显著优于当前先进方法的抗重建能力，同时保持有竞争力的任务性能。

08 记住正常性:记忆力机制扩充的知识蒸馏无监督异常检测

Remembering Normality: Memory-guided Knowledge Distillation for Unsupervised Anomaly Detection

*本文由腾讯优图实验室、上海交通大学共同完成

w~视觉~合集3_视觉_15

本文提出了一种新的无监督异常检测方法，称为Memory-guided Knowledge Distillation (MemKD)。传统基于知识蒸馏的异常检测方法在学习过程中会出现“正常性遗忘”问题，即在仅使用正常数据训练前提下，学生模型却会重构异常特征，且对正常数据中包含的纹理细节很敏感。

为了解决这个问题，MemKD引入了一种新的记忆机制，即正常知识召回模块 (NRM)，通过存储正常数据的信息来加强学生模型生成的特征的正常性。同时，MemKD还采用了正常性表示学习策略，构建了一个正常样本集，使NRM能够记忆无异常数据的先验知识，并在后续的查询中进行回忆。实验结果表明，MemKD在MVTec AD、VisA、MPDD、MVTec 3D-AD和Eyecandies等五个数据集上取得了良好的效果。

09 学习全局感知核的图像和谐化

Learning Global-aware Kernel for Image Harmonization

*本文由腾讯优图实验室、浙江大学共同完成

w~视觉~合集3_视觉_16

图像和谐化旨在通过以背景为参考自适应调整前景色彩来解决合成图像中的视觉不连续问题。现有方法采用前景和背景之间的局部颜色变换或区域匹配策略，忽略邻近先验并将前景/背景独立区分以实现和谐化。由此在多样化的前景物体和复杂场景中仍然表现有限性能。为解决这个问题，我们提出了一种新颖的全局感知内核网络（GKNet）实现综合考虑远距离背景信息的局部区域和谐化。

具体来说，GKNet包括和谐化核预测和和谐化调制两部分。前者包括用于获取长距离参考提取器（LRE）和用于融合全局信息与局部特征的多层级和谐化核预测模块（KPB）；为了实现更好地选择相关的长距离背景参考以进行局部和谐化这一目标，我们在其中还提出了一种新颖的选择性相关融合（SCF）模块。后者利用预测得到的和谐化核进行前景区域和谐化。大量实验证明了我们的图像和谐化方法相对于最先进方法的优越性，例如，实现了 39.53dB PSNR，比相关最佳方法提升+0.78dB；并与 SoTA 方法相比，fMSE/MSE 降低了 11.5%和6.7%。

论文下载地址：

https://arxiv.org/pdf/2305.11676.pdf

10 基于分段内容融合与有向分布一致性的小样本扩散模型领域自适应

Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption

*本文由腾讯优图实验室、上海交通大学共同完成

w~视觉~合集3_视觉_17

在有限样本下训练生成模型是一项具有挑战性的任务，现有的方法主要利用小样本模型领域自适应来训练网络。然而，在数据极度稀缺的场景下（少于10个样本），生成模型很容易出现过拟合与内容退化的现象。

为了解决这些问题，我们提出了一种新颖的基于分段内容融合的小样本扩散模型，并提出有向分布一致性损失，使得扩散模型在不同训练阶段学习到不同的目标域信息。具体而言，我们设计了一种分段训练策略，通过分段的内容融合帮助模型在加噪步数较大时保持源域的内容并学习目标域的风格信息，在加噪步数较小时学习目标域的局部细节信息，从而提高模型对内容、风格和局部细节的把控能力。

此外，我们引入了一种新的有向分布一致性损失，能够高效、稳定地保证生成域分布和源域分布的一致性，避免模型过拟合。最后，我们还提出了一种跨域结构引导策略，在域适应过程中增强生成图像与原图像结构的一致性。我们从理论分析、定性和定量的实验三个方面，有效地证明了所提出方法相较于以往小样本模型自适应方法的优越性。

11 基于实例及类别监督交替学习的增量识别

Instance and Category Supervision are Alternate Learners for Continual Learning

*本文由腾讯优图实验室、华东师范大学共同完成

w~视觉~合集3_视觉_18

持续学习CL（增量学习）是在先前习得的基础上不断发展复杂行为技能。然而，当前的CL算法往往会导致类级遗忘，因为标签信息经常被新知识快速覆盖。这促使人们试图通过最近的自我监督学习（SSL）技术来挖掘实例级别的歧视。然而，先前的工作指出，自监督学习目标本质上是在对失真的不变性和保留样本信息之间的权衡，这严重阻碍了效果提升，我们从信息论的角度重新表述了SSL，通过解开实例级区分的目标，并解决了这种权衡，以促进对失真具有最大程度不变的紧凑表示。

在此基础上，我们开发了一种新的交替学习范式，以享受实例级和类别级监督的互补优势，从而提高了对遗忘的鲁棒性，并更好地适应每项任务。为了验证所提出的方法，我们使用类增量和任务增量设置在四个不同的基准上进行了广泛的实验，其中性能的飞跃和彻底的消融研究证明了我们建模策略的有效性和效率。

12 基于改进自回归模型的多样3D形状生成模型

Learning Versatile 3D Shape Generation with Improved AR Models

*本文由腾讯优图实验室、清华大学、复旦大学共同完成

w~视觉~合集3_视觉_19

我自回归（Auto-Regressive，AR）模型通过对网格空间中的联合分布进行建模，在2D图像生成方面取得了令人瞩目的成果。虽然这种方法已经扩展到3D领域以实现强大的形状生成，但仍存在两个限制：在体积网格上进行昂贵的计算和网格维度上的模糊自回归顺序。

为了克服这些限制，我们提出了改进的自回归模型（Improved Auto-regressive Model，ImAM）用于3D形状生成，该模型应用基于潜在向量的离散表示学习，而不是使用体积网格。我们的方法不仅降低了计算成本，还通过在更易处理的顺序中学习联合分布来保留基本的几何细节。此外，由于我们模型架构的简单性，我们可以通过连接各种条件输入（如点云、类别、图像和文本）将其自然地从无条件生成扩展为条件生成。大量实验证明，ImAM能够合成多个类别的多样化且真实的形状，并达到了最先进的性能水平。

论文下载地址：

https://arxiv.org/pdf/2303.14700.pdf

13 用于弱监督目标定位的类别感知分配变换器

Category-aware Allocation Transformer for Weakly Supervised Object Localization

*本文由腾讯优图实验室、厦门大学共同完成

w~视觉~合集3_视觉_20

弱监督目标定位（WSOL）旨在实现，仅给定图像级标签的前提下学习一个目标定位器。最近，基于自注意力机制和多层感知器结构的变换神经网络（Transformer）因其可以捕获长距离特征依赖而在WSOL中崭露头角。美中不足的是，基于Transformer的方法使用类别不可知的注意力图来预测边界框，从而容易导致混乱和嘈杂的目标定位。

本文提出了一个基于Transformer的新颖框架——CATR（类别感知Transformer），该框架在Transformer中学习特定目标的类别感知表示，并为目标定位生成相应的类别感知注意力映射。具体来说，本文提出了一个类别感知模块来引导自注意力特征图学习类别偏差，并且提供类别监督信息来指导其学习更有效的特征表示。此外，本文还设计了一个目标约束模块，以自我监督的方式细化类别感知注意力图的目标区域。最后，在两大公开数据集CUB-200-2011和ILSVRC上进行了充分的实验，验证了本文方法的有效性。

14 SLAN: 用于视觉语言理解的自定位辅助网络

SLAN: Self-Locator Aided Network for Vision-language Understanding

*本文由腾讯优图实验室、南开大学共同完成

w~视觉~合集3_视觉_21

学习视觉和语言之间的细粒度交互有助于模型更准确地理解视觉语言任务。然而，根据文本提取关键图像区域进行语义对齐仍然具有挑战性。大多数现有工作要么使用冻结检测器获得冗余区的目标区域，且提取到的目标区域大多与文本的语义信息无关，要么由于严重依赖标注数据来预训练检测器而无法进一步扩展。

为了解决这些问题，我们提出了自定位辅助网络（SLAN），用于视觉语言理解任务，无需任何额外的目标数据。SLAN 由区域过滤器和区域适配器组成，用于根据不同文本定位感兴趣的区域。通过聚合视觉语言信息，区域过滤器选择关键区域，区域适配器通过文本指导更新其坐标。通过细粒度的区域-文本对齐，SLAN 可以轻松推广到许多下游任务。它在五个视觉语言理解任务上取得了相当有竞争力的结果（例如，在 COCO 图像到文本和文本到图像检索上分别为 85.7% 和 69.2%，超越了之前的 SOTA 方法）。SLAM 还展示了对两个目标定位任务的强大的零样本和微调可迁移性。

15 掩码自编码器是高效的类增量学习器

Masked Autoencoders are Efficient Class Incremental Learners

*本文由腾讯优图实验室、南开大学共同完成

w~视觉~合集3_视觉_22

类增量学习（CIL）旨在顺序学习新类别，同时避免对之前知识的灾难性遗忘。在本研究中，我们提出使用掩码自编码器（MAEs）作为CIL的高效学习器。MAEs最初是为了通过重构无监督学习来学习有用的表示，它们可以很容易地与监督损失集成以进行分类。此外，MAEs可以可靠地从随机选择的补丁中重建原始输入图像，我们利用这一点更有效地存储过去任务的样本以供CIL使用。我们还提出了双边MAE框架，以从图像级别和嵌入级别融合中学习，从而产生更好的重建图像和更稳定的表示。我们的实验证实，与CIFAR-100、ImageNet-Subset和ImageNet-Full的最新技术相比，我们的方法实现了更优越的性能。

16 SMMix：视觉 Transformer 的自驱动图像混合

SMMix: Self-Motivated Image Mixing for Vision Transformers

*本文由腾讯优图实验室、南开大学共同完成

w~视觉~合集3_视觉_23

CutMix 是一种重要的增强策略，决定了视觉变换器 (ViT) 的性能和泛化能力。然而，混合图像与相应标签之间的不一致损害了其效果。现有的 CutMix 变体通过生成更一致的混合图像或更精确的混合标签来解决这个问题，但不可避免地会带来繁重的训练开销或需要额外的信息，从而破坏了易用性。为此，我们提出了一种新颖且有效的自激励图像混合方法（SMMix），该方法通过训练本身的模型来激励图像和标签增强。具体来说，我们提出了一种最大-最小注意力区域混合方法，该方法丰富了混合图像中的注意力集中对象。然后，我们引入了一种细粒度的标签分配技术，该技术通过细粒度的监督来共同训练混合图像的输出标记。此外，我们设计了一种新颖的特征一致性约束来对齐混合和非混合图像的特征。由于自我激励范例的微妙设计，我们的 SMMix 的显着特点是比其他 CutMix 变体具有更小的训练开销和更好的性能。特别是，SMMix 在 ImageNet-1k 上将 DeiT-T/S/B、CaiT-XXS-24/36 和 PVT-T/S/M/L 的准确率提高了 +1% 以上。我们的方法的泛化能力也在下游任务和分布外数据集上得到了证明。

论文链接：

https://arxiv.org/abs/2212.12977

#零样本异常检测1

本文为CVPR 2023 VAND Workshop Challenge赛道一和赛道二分别获得第一和第四成绩的方案。

在计算机视觉领域，无监督异常检测(AD)旨在使用仅在无异常图像上训练的模型识别异常图像并定位异常区域， 广泛应用于工业缺陷检测。目前大多数方法都集中在为每个类别训练专用模型，这依赖大量正常图像集合作为参考。然而在实际应用中，需要检测的工业产品种类繁多，很难为每个类别收集大量的训练图像。因此，零样本/小样本设置在将AD带入实际应用中起着至关重要的作用。

对于工业视觉检测而言，在没有或只有少数正常参考图像的情况下，构建一个能够快速适应众多类别的单一模型是一个很有价值的研究方向。

在zero-shot任务中，所提解决方案在CLIP模型上加入额外的线形层，使图像特征映射到联合嵌入空间，从而使其能够与文本特征进行比较并生成异anomaly maps。

当有参考图像可用时（few-shot），所提解决方案利用多个memory banks存储参考图像特征，并在测试时与查询图像进行比较。

在ZS和FS两项挑战中，所提方案分别取得了第一和第四名的成绩。

具体来说，所提方案的几个要点是：

使用状态（state）和模板（template）的提示集成来制作文本提示。
为了定位异常区域，引入了额外的线性层，将从CLIP图像编码器提取的图像特征映射到文本特征所在的线性空间。
将映射的图像特征与文本特征进行相似度比较，从而得到相应的anomaly maps。
few-shot中，保留zero-shot阶段的额外线性层并保持它们的权重。此外，在测试阶段使用图像编码器提取参考图像的特征并保存到memory banks中，以便与测试图像的特征进行比较。
为了充分利用浅层和深层特征，同时利用了图像编码器不同stage的特征。

零样本异常检测设定

分类任务

state-level文本提示是使用通用的文本描述正常或异常的目标（比如flawless,damaged），而不会使用“chip around edge and corner”这种过于细节的描述；

所谓template-level文本提示，所提方案在CLIP中为ImageNet筛选了85个模板，并移除了“a photo of the weird [obj.]”等不适用于异常检测任务的模板。

w~视觉~合集3_视觉_24

state-level和template-level的集成实现如下，最后的两组向量分别描述了正常/异常目标的文本提示。

def encode\_text\_with\_prompt\_ensemble\(model, texts, device\):  
    prompt\_normal = \['\{\}', 'flawless \{\}', 'perfect \{\}', 'unblemished \{\}', '\{\} without flaw', '\{\} without defect', '\{\} without damage'\]  
    prompt\_abnormal = \['damaged \{\}', 'broken \{\}', '\{\} with flaw', '\{\} with defect', '\{\} with damage'\]  
    prompt\_state = \[prompt\_normal, prompt\_abnormal\]  
    prompt\_templates = \['a bad photo of a \{\}.',   
                        'a low resolution photo of the \{\}.',   
                        'a bad photo of the \{\}.',   
                        'a cropped photo of the \{\}.',   
                        'a bright photo of a \{\}.',   
                        'a dark photo of the \{\}.',   
                        'a photo of my \{\}.',   
                        'a photo of the cool \{\}.',   
                        'a close-up photo of a \{\}.',   
                        'a black and white photo of the \{\}.',   
                        'a bright photo of the \{\}.',   
                        'a cropped photo of a \{\}.',   
                        'a jpeg corrupted photo of a \{\}.',   
                        'a blurry photo of the \{\}.',   
                        'a photo of the \{\}.',   
                        'a good photo of the \{\}.',   
                        'a photo of one \{\}.',   
                        'a close-up photo of the \{\}.',   
                        'a photo of a \{\}.',   
                        'a low resolution photo of a \{\}.',   
                        'a photo of a large \{\}.',   
                        'a blurry photo of a \{\}.',   
                        'a jpeg corrupted photo of the \{\}.',   
                        'a good photo of a \{\}.',   
                        'a photo of the small \{\}.',   
                        'a photo of the large \{\}.',   
                        'a black and white photo of a \{\}.',   
                        'a dark photo of a \{\}.',   
                        'a photo of a cool \{\}.',   
                        'a photo of a small \{\}.',   
                        'there is a \{\} in the scene.',   
                        'there is the \{\} in the scene.',   
                        'this is a \{\} in the scene.',   
                        'this is the \{\} in the scene.',   
                        'this is one \{\} in the scene.'\]  
  
    text\_features = \[\]  
    for i in range\(len\(prompt\_state\)\):  
        prompted\_state = \[state.format\(texts\[0\]\) for state in prompt\_state\[i\]\]  
        prompted\_sentence = \[\]  
        for s in prompted\_state: # \[prompt\_normal, prompt\_abnormal\]  
            for template in prompt\_templates:  
                prompted\_sentence.append\(template.format\(s\)\)  
        prompted\_sentence = tokenize\(prompted\_sentence\).to\(device\)  
        class\_embeddings = model.encode\_text\(prompted\_sentence\)  
        class\_embeddings /= class\_embeddings.norm\(dim=\-1, keepdim=True\)  
        class\_embedding = class\_embeddings.mean\(dim=0\)  
        class\_embedding /= class\_embedding.norm\(\)  
        text\_features.append\(class\_embedding\)  
    text\_features = torch.stack\(text\_features, dim=1\).to\(device\).t\(\)  
  
    return text\_features

w~视觉~合集3_视觉_25

text\_probs = \(100.0 \* image\_features \@ text\_features.T\).softmax\(dim=\-1\)  
results\['pr\_sp'\].append\(text\_probs\[0\]\[1\].cpu\(\).item\(\)\)

分割任务

w~视觉~合集3_视觉_26

在zero-shot分割任务中，因为这个赛道允许使用外部数据，所以这里额外引入了linear layer去映射patch_tokens，然后基于每个patch_token去和文本特征做相似度计算，从而得到anomaly map。

如上图中zero-shot Mode部分，这里将图像编码器拆分为n个stages，每个stage都分别计算了图像特征：

w~视觉~合集3_视觉_27

具体实现如下代码段：

patch\_tokens = linearlayer\(patch\_tokens\)  
anomaly\_maps = \[\]  
for layer in range\(len\(patch\_tokens\)\):  
  patch\_tokens\[layer\] /= patch\_tokens\[layer\].norm\(dim=\-1, keepdim=True\)  
  anomaly\_map = \(100.0 \* patch\_tokens\[layer\] \@ text\_features.T\)  
  B, L, C = anomaly\_map.shape  
  H = int\(np.sqrt\(L\)\)  
  anomaly\_map = F.interpolate\(anomaly\_map.permute\(0, 2, 1\).view\(B, 2, H, H\),  
  size=img\_size, mode='bilinear', align\_corners=True\)  
  anomaly\_map = torch.softmax\(anomaly\_map, dim=1\)\[:, 1, :, :\]  
  anomaly\_maps.append\(anomaly\_map.cpu\(\).numpy\(\)\)  
anomaly\_map = np.sum\(anomaly\_maps, axis=0\)

Linear Layer的训练（CLIP部分的参数是冻结的）使用了focal loss和dice loss。

小样本异常检测设定

分类任务

对于few-shot设置，图像的异常预测来自两部分。第一部分与zero-shot设置相同。第二部分遵循许多AD方法中使用的常规方法，考虑anomaly map的最大值。所提方案将这两部分相加作为最终的异常得分。

分割任务

few-shot分割任务使用了memory bank，如图1中的黄色背景部分。

直白来说，就是查询样本和memory bank中的支持样本去做余弦相似度，再通过reshape得到anomaly map，最后再加到zero-shot得到的anomaly map上得到最后的分割预测。

另外在few-shot任务中没有再去fine-tune上文提到的linear layer，而是直接使用了zero-shot任务中训练好的权重。

实验

定性结果

w~视觉~合集3_视觉_28

简单来说，在简单一些的图像中zero-shot和few-shot上效果差不多，但面对困难任务时，few-shot会改善一些。

定量结果

w~视觉~合集3_视觉_29

w~视觉~合集3_视觉_30

#BCP~~

在半监督医学图像分割中，标记和未标记数据分布之间存在经验不匹配问题。本文提出了一种简单的方法来缓解这个问题—在一个简单的 Mean Teacher 架构中双向复制粘贴标记和未标记的数据。

论文链接：https://arxiv.org/pdf/2305.00673.pdf

源码链接：https://github.com/DeepMed-Lab-ECNU/BCP

从CT或MRI等医疗图像中分割内部结构对于许多临床应用至关重要。已经提出了各种基于监督学习的医疗图像分割技术，这通常需要大量标注数据。然而由于在标注医疗图像时手动轮廓绘制过程繁琐且昂贵，近年来，半监督分割越来越受到关注，并在医疗图像分析领域变得无处不在。

一般地，在半监督医疗分割领域，标签数据和无标签数据从相同分布抽取。但在现实世界中，很难从标记数据中估计准确的分布，因为它们数据很少。因此，在大量未标注数据和极少量标注数据宗师存在经验分布不匹配。半监督分割方法总是尝试以一致的方式对称地训练标注和未标注数据。例如子训练生成为标签，以伪监督方式监督未标注数据。基于Mean Teacher的算法采用一致性损失来监督具有强增强的未标注数据，类似于监督具有GT的标注数据。ContrastMask在标注数据和未标注数据上应用密集对比学习。但是大部分已有的半监督算法在不同学习范式下使用标注和未标注数据。

CutMix是一种简单但强大的数据处理方法，也被称为复制黏贴（CP），它有可能鼓励未标注的数据从标注数据中学习常见的语义，因为同一图中的像素共享的语义更接近。在半监督学习中，未标注数据的弱-强增强对之间的强制一致性被广泛使用，并且CP通常被用作强增强。但现有的CP方法未考虑CP较差未标注数据，或者简单地将标注数据中物体复制为前景并黏贴到另一个数据。它们忽略了为标记数据和未标记数据设计一致的学习策略，这阻碍了其在减少分布差距方面使用。同时，CP试图通过增加未标注数据的多样性来增强网络泛化能力，但由于CutMix图像仅由低精度伪标签监督，因此很难实现高性能。

为了缓解标注数据和未标注数据之间经验不匹配问题，一个成功的设计是鼓励未标注数据从标注数据中学习全面的公共语义，同时通过对标注数据和未标注数据的一致学习策略来促进分布对齐。本文通过提出一种简单但非常有效的双向复制黏贴（BCP）方法实现这一点。该方法在Mean Teacher框架中实例化。具体地，为了训练学生网络，本文通过将随机裁剪从标记图像（前景）复制黏贴到未标注图像（背景）来增加输入。繁殖将随机裁剪从五标注图像（前景）复制黏贴到标注图像（背景）来增加输入。学生网络由生成的监督信息通过来自教师网络的未标注图像伪标签和标注图像的标签图之间的双向复制黏贴进行监督。这两个混合图像有助于网络双向对称地学习标注数据和未标注数据间通用语义。

w~视觉~合集3_视觉_31

Mean Teacher和训练策略

通过复制-黏贴预训练

本文对标注数据进行了复制黏贴增广来训练监督模型，监督模型在自训练过程中会为未标注数据生成伪标签。该策略已被证明能有效提高分割性能。

双向复制-黏贴

w~视觉~合集3_视觉_32

w~视觉~合集3_视觉_33

实验LA数据集

心房分割挑战[39]数据集包括100个带标签的三维钆增强磁共振图像扫描（GE MRI）。

这里选择UA-MT，SASSNet，DTC，URPC，MC-Net，SS-Net作为比较模型。这里给出了不同标签率下的实验结果。表1给出了相关实验结果。可以看出本文方法在4个评价指标上都获得最高的性能，大幅度超过比较模型。

w~视觉~合集3_视觉_34

Pancreases-NIT数据集

82个人工绘制的腹部CT增强体积。这里选择V-Net，DAN，ADVNET，UA-MT，SASSNet，DTC和CoraNet作为比较算法。表2给出了相关实验结果。本文方法BCP在Dice、Jaccard和95HD指标上实现了显著的改进（即分别以3.24%、4.28%和1.16的优势超过第二好）。这些结果没有进行任何后期处理以进行公平比较。

w~视觉~合集3_视觉_35

ACDC数据集

四类（即背景、右心室、左心室和心肌）分割数据集，包含100名患者的扫描。表3给出了相关实验结果。BCP超越了SOTA方法。对于标记比率为5%的设置，我们在Dice指标上获得了高达21.76%的巨大性能改进

w~视觉~合集3_视觉_36

#Imagen 2

先是前几天祭出大杀器 Gemini，发布会上的一系列 Demo 展示让人眼花缭乱。短短一周时间，现在谷歌又宣布了几个好消息：Gemini Pro 的第一个版本现在可以通过 Gemini API 访问；发布 Imagen 2；推出一系列针对医疗行业进行微调的模型 MedLM。谷歌最近真是好消息不断。Imagen 2可以生成质量更高、更逼真、更准确的图像。

在这些发布当中，文本到图像的 Imagen 2 受到大家格外的关注。此前，谷歌就推出了文本到图像扩散模型Imagen ，其生成的结果可谓是天马行空、奇幻又逼真。

现在，随着 Google DeepMind 宣布 Imagen 2 的到来，谷歌在图像生成领域又前进了一步。他们在官方 X 上表示：「Imagen 2 是我们最先进的文本到图像扩散技术，具有高质量，逼真的输出和与用户提示更强的一致性。」

开发人员和云客户可以通过 Google Cloud Vertex AI 中的 Imagen API 来使用 Imagen 2 。

Google Cloud Vertex AI 地址：https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available

Imagen 2 效果到底如何呢？我们继续往下看。

提示：「一张 32 岁女性在丛林中的照片，她是一位自然资源保护主义者；运动型短卷发，笑容温暖」。

w~视觉~合集3_视觉_37

提示：深蓝色背景中的水母。

w~视觉~合集3_视觉_38

提示：油画，一个桔子在砧板上。光穿过橙色的部分，在切菜板上投下橙色的光。背景中有一块蓝色和白色相交的布。焦散、反射光、富有表现力的笔触。

w~视觉~合集3_视觉_39

Imagen 2：更懂用户心思

为了创建更高质量、更准确以及更符合用户提示的图片，Google DeepMind 在 Imagen 2 训练数据集中进行了一些更改，他们在图像描述（caption）中添加了更详细的描述，这样一来 Imagen 2 可以学习不同的描述并加以概括，从而更好地理解用户提示。

经过增强的「图像 - 描述对」有助于 Imagen 2 更好地理解图像和文字之间的关系，从而增强对上下文和细微差别的理解。

以下是 Imagen 2 快速理解提示的示例：

提示：溪水潺潺，鸟儿唱着歌，它们混合的音乐在空中飘荡。（菲利斯・惠特利的《傍晚赞歌》）

w~视觉~合集3_视觉_40

提示：知更鸟从摇曳的常春藤丛中飞到墙顶，张开喙，唱起响亮、可爱的颤音，只是为了炫耀。世界上没有什么比知更鸟炫耀时更可爱的了。—— 它们几乎总是这么做。（弗朗西斯・霍奇森・伯内特的《秘密花园》）

w~视觉~合集3_视觉_41

提示：考虑一下海洋的微妙之处；其中最可怕的生物如何在水下滑行，大部分时间是不明显的，并且危险地隐藏在最美丽的蔚蓝色调之下。（赫尔曼・梅尔维尔的《白鲸》）

w~视觉~合集3_视觉_42

生成更逼真的图像

Imagen 2 在数据集和模型方面改善了文本到图像工具经常遇到的许多问题，包括渲染逼真的手和人脸，以及保持图像没有干扰视觉的伪影

w~视觉~合集3_视觉_43

Imagen 2 生成逼真手部和人脸的示例。

谷歌团队根据人类对照明、取景、曝光、清晰度等品质的偏好，训练了一个专门的图像美学模型。每张图片都会得到一个美学评分，这有助于调整 Imagen 2，使其在训练数据集中对符合人类偏好的图片给予更多权重。这项技术提高了 Imagen 2 生成高质量图像的能力。

w~视觉~合集3_视觉_44

使用 prompt「Flower」生成的图像，美学得分由低变高（从左到右）。

Imagen 2 甚至可以呈现图像中的文本。

w~视觉~合集3_视觉_45

它还可以为企业、品牌或产品设计 logo：

w~视觉~合集3_视觉_46

丝滑的风格调节

Imagen 2 基于扩散技术提供了高度的灵活性，使控制和调整图像风格变得更加容易。通过提供参考风格的图像并结合文字提示，使用者可以调节 Imagen 2 生成相同风格的新图像。

w~视觉~合集3_视觉_47

Imagen 2 通过使用参考图片和文本提示更容易地控制输出风格

「遥遥领先」的修补和扩图技术

Imagen 2 还支持修补（inpainting）和扩图（outpainting）等图像编辑功能。通过提供参考图像和图像遮罩，用户可以使用修补技术在原始图像中直接生成新内容，或者使用扩图技术将原始图像扩展到边界之外。Google Cloud 的 Vertex AI 计划在新的一年采用这项技术。

w~视觉~合集3_视觉_48

Imagen 2 可以通过修补技术直接在原始图像中生成新内容。

w~视觉~合集3_视觉_49

通过扩图，Imagen 2 可以将原始图像扩展到边界之外。

有责任感的设计

为了帮助降低文本到图像生成技术的潜在风险和挑战，谷歌团队从设计、开发到产品部署都设置了严格的防护措施。

Imagen 2 与 SynthID 集成，SynthID 是用于水印和识别人工智能生成内容的尖端工具包，允许 Google Cloud 客户在不影响图像质量的情况下，直接在图像像素中添加不易察觉的数字水印。这样一来，即使在应用滤镜、裁剪或有损压缩等修改后，SynthID 仍能检测到水印。

在向用户发布功能之前，研究团队会进行严格的安全测试，以最大限度地降低伤害风险。从一开始，他们就对 Imagen 2 的训练数据安全下了很多功夫，并添加了技术防护措施，限制暴力、攻击性或色情内容等有问题的输出。他们还在生成时对训练数据、输入提示和系统生成的输出进行安全检查。例如，应用全面的安全过滤器，以避免生成有潜在问题的内容，如指定个人的图像。随着 Imagen 2 功能的不断扩展和推出，研究团队也在不断对其进行安全评估。

参考链接：https://deepmind.google/technologies/imagen-2/?utm_source=twitter&utm_medium=social

#DINO~~

重温第一篇探索 ViT 模型在自监督学习领域的经典代表作

Paper：https://openaccess.thecvf.com/content/ICCV2021/papers/Caron_Emerging_Properties_in_Self-Supervised_Vision_Transformers_ICCV_2021_paper.pdf

https//arxiv.org/pdf/2104.14294.pdf

Code：https://github.com/facebookresearch/dino

DINO 是一种用于自监督视觉学习的深度学习模型，于 2021 年由 Facebook AI 提出。DINO 是最先探讨基于 Transformer 架构的自监督学习代表作之一，其通过在无标签图像上进行自监督训练来学习视觉特征表示。

DINO 是视觉 Transformer 做自监督学习的非常经典的工作。DINO 所要探究的问题是：自监督学习算法是否能够为视觉 Transformer 带来新的特性。本文给出了以下的观察：首先，自监督训练得到的 ViT 包含关于图像语义分割的显式信息，这在以往的有监督训练和卷积网络里面都是不具备的。其次，这些特征也是优秀的 k-NN 分类器，ViT-Small 在 ImageNet 上达到了 78.3% 的 top-1 精度。DINO 还研究了自监督训练中的 momentum encoder，multi-crop training 以及在 ViT 中使用小 Patch 的技巧。

自监督训练得到的 ViT 包含关于图像语义分割的显式信息，这在以往的有监督训练和卷积网络里面都是不具备的。这些特征也是优秀的 k-NN 分类器，ViT-Small 在 ImageNet 上达到了 78.3% 的 top-1 精度。DINO 还研究了自监督训练中的 momentum encoder，multi-crop training 以及在 ViT 中使用小 Patch 的技巧。

相比于监督学习需要人为地提供标签告诉模型这是什么，自监督学习无须任何“显示”标签，只需输入图像通过某种机制便能让网络学会理解图像本身的语义信息。例如，我们可以通过图像旋转、随机裁剪等变换，使模型学习到不同角度、不同尺度下的特征。另外，也可以通过模型自身的预测来构建任务，例如预测图像的局部块、颜色等等。这些任务由于不需要人类标注，因此可以在大规模的无标签数据上进行训练，从侧面上提供了一种从无标签数据中学习特征表示的新方法，它可以帮助我们更好地利用现有数据资源，解决监督学习中的一些瓶颈问题。

回到正题，DINO 的核心思想便是通过在大规模的无标签数据集上进行对比学习，学习出一组具有可传递性的视觉特征表示。在 DINO 中，作者通过引入一个新的对比学习方法，将原始图像的特征与随机裁剪的图像的特征进行对比，从而学习到更好的视觉通用表征，最终也获得了非常出色的效果。

w~视觉~合集3_视觉_50

DINO 这个名称可以理解为是由 Distillation 和 NO labels 这两个词组成的缩写，既表达了DINO采用自蒸馏方法的特点，也突出了它是一种基于无监督学习的模型。具体来说，DINO 是使用一种称为“无监督自蒸馏”的方法，该方法通过自监督学习来学习模型的知识表示。在这个方法中，模型使用自身的输出来生成“伪标签”，然后使用这些伪标签来重新训练模型，从而进一步提高模型的性能和泛化能力。

作为开始，我们给出一张动图，其非常生动形象的展示了贯穿 DINO 的整个框架和核心思想：

w~视觉~合集3_视觉_51

如上所示，DINO 本质上是一种自监督学习方法，通过无监督的方式学习图像特征表示，可用于计算机视觉的其他下游任务，例如分类和检测等。该方法的核心思想是使用一种叫做自蒸馏的方法，即将一个学生模型的表示与一个动量化的教师模型的表示进行比较，以学习出更好的特征表示。

在正式讲解具体细节前，我们可以先看看 DINO 整个处理流程的伪代码：

w~视觉~合集3_视觉_52

下面我们将分别从网络结构、数据增强、损失函数三大部分进行详细的介绍。

网络结构

正如我们上面提到过的，DINO 是采用自蒸馏(self-distillation)的方法学习的，其整体框架包含两个相同的架构，分别为教师网络和学生网络，具体的架构可以是 ViT 等 vision transformer 或者诸如 ResNet 等 CNNs 特征提取器，非常灵活方便。当然，通过下述消融实验也知道还是 ViT 的潜力更大。

w~视觉~合集3_视觉_53

然而，这种学生和教师网络均输出相同 embeddings 的情况容易出现模式崩塌(mode collapse)的现象。在《Momentum Contrast for Unsupervised Visual Representation Learning》一文中提出了一种解决方案，即应用“动量教师”(momentum tearcher)模型，可以简单地理解为就是教师的模型不是基于反向传播更新的，而是再对学生模型进行梯度回传后，在通过指数移动平均(Exponentially Weighted Average, EWA)，直接将学生网络学习到的模型参数更新给教师网络，换句话就是教师网络的权重更新自学生网络。

DINO 中便是沿用这种方式。具体地，我们可以简单看下教师权重的更新公式：

w~视觉~合集3_视觉_54

数据增强

DINO 中最核心的数据采样策略便是图像裁剪，这也是自监督学习领域应用非常广泛的主策略之一。一般来说，我们可以将裁剪后的图像分为两种：

Local views: 即局部视角，也称为 small crops，指的是抠图面积小于原始图像的 50%；

Global views: 即全局视角，也称为 large crops，指的是抠图面积大于原始图像的 50%；

在 DINO 中，学生模型接收所有预处理过的 crops 图，而教师模型仅接收来自 global views 的裁剪图。据作者称，这是为了鼓励从局部到全局的响应，从而训练学生模型从一个小的裁剪画面中推断出更广泛的上下文信息。

简单来说，就是把局部特征和全局特征分别交给不同的模型来学习，以便在处理整个图像时，能够更好地对局部细节和上下文进行综合判断。

此外，为了使网络更加鲁邦，DINO 中也采用一些其它的随机增强，包括：

颜色扰动(color jittering)

高斯模糊(Gaussian blur)

曝光增强(solarization)

损失函数

在 DINO 中，教师和学生网络分别预测一个一维的嵌入。为了训练学生模型，我们需要选取一个损失函数，不断地让学生的输出向教师的输出靠近。softmax 结合交叉熵损失函数是一种常用的做法，来让学生模型的输出与教师模型的输出匹配。具体地，通过 softmax 函数把教师和学生的嵌入向量尺度压缩到 0 到 1 之间，并计算两个向量的交叉熵损失。这样，在训练过程中，学生模型可以通过模仿教师模型的输出来学习更好的特征表示，从而提高模型的性能和泛化能力。

当然，这也可以看作是一个分类问题，以便网络可以从局部视图中学习更有意义的全局表示。

w~视觉~合集3_视觉_55

DINO Flow

Centering and Sharpening

在 DINO 论文中，还有两个不得不提的点便是 Centering 和 Sharpening，这是用于防止模式崩塌的两种有效方式。

在自监督学习中，mode collapse 是指网络的学习过程中出现了多样性减少的现象。具体来说，当网络学习到一组特征表示时，往往会出现多个输入数据映射到相同的特征表示的情况，这就是所谓的模式崩塌。这种现象通常是由于网络在优化过程中陷入了局部最优解，只能考虑到一部分数据的特征表示，而忽略了其它数据样本的模式和特征，从而导致了多样性缺失的现象，因此会对模型的鲁棒性产生很大的负面影响。

先来看下 Centering。首先，教师模型的输出经过一个 EMA 的操作，从原始激活值中减去得到一个新的结果。简单来说，可以表述为下列公式：

w~视觉~合集3_视觉_56

这个操作的目的是使得激活值有时候是正的（当它们高于平均值时），有时候是负的（当它们低于平均值时）。由于 softmax 函数在处理负数时会给出较小的概率值，而在处理正数时会给出较大的概率值，因此这种操作能够防止任何一个特征占据统治地位，因为平均值会在值的范围中间。

最后，再看看 Sharpening。这种技巧通过在 softmax 函数中加入一个 temperature 参数，来强制让模型将概率分布更加尖锐化。由于小差异会被夸大，这会防止所有激活值都是相同的，因为小的差异也会被放大。这个技巧和中心化操作搭配使用，可以使得激活值不断变化，从而引导学生模型更好地了解哪些特征应该变得更加强大。

实验

首先，看下这张效果图：

w~视觉~合集3_视觉_57

可以看出，DINO 是能够自动学习特定于类别(class-specific)的特征，从而实现准确的无监督对象分割。

其次，我们将此模型应用于未受过训练的场景，例如用于识别重复图像：

w~视觉~合集3_视觉_58

可以看出，DINO 的表现也优于现有的最先进模型，尽管它起初并不是为这一目的设计的！

w~视觉~合集3_视觉_59

通过以上可视化结果不难看出，相比于监督学习，DINO 的潜在空间也具有很好的分离类别，这意味着它的特征足够丰富，可以分离物体中的微小差异，这使得它非常适合下游任务和迁移学习。

最后，我们通过 t-SNE 可视化一起看看 DINO 的整个学习表征过程：

w~视觉~合集3_视觉_60

Amazing!

DINO 训练策略

DINO 中的 ViT 架构使用 DeiT 的实现，Patch Size 使用8或者16。DINO 也像 ViT 那样给模型加了一个 [CLS] token，即使它没有附加到任何标签或监督信息。Self-attention 机制更新这个 token。

在评估时，除了 linear evaluation 和 finetuning evaluation 之外，作者还额外尝试了 k-NN evaluation。作者冻结了预训练模型，然后存储下游任务训练数据的特征。

DINO 网络架构

消融实验结果

不同组件的作用

Patch Size 的作用

教师模型训练策略的作用

避免坍塌

总结

DINO，这是第一篇探索 ViT 模型在自监督学习领域的经典代表作。DINO 整体架构基于自蒸馏的范式进行构建，包含一个教师网络和学生网络。其中，学生网络学习从局部补丁预测图像中的全局特征，该补丁受动量教师网络嵌入的交叉熵损失的监督，同时进行居中和锐化以防止模式崩溃。

在 DINO 诞生的时期，视觉 Transformer 与 ConvNet 相比才刚刚具备竞争力，但是那是还没有明显的优势。而且，当时视觉 Transformer 对于计算量要求更高，需要更多的训练数据，且特征没有表现出独特的属性。

因此，本文想要探索一下 Transformer 成功的关键是不是来自 Self-supervised Learning。其主要的动机是 Transformer 在 NLP 中成功的主要原因就是 Self-supervised Learning，比如 BERT 的 Masked Language Modeling 或者 GPT 的 Language Modeling。自监督训练会根据上下文创建一个任务，这些任务相比于有监督训练的预测标签来讲，可以提供更加丰富的学习信号。同样的道理，图像的有监督训练是把图像中包含的丰富的视觉信息压缩到只有类别的标签信息。

因此，本文研究自监督预训练对 ViT 特征的影响。本文给出了几个有趣的观察，这些观察在以往的有监督训练以及卷积网络里面都没有：

自监督训练 ViT 得到的特征显式地包含场景布局，尤其是对象的边界。这个信息一般在自监督训练的视觉 Transformer 的最后一个 Block 得到，如图1所示。这个发现作者认为几乎是所有的自监督学习方法的共同特性。

自监督训练的视觉 Transformer 的特征可以在不经过任何微调，线性分类器，以及数据增强的前提下，仅仅使用最简单的 k-NN 分类器，就能实现 78.3% 的 top-1 ImageNet 精度。这个发现作者认为并不是所有自监督方法的共性，而是仅仅当包含一些特殊的组件比如 momentum encoder，或者使用了特殊的数据增强比如 multi-crop augmentation 的时候才会出现。

DINO 算法伪代码如下。

# gs, gt: student and teacher networks
# C: center (K)
# tps, tpt: student and teacher temperatures
# l, m: network and center momentum rates
gt.params = gs.params
for x in loader: # load a minibatch x with n samples
    x1, x2 = augment(x), augment(x) # random views

    s1, s2 = gs(x1), gs(x2) # student output n-by-K
    t1, t2 = gt(x1), gt(x2) # teacher output n-by-K

    loss = H(t1, s2)/2 + H(t2, s1)/2
    loss.backward() # back-propagate

    # student, teacher and center updates
    update(gs) # SGD
    gt.params = l*gt.params + (1-l)*gs.params
    C = m*C + (1-m)*cat([t1, t2]).mean(dim=0)

def H(t, s):
    t = t.detach() # stop gradient
    s = softmax(s / tps, dim=1)
    t = softmax((t - C) / tpt, dim=1) # center + sharpen
    return - (t * log(s)).sum(dim=1).mean()

#UNet v2

一种新的U-Net变体U-Net v2被引入，该变体具有改进医学图像分割的新颖和简单跳过连接设计。这种设计通过使用哈达马乘法将语义信息从高级特征和从低级特征中获取的更精细的细节集成到由编码器生成的特征图的每个级别中。在Skin Lesion和Polyp Segmentation数据集上的实验验证了作者的U-Net v2的有效性。比UNet显存占用更少、参数更少，猛涨20个mIoU

在本文中，作者介绍了一种新的、鲁棒且高效的U-Net变体，用于医学图像分割。它的目标是同时增强低级特征中的语义信息注入，并使用更细的细节精炼高级特征。对于输入图像，作者首先使用深度神经网络编码器提取多级特征。接下来，通过将高级特征的语义信息与低级特征的细粒度信息通过哈达马乘积相结合，增强每级特征图。作者的新跳过连接使所有级别的特征都具有丰富的语义特性和复杂的细节。改进的特征随后被传输到解码器进行进一步处理和分割。作者的方法可以无缝集成到任何编码器-解码器网络中。
作者在几个公共的医学图像分割数据集上评估本文的方法，包括皮肤病变分割和息肉分割，实验结果表明，与最先进的方法相比，新方法具有更高的分割精度，同时保持了内存和计算效率。

代码：https://github.com/yaoppeng/U-Net_v2

1 Introduction

随着现代深度神经网络的进步，语义图像分割取得了显著的进展。语义图像分割的典型范式涉及一个编码器-解码器网络，其中包含跳过连接。在这个框架中，编码器从输入图像中提取分层的和抽象的特征，而解码器则使用编码器生成的特征图，以像素为单位重建分割掩膜或图，并对输入图像中的每个像素分配一个类标签。已经进行了一系列研究，以将全局信息集成到特征图，并增强多尺度特征，从而在分割性能方面取得了显著的改进。

在医学图像分析领域，准确的图像分割在计算机辅助诊断和分析中起着关键作用。U-Net最初用于医学图像分割，利用跳过连接在每个级别的编码器和解码器之间进行连接。跳过连接使解码器能够访问来自较早的编码器阶段的特征，因此同时保留了高级语义信息和细粒度空间细节。这种方法便于在医学图像中精确划分对象边界和提取小结构。此外，采用密集连接机制通过将所有级别的所有阶段的特征连接在一起来减少编码器和解码器之间特征的差异。设计了一种机制，通过将来自较高和较低级别的不同尺度的特征连接在一起来增强特征。

然而，基于U-Net的模型中的这些连接可能并不足以有效地集成低级和高级特征。例如，在ResNet中，一个深度神经网络被构建为一个多个浅层网络的集成，并且明确添加的残差连接表明，即使在一个亿像素图像数据集上进行训练，网络也很难学习身份映射函数。

关于编码器提取的特征，低级特征通常保留更多的细节，但缺乏足够的语义信息和可能包含不希望的噪声。相比之下，高级特征包含更多的语义信息，但由于分辨率显著降低，因此缺乏精确的细节（例如，对象边界）。简单地将特征通过串联进行融合将严重依赖于网络的学习能力，这通常与训练数据集的大小成正比。这是一个具有挑战性的问题，尤其是在医学影像的背景下，通常受到数据的限制。通过在多个级别之间通过密集连接串联低级和高级特征，可能限制不同级别信息的贡献，并可能引入噪声。另一方面，尽管新增的卷积操作并未显着增加参数数量，但GPU内存消耗将上升，因为所有中间特征图和相应的梯度都必须在正向传播和反向梯度计算中进行存储。这导致GPU内存使用和浮点运算（FLOPs）的增加。

在[8]中，反向注意力被用来明确建立多尺度特征之间的联系。在[9]中，ReLU激活被应用到高级特征，并将激活的特征与低级特征相乘。此外，在[10]中，作者提出分别从CNN和Transformer模型中提取特征，将CNN和Transformer分支在多个级别上的特征组合，以增强特征图。然而，这些方法都较为复杂，且其性能尚不令人满意，因此需要进一步改进。

在本文中，作者提出了一种新的基于U-Net的分割框架，具有简单且高效的跳过连接。作者的模型首先使用CNN或Transformer编码器提取多级特征图。接下来，对于第i级的特征图，作者通过简单的哈达马乘法操作明确注入包含更多语义信息的高级特征和包含更精细细节的低级特征，从而增强第i级特征的语义和细节。随后，优化的特征被传输到解码器进行分辨率重建和分割。

作者的方法可以无缝集成到任何编码器-解码器网络中。作者在两个医学图像分割任务上评估了作者的新方法，即皮肤病变分割和息肉分割，使用了公开可用的数据集。实验结果表明，作者的U-Net v2在这些分割任务上始终优于最先进的方法，同时保持FLOPs和GPU内存效率。

2 Method

Overall Architecture

w~视觉~合集3_视觉_61

Semantics and Detail Infusion (SDI) Module

w~视觉~合集3_视觉_62

w~视觉~合集3_视觉_63

3 Experiments

Datasets

作者使用以下数据集来评估作者的新U-Net v2。

ISIC数据集：用于皮肤病变分割的两个数据集是：ISIC 2017，包含2050张皮肤病变镜像，ISIC 2018，包含2694张皮肤病变镜像。为了公平比较，作者遵循[13]中规定的训练/测试划分策略。

息肉分割数据集：作者使用了五个数据集：Kvasir-SEG，ClinicDB，ColonDB，Endoscene和ETIS。为了公平比较，作者遵循[8]中的训练/测试划分策略。具体而言，ClinicDB中的900张图像和Kvasir-SEG中的548张图像被用作训练集，其余图像被用作测试集。

Experimental Setup

w~视觉~合集3_视觉_64

如同[13]中的方法, 作者在ISIC数据集上报告DSC (Dice相似系数) 和IoU (交并比) 得分。对于息肉数据集, 作者报告DSC, IoU和MAE (平均绝对误差) 得分。每个实验运行 5 次, 报告平均结果。作者使用Pyramid Vision Transformer (PVT) 作为特征提取的编码器。

Results and Analysis

在ISIC数据集上的比较结果如表1所示。如所示，作者提出的U-Net v2在ISIC 2017和ISIC 2018数据集上分别将DSC分数提高了1.44%和2.48%，并将IoU分数提高了2.36%和3.90%。这些改进证明了作者的提出的方法将语义信息和更精细的细节注入每个特征图的有效性。

w~视觉~合集3_视觉_65

息肉分割数据集上的比较结果如表2所示。如所示，作者提出的U-Net v2在Kavasir-SEG，ClinicDB，ColonDB和ETIS数据集上分别超过了Poly-PVT，在这些数据集上的DSC分数分别提高了1.1%，0.7%，0.4%和0.3%。这进一步证明了作者在每个级别将语义信息和更精细的细节注入特征图的提出方法的一致有效性。

w~视觉~合集3_视觉_66

Ablation Study

作者使用ISIC 2017和ColonDB数据集进行消融研究，以检查作者的U-Net v2的有效性，具体如表3所示。具体而言，作者使用PVT模型作为UNet++的编码器。请注意，当作者的SDI模块被移除时，U-Net v2退化为一个普通的U-Net，具有PVT Backbone。

w~视觉~合集3_视觉_67

SC表示SDI模块内的空间和通道注意。从表3可以看出，与没有SDI的U-Net v2（即具有PVT编码器的U-Net）相比，UNet++表现出轻微的性能降低。这种下降可能归因于由密集连接生成的多级特征的简单串联，这可能会使模型困惑并引入噪声。表3证明了SDI模块对整体性能的贡献最大，这突出了作者提出的跳过连接（即SDI）始终产生性能改进的一致性。

Qualitative Results

一些在ISIC 2017数据集上的定性示例如图2所示，这些示例证明了作者的U-Net v2能够将语义信息和更精细的细节集成到每个特征图，因此作者的分割模型可以捕捉到物体边界的更细微细节。

w~视觉~合集3_视觉_68

Computation, GPU Memory, and Inference Time

为了检查作者的U-Net v2的计算复杂性、GPU内存使用和推理时间，作者在表4中报告了作者的方法U-Net、UNet++的参数、GPU内存使用、FLOPs和FPS。所有实验都使用float32作为数据类型，导致每个变量使用4B的内存。GPU内存使用记录了在正向/反向传播过程中存储的参数和中间变量的尺寸。表示输入图像的大小。所有测试都在NVIDIA P100 GPU上进行。

w~视觉~合集3_视觉_69

在表4中，作者可以观察到UNet++引入了更多的参数，并且由于在密集正向过程中存储了中间变量（例如，特征图），其GPU内存使用更大。通常，这些中间变量比参数消耗更多的GPU内存。此外，U-Net v2的FLOPs和FPS也优于UNet++。与U-Net（PVT）相比，作者的U-Net v2的FPS减少是有限的。

4 Conclusions

一种新的U-Net变体U-Net v2被引入，该变体具有改进医学图像分割的新颖和简单跳过连接设计。这种设计通过使用哈达马乘法将语义信息从高级特征和从低级特征中获取的更精细的细节集成到由编码器生成的特征图的每个级别中。在Skin Lesion和Polyp Segmentation数据集上的实验验证了作者的U-Net v2的有效性。复杂性分析表明，U-Net v2在FLOPs和GPU内存使用方面也具有效率。

#SSD-Det

这里提出了一种基于空间自蒸馏的对象检测器（SSD-Det）来挖掘空间信息，以自蒸馏的方式细化不准确的框。

paper：https://arxiv.org/pdf/2307.12101.pdf

code：https://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Det

本文要解决的问题：

在目标检测任务中，当只有不精确的bounding box作为监督信号时，模型的检测性能会显著下降。而获取精确的bounding box标注又非常耗时费力。那么如何利用这些不精确的bounding box来训练更加鲁棒的目标检测模型？

具体而言：

获取精确的bounding box标注代价高昂且具有挑战性。
直接使用不精确的bounding box会导致目标漂移、组预测和局部关键区域预测等问题。
以往的方法通常依赖类别信息进行框的选择和调整，没有充分利用空间信息。

为了解决这些问题，本文提出基于空间自蒸馏的目标检测网络SSD-Det(Spatial Self-Distillation based Object Detector)。主要贡献是：

提出了SPSD( Spatial Position Self-Distillation)模块，利用空间信息生成更高质量的候选框。
提出了SISD( Spatial Identity Self-Distillation)模块，预测每个候选框与目标的空间IoU，辅助选择最佳框。
SPSD和SISD模块相结合，有效利用了空间信息和类别信息，显著提升基于不精确box的目标检测性能。
在MS-COCO和VOC数据集上进行实验表明，该方法优于其它state-of-the-art方法。

w~视觉~合集3_视觉_70

w~视觉~合集3_视觉_71

方法

本文目标是用不精确的边界框学习一个稳健的检测器。本文设计一个分支来细化不精确的边界框，然后用细化的框训练检测器头或检测器。最重要的部分是如何设计细化策略。本文首先设计了一个基本的两阶段框细化器(图3中的灰色区域)，作为原始解决方案。然后，提出SPSD和SISD并添加到其中，以进一步利用空间线索进行框细化，产生SSD-Det。总体损失函数公式化为：

w~视觉~合集3_视觉_72

w~视觉~合集3_视觉_73

主要创新模块

本文主要创新包含三大模块：Basic Box Refiner模块，SPSD模块以及SISD模块（见figure3）。这三者的作用、关系及联系如下：

Basic Box Refiner

(1) 作用：提供基础框架，依赖分类信息进行候选框精炼。

(2) 原理：

对每个物体生成候选框组成bag
使用分类分支预测每个框属于各类别的概率
使用实例分支预测每个框被选中的概率
计算分类概率和实例概率的乘积作为框的得分
选择得分最高的前k个框，计算其加权平均作为精炼结果

(3) 问题：仅依赖分类信息容易导致目标漂移、组预测等问题

SPSD

(1) 作用：1、改进候选框的生成；2、使用空间信息提升框质量；3、为后续精炼提供更好的上限

(2) 原理：

输入：Basic Box Refiner产生的候选框
输出：更高质量的候选框
预测更准确的框来优化候选框的生成
使用回归网络学习候选框之间的空间对应关系
监督信号是不精确的ground truth框
预测框与ground truth框的空间偏差
利用学习到的空间知识纠正基础框生成模块的误差
迭代优化，产生更准确接近ground truth的候选框

SISD

(1) 作用：1、改进候选框的选择；2、引入空间信息，缓解目标漂移、组预测等问题；3、选择更准确的框进行精炼。

(2) 原理：

对每个候选框预测其与目标的空间IoU
IoU与分类概率相结合作为新得分进行选择

(3) 效果：

引入空间信息，缓解目标漂移、组预测等问题
选择更准确框进行精炼

三者关系与联系

(1) Basic Box Refiner提供整体框架；(2) SPSD受Basic Box Refiner监督进行迭代训练；(3) SISD预测的IoU可指导Basic Box Refiner的选择；(4) 三者一起组成完整的端到端框精炼网络；(5) Basic Box Refiner依赖分类信息；(6) SPSD和SISD引入空间信息进行增强；(7) 三者相互配合达到更好的精炼效果。

总的来说Basic Box Refiner提供基础框架，SPSD和SISD是关键的创新点，引入空间信息增强鲁棒性，三者相互配合形成端到端的框精炼网络，但各自作用不同又相互补充，共同解决基于弱监督框的检测问题！

实验

实验设置

数据集和评估指标。MS-COCO和PASCAL VOC 2007。MS-COCO(2017版本)有118k训练和5k验证图像，包含80个常见对象类别。PASCAL VOC 2007是最流行的通用目标检测基准数据集之一，包含20个类别。

评估指标。COCO的平均精度(AP)和VOC的mAP@[0.5，0.95]及mAP@.5进行评估。报告{AP，AP50，AP75，AP小，AP中，AP大}指标。

合成嘈杂数据集。通过扰动原始标注中的干净框来模拟嘈杂的边界框。在VOC上模拟10%到40%的各种框噪声水平，在COCO上模拟{20%，40%}。

实现细节。本文基于MMDetection在FasterRCNN上用ResNet50-FPN backbone实现方法。所有设置与先前方法采用FPN以进行公平比较。与MS-COCO上的对象检测默认设置相似，本文在8个GPU上以每GPU2个图像的批量大小使用随机梯度下降算法进行1x训练计划进行优化。对于VOC数据集，批量大小为每GPU 2个图像，2个GPU。本文报告的是单尺度(COCO为1333 * 800，VOC为1000 * 600)的性能。

与SOTA的比较

在MS-COCO和VOC 2007数据集上与几种最新方法进行比较。Clean-FasterRCNN和Noisy-FasterRCNN分别表示在干净(原始标注)和嘈杂标注下默认设置训练的FasterRCNN模型。

MS-COCO数据集。表1显示了在MS-COCO上的比较结果。不精确的边界框标注明显降低了vanilla Faster R-CNN的检测性能。Co-teaching和SD-LocNet只轻微提高了检测性能，特别是在40%框噪声下。这表明小损失样本选择和样本权重分配无法很好地处理嘈杂的框标注。KL Loss略微改善了20%和40%框噪声下的性能。通过将对象视为实例包，OA-MIL在一定程度上对嘈杂的边界框具有鲁棒性，并优于其他方法。尽管如此，之前提到的标签分配包构建限制了其在重度噪声下的能力。本文的方法对嘈杂的边界框更具鲁棒性。它以大幅度优势击败其他方法，在高框噪声水平下显著提升了各项指标的性能。例如，在40%框噪声下，端到端的SSD-Det达到27.6 AP和53.9 AP50，相比最先进的方法OA-MIL分别提高9.0和11.3点。另外，通过在FasterRCNN上重新训练，性能进一步达到29.3 AP和54.8 AP50。使用ResNet-101作为backbone时，性能也获得一致的改进。在MS-COCO测试集上，本文的方法也取得了最先进的性能。

w~视觉~合集3_视觉_74

VOC 2007数据集。表2显示在VOC 2007测试集上的比较结果。Co-teaching、SD-LocNet和KL Loss无法很好地处理不精确的边界框标注。OA-MIL在不同的嘈杂数据集上改进了性能。本文的方法在10%、20%、30%和40%嘈杂框数据集上进一步改进，分别达到77.10、74.80、71.50和66.90 AP50。

w~视觉~合集3_视觉_75

消融实验分析

为进一步分析SSD-Det的有效性和鲁棒性，本文在COCO验证集上进行了更多消融实验。

模块消融。表3给出了本文方法中每个组件的消融研究，包括：(i) 基本框细化器的不同阶段。即不带第二阶段(2-Ref)训练对象检测器，其中第一阶段预测的伪框用作并行检测器的监督。(ii) SPSD，即不带SPSD训练，其中对象包（object-bag）直接通过围绕嘈杂真值或第一阶段预测的伪框的邻域采样构建。(iii) SISD。(iv) 使用FasterRCNN重新训练(Re-Train)。

SPSD有效性。如表3所示，SPSD在MS-COCO上进一步改进了检测性能，特别是在高框噪声水平下，例如在40%框噪声水平下，SPSD将性能从24.6提升到27.2。在表4中，本文对SPSD进行了进一步的切割。仅在第二阶段采用SPSD包构建，性能提高了1.4 AP。当使用第一阶段的建议分数作为权重时，性能进一步改进。在所有阶段都采用SPSD时，AP达到27.2。图5显示了包质量。使用SPSD后，平均IoU从40.3增加到58.7，最大值和前10个IoU增加到78.3和75.1，这表明提案选择的上限更好。更多高质量建议带来更好的优化和更容易的建议选择。

w~视觉~合集3_视觉_76

SPSD模块数量。如表6所示，添加3个SPSD时，性能略有下降，可能是由于错误累积超过额外阶段带来的性能提升。因此，2个SPSD是本文的默认设置。

w~视觉~合集3_视觉_77

SISD的有效性。SISD旨在在框选择中选择与对象相关的建议。在40%和20%框噪声下，检测性能分别从27.2提高到27.6和从33.0提高到33.6，这验证了该模块的有效性，如表3所示。本文还研究了SISD中的ORE策略(表5)。对象特征F+j与建议特征Fj的减法或拼接都不起作用。使用加法策略时，性能为27.60。如果SISD共享两个fc层，则性能降至22.99，因为优化目标是相互矛盾的(身份区分同一类别中的对象)。如果直接使用RoI特征而没有ORE，性能下降到27.32 AP，验证了对象相关性策略的有效性。重新训练的影响。与大多数WSOD方法一样，本文通过训练一个完全监督的检测器(例如Faster R-CNN或RetinaNet)来进行回归对象位置以获得更精确的结果。如表7所示，本文在40%和20%噪声数据集上获得了更好的结果，分别为20.29 AP和34.37 AP。本文还发现，如果SSD-Det仅训练细化器并使用伪标签训练FasterRCNN，结果很好但低于联合训练后重新训练给出的结果(表7第1行)。这是因为联合训练有利于框细化。

w~视觉~合集3_视觉_78

在不同检测器上的实验。本文在本文方法细化的框上重新训练最近的检测器，例如SparseRCNN和Deformable DETR。表8验证了本文的方法实现了一致的改进。

w~视觉~合集3_视觉_79

w~视觉~合集3_视觉_80

可视化和讨论。图4显示OA-MIL面临小或重叠对象的缺失实例和部分预测问题，而本文的方法效果仍很好。为了更好地直观地理解SISD和SPSD，本文在图5中可视化了SSD-Det中包构建的质量。然后，本文对“漂移”、“组”和“局部支配”问题进行了分解。

w~视觉~合集3_视觉_81

本文统计计算基线和本文的三种噪声类型的“坏”细化框(与真值IoU较小)的比例，如表9所示。漂移、组和局部问题从15.1%、6.7%、2.8%降低到1.5%、1.7%、1.0%，表明本文的改进。

w~视觉~合集3_视觉_82

真实生活嘈杂标注实验。真实生活嘈杂标注源自：低质量数据(例如遮挡、模糊)、人类标注错误和自动机器标注器局限性。来自人为错误的噪声相当主观，因为标注者之间的差异。为了更客观的分析，使用来自机器标注器的嘈杂标注进行实验。本文将好的训练过的Faster R-CNN应用于Objects365图像，生成Objects-F数据集，应用于COCO-val图像生成COCO-F数据集。使用P2BNet（基于点的标注器）用于COCO-val图像带点标注生成COCO-P数据集。SSD-Det有效改进了低质量框。如表10所示，使用SSD-Det的细化，Objects-F(从44.3提高到47.0)、COCO-F(从45.1提高到48.2)和COCO-P(从55.6提高到65.2)数据集的平均IoU均有所提高。此外，所有数据集的可靠标注比例增加，噪声类别的频率(局部、过大和位移)均有所降低。

结论

本文主要解决目标检测任务中，当只有不精确的bounding box作为监督信号时，模型的检测性能会显著下降的问题，在工程实际中，特别是标注资源较少时，将大模型进行预标注结果直接拿来训练，具有较大实用价值！

#Plain-DETR

无多尺度特征图&特定局部约束，DETR无痛涨点！微软亚研院提出DETR最强改进策略,改进原始的DETR检测器，同时保持其“简单”的特性：没有多尺度特征图，也没有交叉注意力计算的局部性设计。

论文提出了一种改进的DETR检测器，保持了“简单”的特性：使用单一尺度的特征图和全局交叉注意力计算，而没有特定的局部约束，与之前领先的基于DETR的检测器形成对比，后者重新引入了多尺度和局部性的架构归纳偏见到解码器中。作者展示了在“简单”设计内两种简单的技术出奇制胜，以弥补多尺度特征图和局部性约束的不足。

第一种是将一个BBox到像素的相对位置偏差（BoxRPB）项添加到交叉注意力的公式中，这个项可以很好地引导每个查询关注对应的目标区域，同时提供编码的灵活性。
第二种是基于Mask图像建模（MIM）的Backbone预训练，有助于学习具有精细定位能力的表示，并且在弥补多尺度特征图的依赖方面至关重要。

通过整合这些技术和最近在训练和问题制定方面的进展，改进的“简单”DETR相对于原始的DETR检测器表现出了显著的改进。通过利用Object365数据集进行预训练，它在使用Swin-L Backbone的情况下实现了63.9的mAP准确率，这在竞争激烈的最新检测器中是非常有竞争力的，所有这些检测器都严重依赖多尺度特征图和基于区域的特征提取。

代码：https://github.com/impiga/Plain-DETR

最近NLP领域的革命性进展突显了将任务特定的 Head 或解码器保持尽可能通用、简单和轻量化的重要性，并将主要精力转向构建更强大的大规模基础模型。然而，计算机视觉社区通常继续专注于任务特定 Head 的调整和复杂性，导致设计变得越来越繁重和复杂。

基于DETR的目标检测方法的发展也遵循了这个轨迹。原始的DETR方法令人印象深刻，因为它放弃了复杂和领域特定的设计，比如多尺度特征图和需要专门理解特定目标检测问题的基于区域的特征提取。然而，该领域的后续发展重新引入了这些设计，虽然提高了训练速度和准确性，但也违反了“更少的归纳偏见”的原则。

在这项工作中，作者的目标是改进原始的DETR检测器，同时保持其“简单”的特性：没有多尺度特征图，也没有交叉注意力计算的局部性设计。这是具有挑战性的，因为目标检测器需要处理不同尺度和位置的目标。尽管最新的训练和问题制定方面取得了一些进展，如表1所示，但普通DETR方法仍然远远落后于利用多尺度特征图和基于区域的特征提取设计的最新检测器。

w~视觉~合集3_视觉_83

那么，在解决多尺度和任意位置目标的架构“归纳偏见”方面，作者该如何补偿呢？作者的探索发现，在这种情况下，尽管不是全新的，但两种简单的技术出奇制胜：

BBox到像素的相对位置偏差（BoxRPB）
Mask图像建模（MIM）预训练

BoxRPB受到了视觉Transformer中相对位置偏差（RPB）项的启发，它编码了像素之间的几何关系，并增强了平移不变性。BoxRPB将RPB扩展到编码4D框和2D像素之间的几何关系。作者还提出了一种用于高效计算的轴向分解方法，与使用完整项相比，不会损失精度。

作者的实验表明，BoxRPB项可以很好地引导交叉注意力计算，使其专注于各个目标（见图4），并将检测准确性显著提高了+8.9 mAP，达到了COCO基准上37.2 mAP的普通DETR Baseline （见表2）。

MIM预训练的利用是提高普通DETR性能的另一项关键技术。作者的结果还表明，在普通DETR Baseline 的基础上，MIM预训练可以显著提高+7.4 mAP（见表2），这可能归因于它的精细定位能力。虽然MIM预训练已经被证明可以适度提高其他检测器的性能，但在普通设置中，它的影响深远。

此外，这项技术已经被证明是消除从Backbone中使用多尺度特征图的必要性的关键因素，从而利用分层Backbone或单一尺度 Head 的检测器。

通过整合这些技术和在训练和问题制定方面的最新进展，作者改进的“简单”DETR在原始DETR检测器的基础上取得了显著的改进，如图1所示。

w~视觉~合集3_视觉_84

此外，作者的方法在利用Object365数据集进行预训练时实现了63.9 mAP的准确性，使其与依赖多尺度特征图和基于区域特征提取技术的最新目标检测器（如级联R-CNN和DINO等）相比，具有很高的竞争力。

除了这些成果，作者的方法还示范了如何在设计任务特定 Head 或解码器时最小化架构“归纳偏见”，而不是依赖于特定于检测的多尺度和局部化设计。作者的研究希望激发未来的研究，使用通用的普通解码器，例如DETR的解码器，来解决更广泛范围的视觉问题，以最小的努力，从而使该领域能够更多地将精力转向开发大规模基础视觉模型，类似于NLP领域的情况。

现代化的普通DETR Baseline

原始DETR的回顾

原始DETR检测器由3个子网络组成：

w~视觉~合集3_视觉_85

DETR框架具有以下几个优点，包括：

在概念上直观且通用适用。它将目标检测视为像素到目标的“翻译”任务，具有将图像像素解码成问题目标的通用概念。
由于使用端到端的集合匹配损失，因此需要最少的领域知识，例如自定义标签分配和手工设计的非极大值抑制。
避免了领域特定的多尺度特征图和基于区域的特征提取。

增强型普通DETR Baseline

基本设置

作者的基本设置大部分遵循原始的DETR框架，除了以下的调整：

w~视觉~合集3_视觉_86

接下来，作者将一些最新的训练和问题制定的进展融入到基本设置中，并逐渐提高检测精度，如表1所示。

将Transformer编码器合并到Backbone网络中

Backbone网络和Transformer编码器的作用是对图像特征进行编码。作者发现，通过利用Vision Transformer Backbone网络，作者能够将Transformer编码器的计算预算合并到Backbone网络中，略微提高了性能，可能是因为有更多的参数进行了预训练。

具体来说，作者使用了Swin-S Backbone网络，并移除了Transformer编码器。这种方法与原始的Swin-T加6层Transformer编码器相比，计算FLOPs相似。这种方法简化了整个DETR框架，只包括一个Backbone（编码器）和一个解码器网络。

更好的分类使用Focal Loss

使用Focal Loss替换默认的交叉熵损失，将检测精度从23.1 mAP提高到31.6 mAP。

迭代优化

作者遵循迭代优化方案，使每个解码器层对前一个解码器层产生的最新边界框进行边界框增量预测，而不像原始的DETR在每个Transformer解码器层内使用独立的预测。这个策略将检测精度提高了+1.5 mAP，达到了33.1 mAP。

基于内容的查询

根据图像内容生成目标查询。选择置信度最高的300个预测作为后续解码过程的查询。用于生成目标查询的是一个集合匹配损失，因此保持了不需要领域特定的标签分配策略的优点。这个修改使检测精度提高了+0.9 mAP，达到了34.0 mAP。

Look forward twice

作者采用了向前看两次的策略，以利用先前Transformer解码器层中精炼的边界框信息，从而更有效地优化相邻Transformer解码器层之间的参数。这个修改产生了+0.8 mAP的改进。

混合查询选择

原始的一对一集合匹配在训练正样本方面效果不佳。有一些方法通过辅助的一对多集合匹配损失来改善效果。作者选择了混合匹配方法，因为它保留了不需要额外的手工标注噪声或分配设计的优点。这个修改使检测精度提高了+2.0 mAP，达到了最终的37.2 mAP。

BBox到像素的相对位置偏差

在这一节中，作者介绍了一项简单的技术，即BBox到像素的相对位置偏差（BoxRPB），这项技术对于弥补缺乏多尺度特征和明确的局部交叉注意力计算非常关键。

原始的DETR解码器采用标准的交叉注意力计算：

w~视觉~合集3_视觉_87

其中X和O分别是每个目标查询的输入和输出特征；Q、K和V分别是Query、Key和Value特征。如图4所示，原始的交叉注意力计算通常会在普通DETR框架内关注与目标无关的图像区域。作者推测这可能是其精度远低于多尺度和明确局部设计的原因之一。受到像素到像素相对位置偏差在视觉Transformer架构中的成功启发，作者探讨了用于交叉注意力计算的BBox到像素相对位置偏差（BoxRPB）的使用：

w~视觉~合集3_视觉_88

其中B是由BBox和像素之间的几何关系确定的相对位置偏差。

与原始的相对位置偏差（RPB）定义在2D相对位置上不同，BoxRPB需要处理一个更大的4D几何空间。接下来，作者介绍两种实现变体。

一种简单的BoxRPB实现

作者改编了连续RPB方法来计算4D BBox到像素相对位置偏差。原始的连续RPB方法通过应用于相应的2D相对坐标上的元网络来为每个相对位置配置产生偏差项。在将这种方法扩展为BoxRPB时，作者使用左上角和右下角来表示一个BBox，并使用这些角点与图像像素点之间的相对位置作为元网络的输入。

w~视觉~合集3_视觉_89

作者的实验表明，这种简单的实现已经非常有效，如表3a所示。然而，它将消耗大量的GPU计算和内存预算，因此不实际。

分解的BoxRPB实现

现在，作者提出了一种更高效的BoxRPB实现。作者不是直接计算4D输入的偏差项，而是考虑将偏差计算分解为两个项：

w~视觉~合集3_视觉_90

通过分解，计算FLOPs和内存消耗都大大减少，而准确性几乎保持不变，如表3a所示。这种基于分解的实现在作者的实验中是默认的。

w~视觉~合集3_视觉_91

图4显示了BBox到像素的相对位置偏差对交叉注意力计算的影响。总的来说，BoxRPB项使关注更加集中在目标和边界上，而没有BoxRPB的交叉注意力可能会关注许多无关的区域。这可能解释了BoxRPB项如何显著提高了8.9个mAP，如表2所示。

更多改进

在这一节中，作者介绍另外两项可以进一步改善普通DETR框架的技术。

MIM预训练

作者利用最近的掩膜图像建模预训练的先进技术，这些技术已经显示出更好的局部性。具体来说，作者使用SimMIM预训练权重来初始化Swin Transformer Backbone网络，这些权重是在没有标签的ImageNet上学习的。

w~视觉~合集3_视觉_92

如表2所示，MIM预训练相对于作者的普通DETR Baseline 带来了+7.4个mAP的提升。与其他检测器相比，在普通DETR框架上进行的MIM预训练的显著增益可能突显了对普通DETR框架的学习本地化能力的重要性。

在已经涉及BoxRPB的更高 Baseline 上，MIM预训练仍然可以带来+2.6个mAP的增益，达到48.7个mAP。

此外，作者注意到，MIM预训练对于使作者放弃多尺度Backbone特征也至关重要，几乎没有损失准确性，如表5b和5c所示。

重新参数化的边界框回归

作者想要强调的另一项改进是在执行边界框回归时进行边界框的重新参数化。

原始的DETR框架和大多数其变种直接将边界框的中心和大小缩放到[0,1]。由于大目标主导了损失计算，因此它在检测小目标时会遇到困难。相反，作者将l-th解码器层的边界框中心和大小重新参数化为：

w~视觉~合集3_视觉_93

消融研究与分析

BBox相对位置偏差的重要性

在表3中，作者研究了BoxRPB方案中每个因素的影响，并在以下讨论中报告了详细的比较结果。

w~视觉~合集3_视觉_94

轴向分解的影响

w~视觉~合集3_视觉_95

在表3a中，作者比较了这两种方法，并发现轴向分解方案在性能上达到了可比较的水平（50.9 vs. 50.8），同时需要更低的内存占用（9.5G vs. 26.8G）和更小的计算开销（5.8G FLOP vs. 265.4G FLOP）。

BBox点的影响

表3b显示了仅使用中心点或两个角点的比较。作者发现仅应用中心点可以将 Baseline （表2的第四行）提高+1.7 AP。然而，其性能不如使用两个角点的性能。

特别是，虽然这两种方法实现了可比较的AP50结果，但利用角点可以将AP75提高+2.2。这表明，不仅位置（中心），而且查询框的尺度（高度和宽度）对于精确建模相对位置偏差非常重要。

隐藏维度的影响

作者研究了方程5中隐藏维度的影响。如表3c所示，较小的隐藏维度为128将导致性能下降0.5，表明位置关系并不简单，需要更高维度的空间来建模。

与其他方法的比较

作者研究了选择其他方案来计算方程2中的调制项B的影响。作者与以下几种代表性方法进行了比较：

条件交叉注意力方案，它根据条件空间（位置）查询嵌入和空间关键查询嵌入之间的内积来计算调制项。
DAB交叉注意力方案，它基于条件交叉注意力，并进一步使用框宽度和高度信息调制位置关注图。
空间调制交叉注意力方案（SMCA），它设计了手工制作的查询空间先验，使用类似于2D高斯的权重图来实现，以约束关注的特征在目标查询的初始估计周围。

表3d报告了详细的比较结果。作者的方法在所有方法中表现最佳。具体来说，条件交叉注意力模块在仅使用中心点的情况下实现了与作者的设置（表3b的第一行）相似的性能。DAB交叉注意力和SMCA略优于条件交叉注意力模块，但它们仍然落后于BoxRPB，分别差2.5 AP和2.2 AP。

作者还根据其官方开源代码将BoxRPB与基于DAB交叉注意力进行了比较。用BoxRPB替换DAB位置模块实现了+1.8个mAP的性能提升。

与局部注意力方案的比较

w~视觉~合集3_视觉_96

在这一节中，作者将作者的全局注意力模式与其他代表性的局部交叉注意力机制进行了比较，包括可变形交叉注意力、RoIAlign、RoI采样（在感兴趣区域内采样固定点）以及BBox Mask。作者详细说明了这些方法之间的关键差异。如表4所示，作者的方法超越了所有局部交叉注意力的变种。此外，作者观察到大目标对作者的方法有更大的改进。DETR中也报告了类似的观察结果，这可能是因为基于全局注意力模式的更有效的长距离上下文建模。

关于MIM预训练

w~视觉~合集3_视觉_97

作者探索了在使用或不使用MIM预训练的情况下，如何使用Backbone和解码器特征图的不同方式。作者评估了三种不同的架构配置的性能，如图3所示。作者如下讨论和分析结果。MIM预训练带来了一致的收益

w~视觉~合集3_视觉_98

w~视觉~合集3_视觉_99

解码器可以去掉多尺度特征图

w~视觉~合集3_视觉_100

w~视觉~合集3_视觉_101

这一观察结果并不平凡，因为大多数现有的检测头仍然需要多尺度特征作为输入，这使得构建一个竞争力强的单尺度纯DETR成为可能。作者希望这一发现可以简化未来检测框架的设计。

无需来自Backbone的多尺度特征图

通过比较表5b和表5c的结果，作者分析了从Backbone中去除多尺度特征图的影响。在使用监督预训练的Backbone时，仅采用来自Backbone的最后一个特征图将损害性能。

w~视觉~合集3_视觉_102

这些结果表明，MIM预训练可以降低对多尺度特征图的依赖。

从Backbone获得单一尺度特征图和从解码器获得单一尺度特征图已足够

基于以上观察，作者可以得出一个令人惊讶但重要的简单结论，即通过使用作者提出的BoxRPB方案和MIM预训练，完全可以消除Backbone和Transformer解码器中需要多尺度特征图的需要。

应用于纯ViT

在这一节中，作者通过将作者的方法应用于纯ViT，构建了一个简单而有效的全纯目标检测系统。作者的系统只在全纯Transformer编码器-解码器架构中使用单一分辨率特征图，没有任何多尺度设计或处理。作者将作者的方法与COCO数据集上的最先进的级联Mask R-CNN进行了比较。为了公平比较，作者使用了经过MAE预训练的ViT-Base作为Backbone，并对目标检测器进行了∼50个Epoch的训练。

如表8所示，作者的方法在没有依赖于多尺度特征图的情况下实现了与级联Mask R-CNN相当的结果，以更好地定位不同目标尺度。

值得注意的是，作者的方法没有使用通常被认为对目标检测有益的实例Mask注释进行训练。

交叉注意力图的可视化

w~视觉~合集3_视觉_103

图4显示了具有或没有BoxRPB的模型的交叉注意力图。对于具有BoxRPB的模型，交叉注意力集中在单个目标上。相反，没有BoxRPB的模型的交叉注意力会关注具有相似外观的多个目标。

系统级结果

SOTA对比

在本节中，作者将作者的方法与其他最先进的方法进行了比较。表7显示了结果，该表中报告的所有实验都使用Swin-Large作为Backbone。由于其他工作通常会应用编码器来增强Backbone特征，为了公平比较，作者还在Backbone之上堆叠了12个基于窗口的单尺度Transformer层（特征维度为256）。

w~视觉~合集3_视觉_104

通过36个训练Epoch，作者的模型在COCO test-dev集上实现了60.0的AP，超过了DINO-DETR 1.4 AP。进一步引入Objects365作为预训练数据集，作者的方法在test-dev集上达到了63.9的AP，比DINO-DETR和DETA有明显的提升。这些强大的结果验证了全纯DETR架构没有固有的缺点，可以实现高性能。

更简单的ViT结果

表8报告了基于纯ViT的更多比较结果。作者使用了主文第5.4节中描述的默认设置，采用了经过MAE预训练的ViTBase作为Backbone，并对模型进行了∼50个Epoch的训练。根据结果，作者观察到：

作者的方法将纯DETR Baseline 从46.5 AP提升到53.8 AP，仅使用全局交叉注意力方案处理单一尺度特征图
作者的方法胜过了强大的基于DETR的目标检测器，例如使用局部交叉注意力方案来利用多尺度特征图的Deformable DETR

w~视觉~合集3_视觉_105

Runtime Comparison with Other Methods作者在表9中进一步分析了不同交叉注意力调制的Runtime成本。与标准交叉注意力相比，BoxRPB略微增加了运行时，但与其他位置偏置方法具有相当的速度。

w~视觉~合集3_视觉_106

More Details of Local Attention Scheme图5展示了作者的方法与局部交叉注意力方法（如可变形交叉注意力、RoIAlign、RoI采样以及框Mask）之间的区别。大多数局部交叉注意力方法需要使用特殊的采样和插值机制构建稀疏的key-value空间。作者的方法使用所有图像位置作为key-value空间，并学习一个框到像素的相对位置偏差项（图（e）中的梯度粉色圆形区域）来调整注意力权重。这使得作者的方法比先前的方法更加灵活和通用。

w~视觉~合集3_视觉_107

关于COCO val的系统级比较表10比较了在使用Swin-Large作为Backbone网络时，作者的方法与以前的最新方法。在36个训练Epoch内，作者的模型在COCO验证集上实现了59.8的AP，超过了DINO-DETR的1.3个AP。通过使用Objects365的预训练，作者的方法获得了63.8 AP，远高于DINO-DETR。这些结果表明，借助作者的方法，改进后的普通DETR可以在没有固有限制的情况下实现竞争性能。

w~视觉~合集3_视觉_108