本研究提出了一种简单的方法,通过多任务学习、持续学习技术和教师-学生蒸馏,将视觉基础模型(VFMs)合并成一个统一的模型,以融合它们的专长。通过将这种方法应用于SAM和CLIP,我们得到了SAM-CLIP:一个将SAM和CLIP的优势融合到一个单一骨干中的统一模型,适用于边缘设备应用。SAM-CLIP在多个头部探测任务上表现出更好的性能,并在零样本语义分割任务上取得了新的最先进结果。

论文链接:https://arxiv.org/pdf/2310.15308.pdf

公开可用的视觉基础模型(VFMs)的领域正在迅速扩大,这些模型具有不同的能力,如语义理解和空间理解。然而,为不同的下游任务维护和部署单独的模型效率低下且缺乏跨模型学习的机会。

多任务学习是解决这个问题的一种方法,但通常需要昂贵的训练和同时访问所有任务的资源。此外,训练VFMs通常依赖于无监督或半监督方法,需要大量的计算资源。模型合并已经成为一个快速发展的研究领域,但大多数合并技术集中在将多个任务特定模型合并成一个模型,而不需要额外的训练。这些技术在不使用数据或不进行额外训练/微调的情况下,导致性能下降或无法推广到多样化的任务集。

SAM-CLIP_编码器

这种模型合并方法,通过从持续学习和知识蒸馏中借鉴技术,将两个具有不同目标和能力的VFMs合并成一个统一的模型。这种方法不仅比传统的多任务训练要求更少的数据和计算成本,还能保留原始模型的知识,并在新任务上展现出更好的性能。

方法

本文使用 SAM 作为 基础VFM,而CLIP模型作为辅助VFM,这对模型呈现出一个有趣的组合,因为这两种模型都已成功部署在不同的任务中,并且表现出互补性 能力。SAM 在定位和高分辨率图像分割方面表现出色,但也有局限性 在语义理解上。相反,CLIP 为语义理解提供了强大的图像骨干。

SAM-CLIP_编码器_02

总的来说,基础 VFM SAM 有一个图像编码器 (EncSAM)、提示编码器 (PromptEncSAM) 和光掩模解码器 (MaskDecSAM)。辅助 VFM CLIP 具有图像编码器 (EncCLIP) 和文本编码器 (TextEncCLIP)。我们的 目标是将两个图像编码器合并到一个名为 EncSAM-CLIP 的主干中,该主干已初始化 由 EnCSAM 提供。进一步,我们考虑每个VFM 对应的轻量级头,即HeadSAM 和 HeadCLIP。HeadSAM 使用 MaskDecSAM 初始化, HeadCLIP 使用 random 初始化 权重 (因为 CLIP 没有配备我们可以部署的头部)。我们部署其他方式 编码器 (即 PromptEncSAM 和 TextEncCLIP) 没有变化 (冻结)。 

SAM-CLIP_人工智能_03

实验结果

使用的模型架构是Segment Anything Model(SAM)的ViT-B/16版本,具有12个Transformer层。对于CLIP蒸馏,将CC3M、CC12M、YFCC-15M和ImageNet-21k数据集的图像合并成训练数据集。对于SAM自蒸馏,使用SA-1B数据集的子集。训练分为两个阶段,模型的不同组件使用不同的学习率。CLIP蒸馏使用可变分辨率的224/448px,SAM蒸馏使用1024px的分辨率。

Zero-Shot指标结果

SAM-CLIP_多任务_04

可视化结果

SAM-CLIP_初始化_05