Open-Vocabulary 3D Detection via Image-level Class and Debiased Cross-modal Contrastive Learning
通过图像级分类和去偏跨模态对比学习进行开放词汇 3D 检测
摘要
当前的点云检测方法由于泛化能力有限,难以检测现实世界中的开放词汇对象。此外,收集和完全注释具有众多对象类别的点云检测数据集是极其费力和昂贵的,导致现有点云数据集的类别有限,并阻碍模型学习通用表示以实现开放词汇点-云检测。据我们所知,我们是第一个研究开放词汇3D点云检测问题的人。我们没有寻求具有完整标签的点云数据集,而是借助 ImageNet1K 来扩大点云检测器的词汇量。我们提出了 OV3DETIC,一种使用图像级类监督的开放词汇 3D 检测器。
具体来说,我们利用两种模式,即用于识别的图像模式和用于定位的点云模式,为看不见的类生成伪标签。然后,我们提出了一种新颖的去偏跨模态对比学习方法,在训练过程中将知识从图像模态转移到点云模态。在不影响推理期间延迟的情况下,OV-3DETIC 使点云检测器能够实现开放词汇检测。大量实验表明,所提出的 OV-3DETIC 在 SUN-RGBD 数据集和 ScanNet 数据集上的各种基线上分别实现了至少 10.77% mAP 改进(绝对值)和 9.56% mAP 改进(绝对值)。此外,我们进行了足够的实验来阐明所提出的 OV-3DETIC 为何有效。
1 简介
3D 点云检测被定义为在点云中查找对象(定位)并识别它们(分类)。最近,基于深度学习的3D探测器取得了重大进展。然而,大多数方法都是在类(词汇)有限的点云检测数据集上开发的,而现实世界却拥有大量的类。 3D 探测器经常会遇到训练期间从未出现过的物体,从而导致无法推广到现实生活场景。因此,设计一个开放词汇的点云检测器,泛化到未见过的类是非常重要的。开放词汇检测的关键要素是模型学习足够的知识,从而能够输出通用表示。为了实现这一目标,在图像领域,典型的开放词汇分类和检测要么需要引入大规模的图像文本对,要么需要引入具有足够标签的图像数据集。例如,CLIP [1]引入了 4 亿个图像文本对进行预训练,以帮助视觉模型学习通用表示。德蒂克[2] 利用 ImageNet21K 扩展图像检测器的知识。 OVR-CNN [3] 使用语言预训练嵌入层来扩大 2D 检测器的词汇量。
然而在点云领域,据我们所知,还没有针对开放词汇点云检测的研究。最显着的障碍是,由于收集和注释的困难,我们很难获得大规模的点云数据和标签(或者可选地,像前面提到的图像字段那样的标题)。点云数据和标签的稀缺极大地限制了点云模型学习足够的知识和获得通用表示。因此,这种限制促使我们问:我们是否可以将知识从图像转移到点云,以便点云模型能够学习通用表示?我们的工作表明答案是肯定的。本质上,图像是密集的 RGB 像素,而点云由稀疏的 xyz 点组成。尽管存在较大差距,但点云和图像都是物理世界的视觉表示,并且可以表达相同的视觉概念[6, 7]。人类可以毫无问题地理解这两种模式。但仍然存在两个问题:我们可以使用什么样的图像数据以及如何使用图像数据?很简单,我们直接利用具有完全边界框和类标签的图像检测数据集,并将知识从 2D 检测器转移到点云检测器。然而,边界框级注释仍然费力且难以扩展,而开放词汇检测需要丰富的标签来帮助检测器学习足够的知识[2]。
因此,在本文中,我们没有寻求构建大规模点云数据集或使用二维检测数据集,而是通过利用具有图像级类别的大规模图像数据集ImageNet1K [8]开辟了另一条道路,以使点云检测器能够学习通用表示,从而扩大点云检测器的词汇量,如图1所示。 据我们所知,我们是第一个研究开放词汇点云检测问题的人。
具体来说,我们提出了一种具有图像级类别的开放词汇3D检测器,称为OV3DETIC,其目的是使3D检测器从图像级监督中学习足够的知识,从而实现开放词汇点云检测。值得注意的是,我们观察到点云检测器的“定位”已经能够推广到看不见的类别,尽管在训练期间从未使用相应的监督,如图1所示。然而,点云检测器的“分类”很难推广到看不见的类别。这促使我们在训练期间利用两种模式:用于分类的图像模式和用于定位的点云模式。特别是,OV-3DETIC 是两个组件的协同作用:1)充分利用从 ImageNet 学习的知识和点云上定位的泛化能力,为不可见的类生成伪标签。 2)我们设计了一种具有距离感知温度的去偏跨模态对比学习,以捕获模态内部和模态之间共享的低维空间,从而更好地将足够的知识从图像域转移到点云域。值得注意的是,在训练过程中,我们引入配对图像来缩小范围点云数据和 ImageNet 图像之间的差距,但除了激光雷达相机变换矩阵之外,我们不需要任何额外的注释。
大量实验表明,在不影响原始 3D 检测器的延迟的情况下,OV-3DETIC 在未见过的类别上比各种最先进的技术至少高出 10.77% mAP(绝对)和 9.56% mAP(绝对)。分别是 SUN RGB-D [9] 和 ScanNet [10]。 ScanNet 数据集的示例如图所示。 1(c)。充分的消融研究也揭示了 OV-3DETIC 工作的原因。总的来说,我们的贡献总结如下:1)我们是第一个研究开放词汇3D检测的人。通过发现定位在 3D 物体检测中的强大通用性,我们也第一个开辟了另一条道路,利用 ImageNet1K 来帮助开放词汇 3D 检测。 2)我们提出了一种具有图像级类别的开放词汇3D检测器,称为OV-3DETIC,它是两个组件的协同作用:两种模态的伪标签生成,以及具有距离的去偏跨模态对比学习感知温度。 3)大量实验证明了OV-3DETIC的有效性。我们在该领域提供了卓越的基线,并通过充分的实验分析了它为何有效。
2 相关工作
2.1 图像上的开放词汇检测。
开放词汇对象检测目标是检测训练期间从未提供标签的新类[11,12,13,14,2,3,1]。经典的开放词汇对象检测方法直接用语言嵌入层代替分类器[11]。为了推进嵌入层,更流行的方法旨在利用图像-文本对从文本中提取丰富的语义,从而扩大检测器[1,12,3]。与我们最相似的工作是 Detic [2],它利用 ImageNet21K 来拓宽 2D 检测器的分类器。然而,由于图像和点云之间的差距很大,直接使用相同的方法来拓宽点云检测器的分类器是不可行的。与 Detic 将知识从具有图像级类别的 ImageNet 转移到相同模态的 2D 检测不同,我们建议将知识从 ImageNet 转移到完全不同的模态(点云),并使用定制的伪标签策略和去偏交叉模态对比学习。
2.2 点云检测 点云目标检测的早期工作是将点离散化并投影到鸟瞰图(BEV)或前视图像上,并使用标准 2D CNN 网络(例如 PIXOR [15]、MV3D [ 16],SqueezeSeg [17,18,19]。一种更自然的方法是使用类似 PointNet 的主干网(例如 PointRCNN [20] 和 PointFusion [21])直接处理每个点,然而,这受到高计算成本的限制 [22]。最近流行的方法是体素表示[23],它不仅可以使用3D稀疏卷积[24,25,26]进行有效处理,而且还可以保留与小体素尺寸的原始点云大致相似的信息。最近,视觉Transformer在图像领域占据主导地位[27,28,29],点云Transformer也逐渐发展起来[4,30]。我们的方法基于 3DETR [4]。
2.3 点云中的零样本学习 以前点云领域的零样本(开放词汇)学习工作主要研究分类。 Image2Point [6]直接膨胀在大规模图像数据集上预训练的2D模型,并在点云分类方面显示出显着的改进。 PointCLIP [31] 利用 CLIP 预训练嵌入来扩大点云分类器的词汇量。在[32,33,34]中,PointNet在已见类别上进行预训练,并通过计算与已见类别的相似度对未见对象进行分类。最近,虽然点云中的零样本语义分割得到了研究[35, 36],但据我们所知,我们是第一个探索开放词汇点云检测的人。
图 2:OV-3DETIC 第 2 阶段的概述,该阶段是两个组件的核心和协同作用:1)我们利用两种模式(用于分类的图像模式和用于定位的点云模式)来生成伪标签看不见的类,2)我们设计了一种去偏的跨模态对比学习,将知识从图像模态转移到点云模态。
请注意,在第 2 阶段之前,我们首先像 Detic [2] 一样训练 2D 检测器和 3D 检测器。绿色括号表示所见类别的基本事实。对于ImageNet1K,未提供“bbox”,因此表示为?。红色括号表示伪标签,其中边界框来自 3D 检测器的输出,类来自 2D 检测器的输出。
3 方法
3.1 符号及预备
用I表示图像,P表示点云,其中 N 是点云中的点编号。在训练过程中,我们使用 1) 点云数据集,表示为 D ,词汇量大小为 C,其中 b是 3D 边界框 c的注释是对应的分类标签; 2) 配对图像数据集表示为 Dimg ; 3) ImageNet1K数据集表示为 Dign ,词汇表为 Cign,其中 c ign 表示 ImageNet1K 中图像的分类标签。在测试过程中,我们对词汇 Ctest 进行评估,其中 Cign ≥ Ctest > Cpc。
典型的点云检测器处理定位和分类,其中定位模块输出边界框^b,我们可以得到其对应的点云ROI特征f3D。类似地,我们可以通过投影矩阵K将3D边界框投影到2D图像中,即^b,并索引相应的图像ROI特征f2D。然后我们将使用 f3D 和 f2D 来预测边界框中对象的类别。
3.2 OV-3DETIC:具有图像类的开放词汇 3D 检测器
我们使用 ImageNet1K 来扩大点云检测器的词汇量。为了将 ImageNet1K 中包含的知识转移到点云检测器,我们引入与点云配对的图像来桥接它们,但不使用任何额外的标签。我们设计了一个两阶段训练策略来实现开放词汇点云检测。第一阶段的训练与Detic[2]类似,旨在利用ImageNet帮助2D检测器学习足够的知识。第二阶段是所提出的OV-3DETIC的核心,其目的是通过定制的伪标签策略和去偏的跨模态对比学习将2D检测器的知识转移到3D检测器,如图所示。 2. 在推理过程中,我们只需要 3D 检测器,不需要任何额外的模型或模态。 OV-3DETIC 是在 3DETR [4] 之上开发的,我们使用 DETR [5] 作为 2D 检测器。
详细情况如下图所示。
图 3:典型的有偏差跨模态对比学习(左)和提出的无偏差跨模态对比学习(右)。基于位置的跨模态对比学习遵循位置对应关系并进行一对一匹配。这可能会导致分配不准确的负样本。所提出的去偏交叉对比学习(DECC)利用伪标签来解决有偏见的问题。红色轮廓表示它是一个不可见的类,我们为其分配一个伪标签,绿色轮廓表示具有基本事实的可见类。