Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives

通过转移几何基元进行零样本点云分割

摘要

在本文中,我们研究了归纳式零样本点云语义分割,在训练期间,未见过的类别标签是不可用的。实际上,三维几何元素是推理三维物体类型的重要线索。如果两个类别有相似的几何基元,它们也有相似的语义表示。基于这种考虑,我们提出了一个新的框架来学习已见和未见类别的物体中共享的几何基元,其中学习到的几何基元被用于将知识从已见类别转移到未见类别。具体来说,一组可学习的原型通过反向传播自动编码几何基元。然后,点的视觉表征被表述为其特征与原型的相似度向量,这意味着对已见和未见类别的语义提示。此外,考虑到一个由多个几何基元组成的三维物体,我们将语义表征制定为一个混合分布的嵌入,以实现视觉表征的细粒度匹配。最后,为了有效地学习几何基元并缓解错误分类的问题,我们提出了一种新的未知的InfoNCE损失来协调视觉和语义表示。结果,在语义表征的指导下,网络识别了用几何基元表示的新物体。广泛的实验表明,我们的方法在谐波平均相交超过联盟(hIoU)方面明显优于其他最先进的方法,在S3DIS、ScanNet和SemanticKITTI数据集上分别提高了17.8%、30.4%和9.2%。

点云上的语义分割是三维场景理解中的一项基本任务,促进了自动驾驶、服务机器人、数字城市等的发展。虽然最近的一些方法(Zhu等人2021年;Hu等人2020年;Thomas等人2019年;Cheng等人2021年;Xu等人2021年)取得了令人鼓舞的性能,但它们严重依赖劳动密集型的注释监督。通过利用单词嵌入作为辅助信息,零样本语义分割可以识别标签不可用的未见物体。它有利于在一个包含新物体的新场景中的视觉感知。它也可以成为自动标记新物体的预注解工具(Michele等人,2021)。零样本学习(ZSL)专注于将知识从看到的转移到未看到的类别。初步的ZSL设置只预测未见过的类别,而广义的ZSL(GZSL)则预测见过和未见过的类别。在训练数据方面,它包括归纳式和转换式设置(Zhang and Ding 2021;Michele等人2021)。在归纳式设置中,只有看到的类别样本和标签可用于训练网络。至于归纳式设置,未见过的类的未标记对象也可以获得。在语义分割场景中,归纳式GZSL是一个更常见的零样本分割(ZSS)的设置,因为看到的和未看到的类别经常在一个场景中一起出现。我们研究的ZSS问题属于反演式GZSL。在二维图像上,ZSS已经取得了令人印象深刻的进展(Bucher等人,2019;Gu等人,2020;Li, Wei, and Yang,2020;Hu, Sclaroff, and Saenko,2020;Zhang and Ding,2021)。他们通常会生成未见过的类别的假特征,用于训练分类器,或者增强视觉特征和语义表示之间的结构一致性。ZSS在三维点云场景中没有得到充分的探索。据我们所知,只有一种方法(Michele等人,2021)研究了这个问题。它生成了具有语义嵌入的未见过的类特征,用于训练分类器。然而,看到的和未看到的类别之间共享的三维几何元素,是推理未看到的物体类型的重要线索,没有被明确考虑。此外,我们利用了输入场景中出现的视觉特征,这在归纳设置下更加直观和自然,也就是说,看不见的物体正是没有类别标签的未知物体。在本文中,我们研究了三维点云上的归纳式零样本分割(ZSS),即在训练过程中,未见类别的视觉特征和语义表示是可用的(Zhang and Ding 2021;Michele等人2021)。我们的关键观察是,一个三维物体由几何基元组成,如立方体、球体、锥体、圆柱体、金字塔、环形体等。如果两个类别共享相似的几何基元,那么它们在语义表示上就会相似(图1)。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云

图1:三维物体由几何基元组成,如长方体、正方体、圆柱体等。如果两个类别有相似的几何基元,那么它们在语义表征上也是相似的。例如,桌子和书桌都有立方体和圆柱体的结构(绿色和蓝色的虚线)和类似的语义表示(图4)。因此,在已见和未见的类别中共享的三维几何基元是推理未见物体类型的重要线索。我们的方法学习了在已见和未见类别中共享的几何基元,用学到的几何基元表示新的物体,并通过语义表示推理出新的物体类型。

例如,椅子和沙发有类似的几何元素,如扶手、靠背和坐垫,它们在语义嵌入空间中也很接近(图4)。基于这一观察,我们提出了一个新的框架来学习在已见和未见的类别中共享的几何基元。一个新的物体特征可以通过学习的几何基元来呈现,并在语义表征的指导下被识别。具体来说,我们的方法分三个步骤学习几何基元。首先,受词包模型(Wallach 2006; Fu, Feng, and Cunningham 2019)的启发,我们将点视觉表征制定为其特征与几何基元的相似度向量,其中几何基元是一组通过反向传播更新的可学习原型。其次,考虑到一个由多个几何基元组成的三维物体,语义表征是一个混合分布的嵌入,用于视觉表征的细粒度匹配。最后,该网络自然地偏向于所看到的类别,导致对未看到的类别的显著错误分类(图5)。为此,我们提出了一个未知的InfoNCE损失,以调整已见和未见类别之间的视觉和语义表示。实际上,它将未见的视觉表征从已见类别的语义表征中推开(图4),使网络能够区分已见和未见的物体,从而缓解了错误分类的问题。在推断状态下,一个新的物体用学到的几何基元来表示,并可以在语义表征的指导下被归入正确的类别。在S3DIS、ScanNet和SemanticKITTI数据集上进行的大量实验表明,我们的方法优于其他最先进的方法,分别提高了17.8%、30.4%和9.2%。

我们工作的贡献如下。- 为了解决三维点云上的过渡性零样本分割问题,我们提出了一个新的框架来学习几何基元,将知识从看到的类别转移到未看到的类别。- 我们提出了一个未知的InfoNCE损失,用于在已见和未见的类别中进行精细的视觉和语义表征对齐。- 我们的方法在S3DIS、ScanNet和SemanticKITTI数据集上实现了最先进的零样本点云分割性能。

2、相关工作

二维图像上的零样本分割

零样本语义分割(ZSS)以广义的零样本学习为主,因为看到的和未看到的类别的物体经常一起出现在一个场景中。ZS3Net(Bucher等人,2019)从未见类别的语义信息中生成像素级的假特征,然后整合已见类别的真实特征来训练分类器。Gu等人(Gu et al. 2020)通过引入一个上下文模块,从语义信息中生成contextaware视觉特征,进一步改进ZS3Net。Li等人(Li, Wei, and Yang 2020)提出了一致结构关系学习(CSRL)方法来模拟类别级别的语义关系,并学习更好的视觉特征生成器。然而,他们不恰当地使用每个未见过的地面真实像素位置来生成假特征。Hu等人(Hu, Sclaroff, and Saenko 2020)通过用贝叶斯不确定性估计缓解来自所见类别的嘈杂和离群的训练样本来提升性能。真实和虚假特征之间存在明显的偏差,阻碍了从已见类到未见类的知识转移。Zhang等人(Zhang and Ding 2021)用其他图像替换了未见过的物体来生成训练样本,并用原型匹配和开放集拒绝来执行分割。Lv等人(Lv et al. 2020)使用一个过渡性设置来缓解这个问题,该设置利用已标记的已见图像和未标记的未见图像进行训练。在本文中,我们遵循的是利用未见物体的特征进行监督的过渡性设置,而单个未见物体的地面真实像素位置是不可获取的,这自然符合语义分割的情况。

三维点云上的零点学习

与二维图像上的零点学习的良好进展不同,对三维点云的研究很少。一些方法(Cheraghian等人,2019,2020,2021;Cheraghian,Rahman,和Petersson,2019)是研究点云分类。Cheraghian等人(Cheraghian, Rahman, and Petersson 2019)改编了pointNet(Qi等人,2017)来提取物体表征和GloVe(Pennington, Socher, and Manning 2014)或W2V(Mikolov等人,2013b)来获取语义信息以推理未见物体的类型。Cheraghian等人(Cheraghian et al. 2019)适应GZSL设置,并提出由回归项(Zhang, Xiang, and Gong 2017)和偏度项(Radovanovic, Nanopoulos, and Ivanovic 2010; Shigeto et al. 2015)组成的损失函数来缓解枢纽问题,这表明模型对于大多数测试实例可能只预测少数目标类别。Cheraghian等人(Cheraghian et al. 2020)通过使用三重损失,进一步改进了(Cheraghian et al.2019)。据我们所知,只有一种方法(Michele等人,2021年)被提出来用于语义分割,该方法生成带有类原型的假特征来训练分类器。然而,他们没有明确地考虑到已见和未见类别中共享的三维几何元素,这些元素是调整三维视觉特征和语义嵌入的重要线索。在本文中,我们的方法学习了几何基元,将知识从已见类别转移到未见类别,以便更准确地推理未见类别的物体。此外,我们没有为未见过的类别生成假的特征,而是自然地利用了从骨干网络中提取的未见过的视觉特征,这在归纳设置下更加直观和自然。


方法

问题定义

在零样本语义分割中,我们利用词的嵌入作为辅助信息来分割未见过的类别对象,这些对象的标签在训练中是不可用的。假设X、W、Y分别表示视觉特征、语义信息(类名的词嵌入)和基础真实标签。训练集是Dtrain,用于归纳设置的零样本分割。就归纳设置而言,上标Ns,Nu分别代表看到和未看到的类别,看到和未看到的类别之间没有重叠。Ns , Nu分别是包含看到的和未看到的类别的样本数。假设第i个样本有Ti个点,x和y分别表示第t个点的视觉特征和地面真实标签。

在本文中,我们关注的是过渡性的零样本分割,这是语义分割任务中比较常见的设置,因为看到的和未看到的类别经常一起出现。值得注意的是,这里的 "未见 "表示视觉特征是可获得的,而标签是不可获得的。我们的目标是学习一个模型,为已见和未见的类别生成像素级的分割掩码。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_02

图2:整体框架的说明。我们的框架在一个端到端的训练过程中包含两个模块。首先,我们获得已见类别和未见类别的点状特征。点视觉表征(空心圆)被表述为其特征与原型的相似度向量,它是由原型和点特征之间的交叉注意操作得到的,并由反温度的softmax操作来调节。接下来,我们通过从词的嵌入中生成语义表征(实心圆),并在视觉-语义联合空间(灰色虚线框)中对已见(彩色)和未见(灰色)类别点的视觉和语义表征进行对齐。

方法概述

我们的框架如图2所示。训练阶段包含两个模块,即用几何基元进行视觉表征和在视觉和语义表征上进行细粒度的对齐。首先,我们提取已见和未见类别的点状特征,并将点状视觉表征制定为几何基元和点状特征之间的相似度向量。接下来,我们通过一个未知的InfoNCE损失,对已见和未见类别的视觉和语义表示进行细粒度的对齐。在推断阶段,我们的方法用学到的几何基元表示未见过的类别点,并在语义表征的指导下推断出具体的未见过的类别。在下文中,我们将详细介绍这些模块。用几何基元进行视觉表征 与投影视图中的二维图像不同,三维物体包含完整的几何信息。我们观察到,三维图形是由常见的三维结构元素组成的,如立方体、长方体、球体、圆锥体、圆柱体、金字塔、环形体等。因此,我们的基本想法是将三维物体分解为一组可学习的几何基元(图3)。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_03

图3:学习到的几何基元的图示。从第一行到最后一行分别是环形、角形和立方体。

这些几何基元可以构成一个新的三维物体。例如,一把简单的椅子由一个坐垫(立方体)和四个腿(圆柱体)组成。因此,我们的方法首先学习已见和未见类别中的共享三维几何元素,然后用它们来代表新的物体。受词包模型(Wallach 2006; Fu, Feng, and Cunningham 2019)的启发,一个句子可以是一本字典,其语义取决于每个词的频率。我们用几何基元来制定点的视觉表示,即把几何基元作为词。一个点可以是一个字典,其中的 "词频 "是指点的特征与相应的几何基元的相似度。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_04

其中

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_05

是M个学习到的几何基元。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_06

是相应的权重,去掉后为:

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_数据集_07

d(-)衡量点特征和第m个几何基元之间的相似性。θ(-)和j(-)分别表示钥匙和密码。(-)表示键和查询函数,λ是反转温度项。由于所有类别的几何基元是共享的,我们将点的表示简化为M维向量:

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_08

本质上,是一个可能性分布,表示几何基元的比例。这样一来,相似的分布意味着同一类别,而不同的基元分布表示不同的类别。

视觉和语义表征上的细粒度对齐

在这一节中,我们在语义表征制定和未知信息NCE损失设计方面对视觉和语义表征进行细粒度对齐。最后,我们介绍了网络是如何推断出可见和不可见的物体的场景的。

混合分布的语义表示

三维物体的视觉表示应该是混合分布,因为它由多个几何基元组成。因此,我们用词嵌入的多核生成语义表征,以实现视觉-语义表征的细粒度对齐。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_09

其中

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_10

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_11

的词嵌入。它们是word2vec(Mikolov等人,2013a)或glove(Pennington, Socher, and Manning,2014)模型的输出嵌入,其输入是类别的名称。C s和C u分别是已见和未见的类别的数量。K是内核的数量。G(-)是生成网络。

未知的InfoNCE损失

我们提出了一个未知的InfoNCE损失来模拟视觉(几何基元分布)和语义表示之间的细微关系。该损失函数被设计为两个目的。1)区分特定的看到的类别,2)使网络能够识别物体是看到的还是未看到的类别。在下文中,我们将介绍有关细节和见解。为了有效地学习已见类和未见类中共享的几何基元,我们对已见类的这些点进行聚类,以确保它们是类内紧凑类间可区分的。也就是说,拉入相应的视觉和语义表示,而如果不是则推开。目标函数如下:

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_12

其中,

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_13

是第i个样本中第t个点的地面真实语义表示。 τ是反转温度项。C s和C u分别为已见和未见的类别数量。D(-)表示视觉和语义表示之间的相似性函数,定义如下:

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_数据集_14

其中d(-)是本文中的doc乘积运算。

由于训练后的模型自然地偏向于所见类,导致了明显的错误分类,特别是对于那些与某些所见类相似的未见语义表示。例如,假设桌子和桌子分别是已见类和未见类。而它们的语义表示在词嵌入空间中是相似的(图4)。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_15

图4:未知的InfoNCE损失对未见过的点监督的说明。这些词表示W2V+GloVe词嵌入,用tSNE可视化表示(Michele等人,2021),其中距离反映了语义相似性。橙色和蓝色的词分别是已见和未见的类别。灰色的破折号圆圈是未见过的点的视觉表示。我们把未见过的点的视觉表征从已见过的类别的语义表征中推开,缓解了错误分类的问题。

那么,如果网络只用桌子类来训练,它可能会把桌子对象识别为桌子(图5)。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_16

图5:ScanNet的定性结果。从第一行到最后一行分别是输入场景(点云)、地面实况、无ZSS的预测和我们的预测。从左列到右列是未见过的类别沙发(地面真相上的棕色)、书桌(粉红色)和厕所(绿色)以及书架(紫色)。注意,黑色是未标记的区域。没有零点分割的模型将未见过的类别错误地归类为一些可见的类别。例如,在第二列中,沙发(棕色区域)被错误地归类为桌子和椅子。相比之下,我们的方法取得了不错的性能。

基于这种考虑,我们把未见类别的视觉表征从已见类别的语义表征中推开,以缓解错误分类问题。目标函数如下:

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_17

请注意,地面真实标签的未见过的点不被访问。本质上,Lu包含了对已见和未见类之间的可能性分布的softmax操作。它强制要求看到的类的可能之和为0,未看到的类的可能之和为1。最后的损失函数是两个项目的组合:

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_18

推断

当用由骨干网络F(-)获得的点特征推断一个新的场景扫描时,其中是场景点的数量。第t个点特征用公式1、2、3转移到视觉表示法中,其类由下式确定:

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_数据集_19

其中

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_数据集_20

是已见类和未见类的语义表示。

实验

数据集

我们的方法在三个数据集上进行了评估,包括两个室内数据集ScanNet(Dai等人,2017)和S3DIS(Armeni等人,2017),以及一个室外数据集semanticKITTI(Behley等人,2019)。S3DIS包括271个扫描过的房间,其中有13个类别中的点标记。我们利用区域5作为验证集,并将其他五个区域作为训练集。ScanNet是一个室内场景数据集,包含1513次扫描,有20个类别的注释,其中1201次扫描用于训练,312次扫描用于验证。SemanticKITTI是一个用于点云分割的大型驾驶场景数据集。SemanticKITTI包含22个序列,其中10个序列用于训练,08个序列用于验证。

评价指标

我们在实验中报告了平均交叉点------联合(mIoU)。此外,按照(Bucher等人,2019;Xian等人,2018;Zhang和Ding,2021),我们采用看到的mIoU和未看到的mIoU的调和平均值(hIoU)来证明ZSS的整体性能。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_21

其中mIoUseen和mIoUunseen分别代表看到类和未看到类的平均IoU。

实施细节

我们采用MinkowskiNet14(Choy, Gwak, and Savarese 2019)作为ScanNet和S3DIS数据集的主干。点视觉特征维度被设定为96。密钥θ(-)和查询j(-)函数的输入和输出分别为96和16维向量。生成网络G(-)是一个两层的MLP网络,维度为96和M×K,其中M和K是原型和语义表示核的数量,并分别设置为128和16。所有实验的体素大小被设定为5厘米,以便进行有效的训练。而温度项λ被设定为4。我们采用Cylinder3D(Zhu等人,2021年)的代码库,并对语义KITTI数据集应用软坐标。按照(Michele等人,2021),我们使用W2V+GloVe词嵌入(600维向量)作为辅助语义信息。我们的方法建立在Pytorch平台上,由Adam用默认配置进行优化。S3DIS、ScanNet和semanticKITTI的批量大小分别为8、8和4。对于S3DIS数据集,训练300个历时花费2小时,对于ScanNet花费8小时,对于semanticKITTI数据集训练20个历时花费40小时。

结果与讨论

在本节中,我们报告了与其他先进方法在三个数据集,即S3DIS、ScanNet和SemanticKITTI上的比较。按照(Michele等人,2021年),我们在表1中以以前的方法为基准。此外,按照二维图像上的零样本分割(Bucher et al. 2019; Zhang and Ding 2021),我们对不同数量的未见过的类进行零样本设置,以全面评估性能(表2)。我们还对我们的方法和只在可见类上训练的对应方法进行了定性评估(图5)。最后,我们讨论了局限性和未来工作的潜在方向。

基线

据我们所知,只有一种方法(3DGenZ(Michele等人,2021))研究了零样本点云的分割。我们在所有的设置上直接比较该方法。此外,我们还将三种二维方法(Frome等人,2013年;Bucher等人,2019年;Zhang和Ding,2021年)改编为三维点云,以进行公平的比较,即骨干与我们相同,我们通过对未见类别的Argmax操作对未见点进行伪标签,并用伪标签重新训练网络。具体而言,我们直接展示了Devise†在(Michele等人,2021)中的表现。我们采用(Bucher et al. 2019)中的ZS5Net版本,即模型自身对未见数据的预测是额外的伪标签训练数据。而网络是用标记过的看到的数据和伪标记过的未看到的数据进行训练。至于(Zhang and Ding 2021),我们使用未见过的视觉特征来训练 "未知视觉原型",在表2中被命名为PMOSR。

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_22

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_细粒度_23

论文阅读:Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives_点云_24

与最先进的方法的比较

按照(Michele等人,2021),我们将三个数据集的四个类别作为未见类别。具体来说,梁、柱、窗和沙发是S3DIS数据集的未见类别,桌子、书架、沙发、厕所是ScanNet数据集的未见类别,摩托车、卡车、自行车手和交通标志是SemanticKITTI数据集的未见类别。如表1所示,我们的方法在很大程度上超过了其他最先进的方法,在三个数据集中的hIoU分别提高了18%、30%和9%。此外,我们的方法在室外激光雷达点云数据集(semanticKITTI)上也有很好的效果,显示了点云稀疏时的泛化能力。

不同数量的未见类下的性能

为了全面评估性能,我们对ScanNet数据集中不同数量的未见类进行了零样本设置,包括2-沙发/桌子,4-书架/厕所,6-浴缸/床,8-窗帘/窗户,10-门/柜台。如表2所示,我们的方法在2-、4-、6-、8-和10个未见过的类别设置中明显优于其他最先进的方法,hIoU提高了14%∼36%(表2),表明该方法可以处理不同数量的未见过的类别。此外,我们还展示了完全监督下的上界性能(参考设置0)。令我们惊讶的是,该方法在沙发和桌子类别中实现了较高的未见度(51.6% mIoU),接近于有地面真相的监督。主要原因是沙发和桌子分别与所见类别的椅子和桌子有类似的语义表示(图4)。受制于未知的InfoNCE损失,网络得出的结论是,那些在语义上与椅子接近的未知物体可能是沙发,而那些与桌子接近的物体可能是桌子。我们还展示了通过对注解的看到的和未看到的类别进行训练的性能(监督的),它是57.7%的mIoU。然而,随着未见类别数量的增加,mIoU和hIoU逐渐减少。这是因为推理未见过的类别的搜索空间也相应增加。更多关于S3DIS和SemanticKITTI数据集的实验见补充材料。定性评估 如图5所示,我们对我们的方法和在ScanNet数据集上只对看到的类别(不含ZSS)进行训练的对应方法进行了定性评估,其中沙发、桌子、厕所和书架是未看到的类别,其余类别是看到的类别。如果只对看到的类别进行训练,网络会将未看到的物体错误地分类为看到的物体。例如,沙发被识别为椅子(第一列)或桌子(第二列);桌子被识别为桌子;厕所被识别为其他家具;书架被识别为墙(第五列)或柜子(最后列)。这表明,网络自然地偏向于训练类,导致那些未见过的、语义表征与所见过的相似的类别出现明显的错误分类。我们的方法缓解了这些问题,并在识别未见过的物体方面取得了不错的表现。局限性和未来工作 我们发现我们的方法对hubness问题很敏感(Cheraghian等人,2019),即随着未见类别数量的增加,我们观察到一些未见的mIoU为0,我们把它留在未来工作中。消融研究 如表3所示,我们在ScanNet 4-未见类别设置上进行了实验,以验证我们方法中不同组件的有效性,包括基于几何基元的视觉表示(GP)、多核语义表示(MK)和未知信息NCE损失(Lu)。我们首先通过以下操作进行基线方法。1).我们去掉原型,直接使用从骨干网络中提取的点特征作为其视觉表征;2).我们从词嵌入中生成单核语义表征;3).我们通过损失Ls仅对看到的类点进行视觉和语义对齐。在下文中,我们将介绍更多的细节和见解。

几何基元的效果

为了验证几何基元的有效性,我们将从骨干网络中提取的点特征作为其视觉表示(Base+Lu+MK16)。与我们的完整方法(Base+Lu+GP128+MK16)相比,未见过的mIoU下降了约5%,这表明几何基元的可视化表示有利于知识从已见过到未见过的类别的转移。此外,当几何基元数量M为48、96、128和256时(Base+Lu+GP48,96,128,256+MK16),我们发现过大或过小的M都会损害性能。

语义表征的影响

通过应用多核语义表征(Base+Lu+MK16),mIoU比没有多核语义表征(Base+Lu)大7%,表明多核语义表征与混合分布式视觉表征很匹配。我们还对不同数量的核进行了实验,其中K为2、4、8、16和32。(Base+Lu+GP128+MK2,4,8,16,32). 在我们的完整方法中,我们选择K为16,实现了最佳性能。未知的InfoNCE损失的影响 我们实现了多个损失函数来约束未见的类点。Lpseudo表示通过对未见过的类别进行Argmax操作,对未见过的点进行伪标签,并用伪标签重新训练网络。Lself借用了Fixmatch(Sohn等人,2020),对两个增强的场景中的未见过的点进行预测一致性。最后一个是公式7中描述的Lu。比较结果显示了我们的未知信息NCE损失的优越性(Base+Lpseudo,Base+Lself和Base+Lu)。

结论

我们在本文中研究了归纳式的零次元语义分割法。我们的方法通过共享的几何基元将知识从看到的转移到未看到的,这些基元是由未知的InfoNCE损失学习的,然后可以代表新的物体,在语义表示的指导下推断出特定的未看到的类别。在三个数据集上进行的广泛实验表明,我们的方法明显优于其他最先进的方法。

实验

在这一节中,我们用不同数量的未见过的类进行了零次设置,以全面评估性能(表1、2和3)。我们还在scannet数据集上显示了额外的定性结果(图1和2)。数据集 我们的方法在三个数据集上进行了评估,包括两个室内数据集ScanNet (?)和S3DIS (?),以及一个室外数据集semanticKITTI (?)。

S3DIS

S3DIS包括271个扫描过的房间,其中的点被标记为13类。我们利用第5区作为验证集,并将其他五个区域作为训练集。为了全面评估性能,我们还对不同数量的未见过的类进行了零点设置,构建了2、4、6类未见过的集合。详细的分法是。2-沙发/横梁,4-柱子/窗户,6-书架/板。请注意,对于不同的设置,未见集中的类别会逐渐增加,例如,4-未见集包含2-未见集,而6-未见集包含4-未见集。

ScanNet

ScanNet是一个室内场景数据集,包含1513次扫描,有20个类别的注释,其中1201次扫描用于训练,312次扫描用于验证。我们对不同数量的未见过的类进行了零次拍摄设置,包括2-沙发/桌子,4-书架/厕所,6-浴缸/床,8-窗帘/窗户,10-门/柜台。对于不同的设置,未见过的集合中的类别会逐渐增加。

SemanticKITTI

SemanticKITTI是一个用于点云分割的大规模驾驶场景数据集。SemanticKITTI包含22个序列,其中10个序列用于训练,08个序列用于验证。我们对不同数量的未见过的类别进行了零样本设置,包括2-摩托车/卡车,4-自行车/交通标志,6-汽车/地形,8-植被/人行道。在不同的设置中,未见过的类别会逐渐增加。

结果与讨论

S3DIS

如表1所示,我们的方法在2-、4-和6-未见类上实现了所见mIoU和未见mIoU的谐波平均值(hIoU)分别为36.6%、32.5%和15.6%,明显优于其他先进的方法,显示了我们框架的有效性。我们还展示了在已注解的已见和未见类别(监督)上进行训练的性能,即57.7% mIoU。我们观察到,在2个未见过的类别设置中,我们的方法与有监督的版本相当。然而,随着未见类别数量的增加,mIoU和hIoU逐渐减少。这是因为推理未见过的类别的搜索空间也相应增加。

ScanNet

我们的方法在2-、4-、6-、8-、10个未见类的设置中明显优于其他最先进的方法,hIoU提高了14%∼36%(表2),表明该方法可以处理不同数量的未见类。此外,令我们惊讶的是,该方法在沙发和办公桌类别中实现了较高的未见度(51.6% mIoU),接近于使用地面真实的监督。受制于未知对比损失,该网络得出的结论是,那些在语义上与椅子接近的未知物体可能是沙发,而那些与桌子接近的物体可能是书桌。

SemanticKITTI

我们的方法在室外激光雷达点云数据集上也表现良好(表3),显示了在点云稀疏、密度不平衡时的泛化能力。此外,我们的方法在很大程度上超过了其他最先进的方法,在2-、4-、6-和8-未见类的设置中,mIoU分别提高了19%、15%、10%和12%。