Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes

三维点云场景小样本语义分割的双向特征全局化

2022 International Conference on 3D Vision (3DV)pp.505-514, (2022)

摘要

点云的小样本分割仍然是一项具有挑战性的任务,因为没有有效的方法将局部点云信息转换为全局表示,这阻碍了点特征的泛化能力。在本研究中,我们提出了一种双向特征全局化(BFG)方法,该方法利用点特征和原型向量之间的相似性测量,以双向方式将全局感知嵌入到局部点特征中。在点到原型全局化(Po2PrG)中,BFG根据从密集点特征到稀疏原型的相似性权重将局部点特征聚合到原型。通过原型到点全局化(Pr2PoG),基于稀疏原型到密集点特征的相似性权重,将全局感知嵌入到局部点特征中。基于度量学习框架,将嵌入全局感知的每个类的稀疏原型总结为用于少镜头3D分割的单个原型。在S3DIS和ScanNet上进行的大量实验表明,BFG显著优于最先进的方法

1. 引言

由于卷积神经网络强大的表示能力和众多点云注释数据集的开源,我们在点云分割方面取得了前所未有的进展[18,3,11,26,30,16,17]。然而,注释大规模点云数据集既费力又广泛,阻碍了点云分割在各种场景中的应用。

近年来,对小样本3D点云分割[34]进行了探索。给定具有足够训练数据的基类和很少监督的新类,此任务旨在将在基类上初始化的3D表示模型推广到新的类。早期的研究只是简单地模仿了从2D到3D任务的小样本分割方法。例如,单原型方法[5]利用全局平均池来生成3D语义原型,用于在度量学习框架中对点集进行分类。多原型方法[34]通过聚合来自不同对象部分的点特征来生成原型,以改进语义表示。

尽管取得了实质性进展,但当实例由复杂部分组成时,现有方法会受到严重的错误分割的影响。通过我们的调查,我们意识到错误分割是由点卷积引起,其缺乏捕获全局特征感知的能力。当发生变形或尺度变化时,这种全局感知对于产生正确的分割至关重要。

在本文中,我们重点设计了一种双向特征全局化(BFG)方法(图1),以规范语义原型的训练过程,并赋予每个点特征和原型全局特征感知。BFG定义了一个双向模块,该模块使用密集的局部点特征来生成稀疏的全局原型,然后利用全局原型来指导局部点特征的全局化。有了这样一个双向模块,点特征和原型都被赋予了全局感知。

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_相似度

具体而言,所提出的方法植根于度量学习框架,该框架由两个分支(支持分支和查询分支)组成,图2。支持分支负责原型和支持点特性的全球化,依次通过两个模块:点到原型全局化(Po2PrG)和原型到点全局化(Pr2PoG)。给定由稀疏原型生成(SPGen)模块初始化的稀疏原型,Po2PrG和Pr2PoG根据稀疏原型和密集点特征之间的相似性权重,以双向方式对原型和点特征进行全局化。最后,进行稀疏原型组装(SPA),以获得用于度量学习的支持点特征的最优原型表示。查询分支生成来自支持分支的原型与查询点特征之间的相似度图,以获得点云分割结果。

最后,我们的BFG的主要贡献总结如下:

•我们提出了双向特征全球化(BFG),定义了一种简单而有效的方法,以相互增强的方式将全局感知嵌入局部点特征及其原型。

•我们基于相似性权重设计了点对原型全球化(Po2PrG)和原型对点全球化(Pr2PoG)模块,这两个模块分别激活了对原型和点特征的全局感知。

•通过组装嵌入全局感知的稀疏原型,我们在流行的S3DIS和ScanNet数据集上实现了新的先进性能。

2. 相关工作

点云分割。用于对一类实例进行逐点分类的点云语义分割已经得到了广泛的研究。PointNet[18]学习通过MLP独立地提取每个点的特征,并利用对称函数(如最大池)来解决无序问题,同时聚集全局特征。在此基础上,出现了大量基于点的方法[19,15,26]。逐点MLP方法[19,11,33,7]使用共享MLP作为用于特征提取的网络的基本块。点卷积方法[15,2,3,28,13,29,23,14]旨在通过设计高效的点卷积算子来提取高质量的点特征并学习局部关系。基于图的方法[26,25,12]旨在通过在点集中构造图和设计新的图卷积来学习点的空间几何特征。

然而,这些方法在很大程度上依赖于大规模的训练集,并且无法推广到新的类,这限制了许多现实世界场景的应用。为了提高三维表示模型的泛化能力,点云的小样本分割任务一直是社区的研究重点。

小样本学习目前的小样本学习方法主要集中在度量学习[24,22,32,31,21]和元学习[27,20,6,9]。基于度量学习的方法主要集中在使用距离度量来预测两个区域是否属于同一类。基于元学习的方法的主要思想是指定优化过程或损失函数,以获得更快学习和适应新类的能力。在各种度量学习框架中,证明了原型概念对小样本学习的有效性[24,31]。受这些启发,原型学习方法被广泛应用于小样本分割任务,在保持高性能的同时大大减少了计算预算。

小样本3D点云分割。当前点云的小样本分割方法[5,34]在很大程度上遵循度量学习框架,该框架从支持点集学习语义。这样以原型向量的形式存储语义,原型向量被广义化以分割查询点集。ProtoNet[5]使用单个原型来集中表达支持点集中每个语义类的特征。它设计了一种掩码平均池策略来生成原型向量,然后应用相似性测量函数来建立原型与查询点集特征之间的关系。MPTI[34]引入了一种基于原型的转导学习方法来预测查询点集的语义类。它还提取了支持点特征的多个原型,以更好地表示丰富的前景语义。

尽管取得了实质性进展,但当存在变形和/或尺度变化时,现有方法会受到严重的错误分割的影响。通过我们的调查,我们意识到错误分割是由于点卷积的局部性,它缺乏捕捉全局特征感知的能力。多原型方法[34]采取了一个步骤来缓解这种情况。然而,它需要大量增加原型的数量,这就增加了计算的复杂性。在本文中,我们提出了双向特征全球化(BFG)方法,该方法旨在将特征全球化,以获得每个类的单个原型向量的最优表示。

3. 方法

3.1。概述

我们的BFG方法的流程图如图2所示,它使用ProtoNet[5]作为基线。作为一种小样本三维分割网络,BFG由两个网络分支组成:支持分支(上部)和查询分支(下部)。这两个网络分支使用权重共享的特征嵌入网络来提取点特征。设F和FQ分别表示通过支持分支和查询分支的嵌入网络后的点特征。在支持分支中,首先通过稀疏原型生成(SPGen)在点特征F和相应的掩码上生成原型。通过点到原型全球化(Po2PrG)和原型到点全球化(Pr2PoG)模块,这些原型向量被赋予了全局特征感知。应用稀疏原型组装(SPA)模块来聚合原型以进行语义表示。在查询分支中,通过距离函数(余弦距离或平方欧几里得距离)计算查询点集的提取特征FQ与支持分支提取的原型之间的相似度图。这样的相似性映射被直接用于产生语义分割结果。在查询分支中,网络由交叉熵损失LCE驱动,如Ltotal=LCE。

3.2.稀疏原型生成

稀疏原型生成(SPGen)生成原型的初始表示,如图2所示。对于每一类支持点集,我们首先使用点的掩码来获得前景点和背景点。受[10,8]的启发,前景点被划分为多个组,这些组对应于对象部分。每个部分对应一个原型向量。根据[34],稀疏原型通过两个步骤初始化:对象部分构建和原型提取。

对象零件构造。将N和D分别表示为点特征的数量和通道。给定支持点集的支持点特征F∈RN×D,坐标J∈RN X 3,掩码Mc∈RN N X 1(c表示类),掩模点特征及其坐标(mc表示属于类c的支持点的数量)通过其对应的掩模mc获得,并通过保留类c的点和其他类的剔除点来实现。

基于点特征F c和坐标J c,依次执行采样种子点和点到种子分配[34]。采用最远点采样(FPS)算法对来自同一类的K个种子点的子集进行采样。种子点表示零件的中心。设

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_02

表示采样的种子。然后,我们计算点到种子的距离,并根据每个点最近的零件中心的索引将点特征分配给这些零件中心。

原型提取。我们在每个部分中执行全局平均池化以提取原型。形式上,类c的初始稀疏原型µc定义为:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_03

,其中掩蔽点特征f c={f c i}mc i=1被划分为K个集合i c={Ic 1,·,i c K},使得f c i≠Ic K被分配给s c K。同时,每个点j c i∈Ic j,k的坐标也被分配给s c k。通过这种方式,我们得到零件集的坐标为I c J={Ic J,1,··,I c J,K}。类似地,每个原型的坐标定义为:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_04

3.3.双向特征全球化

由于初始化的原型是在对象部分中提取的,因此原型语义仅限于局部点特征。为了解决这个问题,我们提出了点到原型全球化(Po2PrG)来执行稀疏原型的全局表示,图3(左)。同样,由于点卷积的局部性,嵌入网络提取的密集点特征忽略了对象部分之间的全局语义感知。原型对点全球化(Pr2PoG)是为了解决这个问题而提出的,图3(右)。

Po2PrG和Pr2PoG模块分别利用点到原型和原型到点相似性的语义感知。通过Po2PrG和Pr2PoG,BFG以双向方式将全局感知嵌入到原型向量和点特征中。

在引入Po2PrG和Pr2PoG之前,我们定义了用于生成相似性权重的相似性度量。为了利用空间信息将jc引入相似性度量。因此,点特征Fc和稀疏原型µc之间的相似性可以定义为:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_05

其中D(·)表示在L2范数或内积运算中定义的距离测量,如下所示。

(1) L2范数通常用于计算两个特征向量之间的相似性。通过此运算,D(·)定义为:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_相似度_06

,其中

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_07

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_08

,并且||·||表示L2范数。λ是使基于特征的F c n距离和基于坐标的J c n距离保持数量级一致的比例因子,在我们的实验中设置为0.85。

(2) 内积运算公式为:D=

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_09

,其中

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_10

和(·)T是矩阵的转置运算。类似地,

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_相似度_11

。ξ表示浓度因子,在我们的实验中设置为0.5。

3.3.1点到原型全局化。

点到原型的全局化是基于从密集点特征到稀疏原型的相似性权重进行的。具体来说,相似性测量、权重生成和原型全球化按顺序进行。

相似性度量。给定初始化的原型{µc,µcJ},我们计算点特征和原型向量之间的相似性,如

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_12

。在实验中,D1被定义为L2范数。

权重生成。在这个过程中,我们将密集点特征转换为权重wn,k,它是根据点特征和每个原型向量之间的相似性定义的,如:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_13

其中

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_相似度_14

是第n个点特征和第k个原型向量之间的相似性。这样的相似度权重表示原型和点特征之间的语义相似度。权重值越大,语义相似度越高。

原型全局化。生成语义相似度后,通过相似度权重计算点特征的加权平均值,实现原型全球化。新的原型υc k公式化为:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_15

通过点特征的加权平均,全局感知被嵌入到稀疏原型中。

3.3.2原型到点全球化。

在Po2PrG之后,稀疏原型已经获得了全局感知。但是,局部点特征仍然是局部依赖的。为了解决这个问题,引入了基于相似度权重的Pr2PoG,将全局感知嵌入到局部点特征中。这是通过四个步骤实现的:相似性测量、权重生成、点特征全局化和原型全局化。

相似性度量。给定稀疏原型υc,其中包含全局感知,我们计算点特征和全局原型之间的相似性,如

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_相似度_16

,其中

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_17

。在实验中,D2被定义为内积运算。

权重生成。通过相似度测量,我们通过语义感知将全局原型与局部点特征相关联,即从全局原型到密集点特征的相似度权重。从第k个原型到第n个点特征的相似性权重wek,n定义为:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_18

在权重空间中,与点特征具有更高相似度的原型被分配更高的权重,反之亦然。

点特征全局化。基于语义相似性,通过相似性权重的加权平均得到更新的点特征F c n,如下:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_19

原型全球化。为了使原型全球化,我们使用权重生成将更新的点特征转换为新的权重wbn,k,其公式化为:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_20

然后,Po2PrG的原型全球化用于通过相似性权重计算加权平均值,并获得增强的原型r c k,如:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_21

在Pr2PoG之后,点特征与稀疏原型相关联,并获得以下原型装配的增强原型

3.4.稀疏原型组装

在原型全球化之后,我们获得了具有全局语义感知的增强原型,如rc={rc k}k=1。在以下度量学习过程中进行语义分割时,需要生成查询特征和原型向量之间的相似度图。为了进行测量,首先需要对每个类的稀疏原型进行融合。我们首先将MLP应用于原型,如下:

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_22

。然后,我们计算每个类的平均原型z c,如

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_相似度_23

其中

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_权重_24

是c类原型的归一化权向量,并且◦ 是Hadamard产品。所有类的原型都是

论文阅读:Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes_点云_25