本篇文章介绍 ACM MM 2023 论文Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation,3D和图文模态的碰撞,多视角多模态的统一表征。

  • 论文地址:https://arxiv.org/abs/2308.02982
  • 代码地址:https://github.com/Mr-Neko/JM3D

现有的3D领域受限于数据集的规模和数据标注模式,3D相关的预训练工作一直难有大的突破。之前的部分工作借助于大规模的图文数据及图文预训练模型,尝试将3D表征和图片、文本表征统一。然而这类方法存在两个最主要的缺陷:

  1. 之前的方法忽略了多角度图片带来的信息增益,同时文本构成简单单一,这使得3D模型的表征能力并没有充分的发挥出来
  2. 之前方法选择将3D表征分别独立与图片与文本表征对齐,简化了图片和文本特征的潜在对齐,导致了优化困难的问题

出于此,我们提出了JM3D(Joint Multimodal 3D),包括了SMO(Structured Multimodal Organizer)与JMA(Joint Multi-modal Alignment)分别解决对应的问题。JM3D在不引入额外结构和设计的情况下,适用于任何3D表征的backbone,并可有效提高任意backbone的表征效果。

JM3D~_数据

 图1 JM3D的过程,红线表示独立对齐,绿线表示JMA修正过的对齐方式

JM3D~_数据_02

图2 JM3D的整体框架,SMO构建多角度图片和层次化文本,JMA则完成联合模态的对比学习

方法

Framework

JM3D本质上是一种提升任意点云表征的预训练框架,由一对预训练过的图文大模型和一个任意的3D backbone组成。在训练过程中,框架分别提取对应模态的表征,并通过一个对比学习任务和一个聚类任务拉近三个模态表征之间的距离。

SMO(Structured Multimodal Organizer)

SMO是一种新的数据组织方式。我们分别为视觉和语言模态设计了不同的组织方式。对于视觉模态而言,我们为每个3D素材渲染了30个视角的图片,并设计了一种临近连续采样方式去采样不同视角的图片。这种方式保证所有图片的视角在一定范围内,因此视觉特征具有连续的特点。

JM3D~_数据_03

JMA(Joint Multi-modal Alignment)本质上,表征学习的本质是希望获得相同实例对于不同模态的概率分布,也就是:

JM3D~_数据_04

因此,在实验中,之前的方法会将3D表征分别与图片表征及文本表征独立做对比学习进行对齐。然而,视觉模态和语言模态应当存在一定的隐关系,这个隐关系是可以通过图文的表征获得的。因此,我们在JMA中对该公式重新进行了推导,获得了如下的形式: 

JM3D~_3D_05

JMA通过这种形式,完成了联合模态的建模,从而提升了模型的效果。

实验

我们在3D分类、3D分割、3D召回等任务上进行了大量的实验,这些实验表明我们的方法可以有效提高各种backbone的表征效果。在ModelNet40和ScanObjectNN下的3D分类实验,更多的实验可以参照原文:

JM3D~_人工智能_06

对于SMO和JMA的消融实验:SMO

JM3D~_模态_07

JMA 

JM3D~_3D_08

图片召回3D模型 

JM3D~_3D_09

总结

我们提出了JM3D,这是一个全面的预训练框架,采用SMO和JMA,能够无缝地将语言、图像和点云特征整合到一个统一的语义空间中,而无需任何专门的设计。通过精心组织数据,SMO模块充分利用了每种模态的信息,而JMA模块则通过联合建模来优化模态对齐。消融研究验证了所提出的SMO和JMA的有效性。此外,JM3D在零样本3D分类和图像检索任务中表现出卓越的性能,创造了新的最先进水平,突显了其出色的跨模态能力。未来,我们将探索不同的数据和替代的联合建模方法,进一步拓展3D的统一表示学习。