论文题目:Deep Multimodal Fusion by Channel Exchanging
时间:2020
来源:NIPS
论文链接:​​​点击跳转​​​ 论文代码:​​点击跳转​

目录

  • ​​==摘要==​​
  • ​​研究目的​​
  • ​​解决方法​​
  • ​​实验结果​​
  • ​​==介绍==​​


通过通道交换进行深度多模态融合

摘要

研究目的

通过使用多个数据源进行分类或回归的深度多模态融合在各种应用中表现出优于单模态对应物的明显优势。然而,包括基于聚合基于对齐的融合在内的当前方法在平衡模态间融合模态内处理之间的权衡方面仍然不足,导致性能提升的瓶颈。

解决方法

为此,本文提出了通道交换网络(CEN),一种无参数的多模态融合框架,可在不同模态的子网络之间动态交换通道。具体来说,通道交换过程是由单个通道重要性自我引导的,该重要性由训练期间批量归一化 (BN) 缩放因子的大小来衡量。这种交换过程的有效性也通过共享卷积过滤器同时跨模态保持单独的 BN 层来保证,作为附加好处,这使得我们的多模态架构几乎与单模态网络一样紧凑。

实验结果

与当前最先进的方法相比,通过 RGB-D 数据和通过多域输入进行图像转换的大量语义分割实验验证了我们的 CEN 的有效性。还进行了详细的消融研究,这证明了我们提出的每个组件的优势。

介绍

受到低成本传感器日益普及的鼓舞,利用从不同来源/结构获得的数据进行分类或回归的多模态融合已成为机器学习的核心问题。加入深度学习的成功,多模态融合最近通过引入多模态的端到端神经集成被指定为深度多模态融合,并且它在语义分割中相对于单模态范式表现出了显着的优势,动作识别,视觉问答和许多其他。

已经针对深度多模态融合进行了各种工作 。关于它们如何融合的类型,现有方法通常分为基于聚合的融合、基于对齐的融合以及它们的混合。基于聚合的方法采用某种操作(例如平均、串联和自注意力)将多模态子网络组合成单个网络。相反,基于对齐的融合采用调节损失来对齐所有子网络的嵌入,同时保持每个子网络的完全传播。这两种机制之间的区别如图 1 所示。 多模态融合的另一种分类可以指定为早期、中期和晚期融合,具体取决于何时融合,这在早期的工作中已经讨论过以及深度学习文献。

尽管取得了丰硕的进展,但如何整合跨模态的通用信息,同时保留每个模态的特定模式仍然是一个巨大的挑战。特别是,一旦聚合了多模态子网络,基于聚合的融合就容易低估模内传播。相反,基于对齐的融合保持了模内传播,但由于仅通过训练对齐损失来交换弱信息,它总是提供无效的模间融合。为了在模态间融合和模态内处理之间取得平衡,当前的方法通常采用聚合和对齐融合的仔细分层组合来增强性能,但代价是额外的计算和工程开销 [12, 29, 51]。

当前工作。我们提出了无参数、自适应和有效的通道交换网络(CEN)。 CEN 不像以前那样使用聚合或对齐,而是在子网络之间动态交换信道以进行融合(见图 1(c))。 CEN 的核心在于其受网络修剪 [33, 49] 启发的更小范数信息假设。具体而言,我们利用Batch-Normalization(BN)[24]的缩放因子(即γ)作为每个对应通道的重要性度量,并将与每个模态接近零因子相关的通道替换为均值的其他方式。这种消息交换是无参数和自适应的,因为它是由训练本身确定的缩放因子动态控制的。此外,我们只允许在每个模态的特定通道范围内进行定向通道交换,以保留模内处理。 § 3.3 中提供了更多细节。关于我们想法有效性的必要理论也在第 3.5 节中提出。

CEN 的另一个标志是所有子网的 BN 层以外的参数是相互共享的(第 3.4 节)。尽管之前在 [8, 48] 中研究了这个想法,但我们在这里将其应用于 CEN 中的特定目的:通过使用私有 BN,如上所述,我们可以确定每个单独模态的通道重要性;通过共享卷积滤波器,不同模态之间的相应通道嵌入了相同的映射,从而更有能力对模态通用统计量进行建模。这种设计进一步将多模态架构压缩到几乎与单模态架构一样小。

我们在两项研究中评估我们的 CEN:通过 RGB-D 数据进行语义分割 [41, 43] 和通过多域输入进行图像翻译 [50]。它表明,在公平的比较条件下,CEN 的性能明显优于基于聚合或对齐的各种融合方法。特别是在语义分割方面,我们的 CEN 在两个流行的基准测试中明显优于最先进的方法。我们还进行消融研究以隔离每个提议组件的好处。 § 4 中提供了更多规范。