文章目录

  • 前言
  • 更新
  • 摘要
  • 正文
  • 介绍
  • 多模态融合表示
  • 联合架构
  • 协同架构
  • 编解码器表示
  • 多模态融合方法
  • 与模型无关的融合方法
  • 基于模型的融合方法
  • 模态对齐方法
  • 数据集
  • 展望
  • 总结
  • 读后感


前言

阅读国外的多模态融合综述时候,可以和国内最新的综述进行比对,通过比对可以进一步提升对该领域的理解。许多过来人还是觉得国内综述性文章的内容是具有价值的,在撰写之前调查了很多的相关研究,值得一看。

面向深度学习的多模态融合技术研究综述是计算机工程近期出版的综述文章。我想通过这篇文章理解一些英文的专业术语用中文怎么表达。

摘要

深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息,实现信息转换和融合,从而提升模型性能的技术,是一个典型的多学科交叉领域,已逐步成为研究热点。模态的普遍性和深度学习的快速发展赋予了多模态融合技术极大的发展潜力。旨在多模态深度学习技术发展前期,以提升深度学习模型分类或回归性能为出发点,总结多模态融合
架构、融合方法和对齐技术。重点分析了联合、协同、编解码器三种融合架构在深度学习中的应用情况和优缺点,以及多核学习、图像模型和神经网络等具体融合方法和对齐技术。最后归纳出多模态研究常用的公开数据集,并展望了多模态融合技术的发展趋势

正文

介绍

多模态融合(MFT)能够使得深度学习更好的从数据中了解世界。MFT包括模态表示(Representation)、融合(Fusion)、转换(Translation)、对齐(Alignment)[2]。这篇文章围绕了多模态融合的三个主要融合框架融合方法。模态对其和公开数据集进行了介绍,并提出了下一个观点。

多模态融合表示

多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。主要包括两大研究方向:联合表示(Joint Representations)、协同表示(Coordinated Representations)、编解码。联合架构是将单模态投影到一个共享的子空间。以便能够融合多个模态的特征。协同融合是包括跨模态相似模型和典型类似分析,有点类似于通过语音做标签来对视频进行分类。编解码是用于将一个模态映射为另一个模态的中间层。下面一张图反映了各个研究领域使用上述三个方法的分布。

多模态数据架构 多模态数据融合技术_多模态融合

联合架构

多模态数据架构 多模态数据融合技术_多模态融合综述_02


多模态融合的策略是通过集成不同类型的特征来提高机器学习的泛化能力。联合架构如上图所示,它将多模态空间映射到共享语义子空间中。每个模态通过一个单独的编码都会映射到共享子空间中。这种方法在视觉问答,视频分类,事件检测等方面。获得了比较好的效果。多模态联合架构最简单的方法就是直接连接,也就是加法。该方法如下面公式所示。设置一个共享层,其中,v单个模态的输入,w是权重,下标表示不同的模态,通过这种映射方式可以将子模态的语义转换到共享空间。

多模态数据架构 多模态数据融合技术_模态_03

还有一种方式是通过乘法相连,整个联合的输出是由所有单模态特征向量输出成绩而构成的。其中o代表的是外积算子。

多模态数据架构 多模态数据融合技术_多模态融合综述_04

尽管加法联合比较简单,但是它的特征向量语义组合会造成后期的语义丢失,让模型的性能下降,而乘法的联合方式可以通过张量计算充分的让语义得到充分的融合。此外,联合架构单个模态的完整性有个一较高的要求。如果数据不完整的话,后期融合这些问题会被放大。一些研究人员通过联合训练或者模态相关性来解决某些部分模态的数据丢失问题。
联合架构的优点是融合方式较为简单。而且共享子空间往往具有语意不变性。但是,如果单个模态的语音完整性嗯,有缺失,那么在早期的话不会被轻易发现

协同架构

协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。按照我的个人理解,协同架构表示是通过每个模态去训练它的特征表示子空间。但是相比较单模态,铁桶架构中每个单模态和另外一个都有一定的线性相关性。也就是他们需要牵连另一个模态的属性。这样的好处是如果在测试的时候缺少了一种模态,另一种模态也可以发挥一定的作用,但是缺点是,如果在两个以上模态中实现这种方法比较困难。具体的实现代码需要看相关领域的应用论文。

多模态数据架构 多模态数据融合技术_多模态融合_05

编解码器表示

多模态数据架构 多模态数据融合技术_多模态融合_06


编码器架构通常用于将一种模态映射为另一种模态的多模态任务转换中。这和前面的两种表示方法并不一致。编码器将原模态映射到中间向量中。哎,解码器基于中间向量生成一个新的。目标模态样本。这种架构在图像合成视频编解码中广泛应用。强化学习这种具有较高决策性的模型是常用来进行多模序列编解码的工具。比较经典的应用就是使用一个乐器翻译音乐。编解码架构和其他架构相比,它的优点是能够在原模态的基础上生成新的目标模态样本。但是缺点也很明显,每个编解码器只能编码一种膜态,因此在决策过程中设计比较复杂。

多模态融合方法

多模态数据架构 多模态数据融合技术_神经网络_07


以往的研究更重要的强调早期,晚期和混合融合方法。这篇文章中主要将多模态融合方法分为模型无关与基于模型两大类。前者不依赖于特定的深度学习方法。后者则需要深度学习方法。直观地解决融合问题。例如基于核、图像模型、神经网络等方法。

与模型无关的融合方法

与模型无关的融合方法可以分为早期融合。也就是基于特征的融合。以及晚期融合即基于决策的融合,最后还有混合融合。如下图所示,早期融合在特征提取后就立即集成特征。晚期融合在每个模式输出结果之后才执行集成。混合融合结合了早期融合和晚期融合的输出。

多模态数据架构 多模态数据融合技术_模态_08


早期融合

早期融合的方法如上图所示。为了解决各模态中原始数据的不一致问题。可以从每个模态中分别提取特征直接进行特征融合。当然深度学习的方法本质上从原始数据中学习特征。这样会导致在没有抽取特征之前就进行数据融合。二者都可以称作为早期融合。在早期融合中,在特征融合和数据融合提取模态之间的相关性难度较大。一般我们认为不同模态数据流所包含的信息在高层次维度上才能找到相关性,因此,主成分分析pca方式被广泛地应用于多模态深度学习中。此外,多模态早期融合还需要解决不同数据之间的时间同步。

晚期融合

晚期融合比较简单,这里从上图中我们可以看出。它只是将不同子网络的输出结果进行不同的决策部署。这种方式比较受青睐。在讨论早期融合和晚期融合的优势之中,我们发现具体问题要具体分析。多模态之间的相关性比较大时,早期融合较为合适。当各个模态在很大程度上不一致。例如维度和采样率及其不相关,采用晚期融合更为合适。

混合融合

混合融合如上图所示,它结合了早期和晚期融合方式。同时也增加了模型的结构复杂度和训练难度。由于深度学习模型框架多样灵活,因此,混合融合方方法常采用深度学习方法。

总的来说,三种融合方式各有优缺点。早期融合能更好地捕捉特征之间的关系。但容易过度拟合训练数据,晚期融合可以更好地处理过拟合。但难以捕捉。不同维度的相关信息。而混合融合设计比较灵活,虽然精度够高,但是需要设计者自行设计。

基于模型的融合方法

基于模型的融合方法是从实现技术和模型的角度解决多模态融合问题,常用的方法有三种:多核学习方法(Multiple kernel learning,MKL)、图像模型方法(Graphical models,GM)、神经网络方法(Neural networks,NN)等。
多核学习方法
方法是支持向量机的扩展允许不同的和对应数据的不同视图,具体的方法因为我没有用到,这里就不做解释。
图神经网络
图像神经网络是最近流行的一一种络。2020年,很多研究专家认为图像神经网络在今年会有一个大的爆发。图神经网络主要通过图像分割拼接。预测。对浅层或深度图形进行融合,从而生成模态融合结果。该方法的优点是能够容易利用数据的空间和时间结构。还允许人类将专家知识嵌入到模型中,让模型的可解释性增强。但是模型的泛化能力不足。
神经网络
神经网络已经大量的应用于多模态任务中,一些人通过拼凑模型,可以达到比前面两种模型方式更优的性能。此外,神经网络多模态融合在图像字幕处理任务表现良好。而神经网络的方法一个很大的优势是从大量的数据中自主学习。但它的缺点也比较明显。随着网络多模态的增加,可解释性会变得越来越差。

模态对齐方法

模态对齐是多模态融合中关键的技术之一,它是指多模态中实例的对应关系。例如给定一个图像和标题。我们希望能够找到图像区域与标题单词的关系。多模态对齐方法中,显性对齐关注模态之间组件的对齐,隐性对齐则是在深度学习模型训练期间对数据进行潜在的对齐。

多模态数据架构 多模态数据融合技术_神经网络_09


多模态数据架构 多模态数据融合技术_多模态数据架构_10


显性对齐

显性方式有无监督和监督两种方式。

1)无监督方法。该方法在不同模态的实例之间没有用于直接对齐的监督标签。例如,动态时间扭曲(Dynamic Time Warping ,DTW)[73]是一种动态规划的无监督学习对齐方法,已被广泛用于对齐多视图时间序列。 文献[74]是根据相同物体的外貌特征来定义视觉场景和句子之间的相似性,从而对齐电视节目和情节概要。上述两个研究成果都在没有监督信息的前提下,通过度量两个序列之间的相似性, 在找到它们之间的最佳匹配之后按时间对齐 (或插入帧),从而实现字符标识和关键字与情节提要和字幕之间的对齐。也有类似 DTW 的方法用于文本、语音和视频的多模态对齐任务,例如文献[75]使用动态贝叶斯网络将扬声器输出语音与视频进行对齐。

(2)监督方法。有监督对齐技术是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法希望在不降低性能的前提下,尽量减少监督信息,即弱监督对齐。 例如,文献[76]提出了一种类似于规范时间扭曲的方法,主要是利用现有(弱)监督对齐数据完成模型训练,从而提升深度学习模型性能。文献[77]利用少量监督信息在图像区域和短语之间寻找协调空间进行对齐。文献[78]训练了一个高斯混合模型,并与一个无监督的潜变量图形模型一起进行弱监督聚类学习,使音频信道中的语音与视频中的位置及时对齐。因此,监督方法的对齐性能总体上优于无监督方法,但需要以带标注数据为基础,而较准确地把握监督信息参与程度是一个极具挑战的工作。

隐式对齐方法

(1)图像模型方法。该方法最早用于对齐多种语言之间的语言机器翻译, 以及语音音素的转录[79],即将音素映射到声学特征生成语音模型,并在模型训练期间对语音和音素数据进行潜在的对齐。构建图像模型需要大量训练数据或人类专业知识来手动参与,因此随着深度学习研究的进展及训练数据的有限,该方法已经用得不多。

(2)神经网络方法。目前,神经网络是解决机器翻译问题的主流方法,无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。例如,图像自动标注应用中,在生成每个连续单词时[80],注意力机制将允许解码器(通常是 RNN)集中在图像的特定部分,该注意力模块通常是一个浅层神经网络,它与目标任务一起完成端到端的训练。该方法具备较好的潜力,目前已被广泛应用于语音数据标注、视频文本对齐和视频转录等多个领域[81]。但由于深度神经网络的复杂性,设计注意力模块具有一定的难度。

数据集

下图是多模态融合技术中常用的数据集。但是不限于以下这些。其实很多视频都可以用于多模态的融合。这里需要注意。通过视频和音频数据做视频分类,和自己的研究很相近。

多模态数据架构 多模态数据融合技术_模态_11

展望

尽管现在大多数研究人员都在追求深度学习模型的性能,但是跨模态的迁移学习、特征间的语义鸿沟模型的泛化能力仍然具有很好的研究价值。这篇文章推荐了以下几个研究方向:
1 多模态融合技术在深度学习的一些新应用领域中仍然需要进一步探索。目前基于传感器人类活动识别。医学研究等多模态问题仍然研究不够。
2 多模态融合技术为多数据集之间的跨模态迁移学习提供了新的桥梁。尽管迁移学习已经广泛应用于多模态各个领域中。但是由于长期以来的数据标注工作量大。如果能实现多模态融合的迁移,将会大大提高视频分析的能力。
3 目前深度学习多模态融合中语义冲突重复。噪声等问题仍未得到解决。虽然注意力机制可以解决部分的问题。但是他们是隐性的工作。不是主动控制的。研究一种主动控制方式可以更好地将逻辑推理和深度学习结合起来。
4 未来多模态融合技术将在情感识别和分析中发挥更大的作用,如果能将人的面部表情,瞳孔扩张语言身体动作、体温等各个属性进行融合,就可以获得全面的更为详细的识别效果。
5 缺少一个评判的标准。现在如何定义一个模型组合形式的好坏?如何解决各模态信息无障碍的互通?如何解决模型泛化能力?赵梦琪都是需要进行解决的。
6. 在多模态中由于研究者之前并不知道数据模态对齐,深度学习算法很容易落入局部最小值。因此需要尽快提出一种非凸优化解决方法。

总结

近年来,人工智能飞速发展,多模态深度学习逐步成为研究热点。本文总结了深度学习领域多模态融合技术的研究现状,对融合架构、融合方法、模态对齐等方面进行了深入分析。融合架构按照特征融合方式的不同,分为联合架构、协调架构和编解码器架构。融合方法包括早期、晚期、混合三种模型无关的方法,多核学习、图像模型两种基于模型的方法。模态对齐一直是多模态融合技术的难点,常用的两种方式为显示对齐和隐式对齐。近期在模态融合技术上的研究促进了大量新的多模态算法产生,并且拓展了多模态学习的应用范围。这些模型和算法各有优缺点,可在不同领域应用中发挥其优势和作用。作为一种能让机器拥有更多人类智能特性的技术,多模态深度学习有望在今后获得长足的发展。下一步可针对模态语义冲突、多模态组合评价标准、模态泛化能力等研究不充分的问题进一步研究,对跨模态迁移学习、非凸优化等难点问题进行深入探索,并促进该技术在深度学习中一些新领域的应用。

读后感

个人感觉这篇论文介绍得非常详细。但是在文章的开头和结尾并没有梳理好文章的结构。文中并没有介绍多模态融合架构、多模态融合方式以及对齐技术相关的区别和联系。这使得读者在逻辑框架中混乱。我自己查阅了相关资料之后又发现其他论文和这篇综述在介绍中又有一些专业术语的不同。总的来说,这篇论文是一篇很好的多模态综述,但是,美中不足的是文章在逻辑上没有让读者直观了解。
收获:明白了多模态融合技术大致包括三种模态架构表示,早期中期混合融合方法和基于模型的融合方法,显性和隐性对齐方式,相关数据集
思考:一般这种多模态用cnn提取图像,rnn提取音频,attention做数据对齐。参考文献94可以参照一下,修改自己baby crying音视频融合的方法。
不懂的地方:显性对齐的方式没看懂,多核和图像模型不会,每一节之间的联系不清楚,是先有鸡还是先有蛋?。