具有区域潜在语义相关性的多标签图像分类
来自2018年的CVPR
摘要
深度卷积神经网络(CNN)在单标签图像分类方面表现出了先进的性能,在多标签图像分类方面也取得了长足的进展。多标签图像分类需要在一个镜头中标注物体、属性、场景类别等.目前的多标签图像分类方法利用了图像中标签的相关性,在全局范围内极大地提高了标签的能力。然而,由于对全局视觉特征的识别有限,预测小物体和视觉概念仍然是一个挑战.在本文中,我们提出了一个区域潜在语义依赖模型(RLSD)来解决这个问题,所使用的模型包括一个完全卷积的定位架构来定位可能包含多个高度依赖标签的区域.局部区域被进一步发送到递归神经网络(RNN)来表征区域层次上潜在的语义依赖.在几个基准数据集上的实验结果表明,我们提出的模型取得了最好的性能相比于最新的模型,特别是用于预测图像中出现的小物体.此外,我们在训练过程中利用边界盒坐标建立上界模型(RLSD+ft-RPN),实验结果也表明,我们的RLSD可以在不使用边界盒标注的情况下接近上界,在现实世界中更加真实
1.介绍
由于网络访问的便利和数字设备的广泛使用,大尺度图像已变得广泛可用,这为研究人员了解这些图像提供了各种机会,图像分类作为一项传统的任务,已经进行了几十年的全面研究,特别是对于单标签分类问题,已经取得了各种进展,而在现实世界中,图像通常包含着丰富的语义信息,如物体、属性、动作、场景等.通过给图像分配多个标签,可以将视觉信息转化为语言,便于理解,并可用于图像检索和语义分割等其他可视化应用.
此任务背后的关键问题是弥合图像可视内容和多个标签之间存在的语义差距.图1给出了多标签图像的示例.随着大规模数据集的可用和数据标注的丰富,多标签图像分类引起了人们的广泛关注,受到深度神经网络,特别是卷积神经网络先进性能的启发,人们在将神经网络应用于多标签分类问题上做出了各种努力。
图一:多标签图像的一个例子。红色箭头表示图像内容和标签之间的视觉相关性,蓝色点线表示标签之间存在语义依赖性。 最直接的方法是将多标签图像分类问题视为几个单独的单标签分类问题,并使用交叉熵或排名损失来训练每个标签的独立分类器。weet 提供了一个区域解决方案,允许在区域级别上独立地预测标签,但是,他们很难建立不同标签之间的标签依赖的模型,直观上看,多标签的图像中标签之间的相关性很强,例如ocean和ship通常出现在同一幅图像中,而ocean和cat通常不会同时出现,为了方便地探索标签依赖关系,在以往的工作中通常采用概率图形模型(PGM)
最近,Wang等证明了递归神经网络(RNN)可以有效地捕获高阶标签依赖关系,他们将CNN和RNN统一为一个框架,在全局层面上挖掘标签依赖,极大地提高了标签的能力,然而,由于对全局视觉特征的识别有限,预测小物体和属性对于这些工作来说仍然是一个挑战。
在本文中,我们的主要贡献是提出了一个用于多标签图像分类的区域潜在语义依赖(RLSD)模型,该模型有效地捕获了区域层面上的潜在语义依赖。该模型结合了区域特征的优点和基于RNN的标签共现模型的优点,与目前最先进的多标签分类模型相比,在多个基准数据集上取得了最好的性能,特别是在预测小目标和视觉概念方面。图2显示了我们提出的RLSD模型与基线模型的示例输出。我们可以看到,在Multi-CNN和CNN+LSTM中,由于图片中的“瓶子”、“花瓶”和“酒杯”体积较小,所以没能预测出它们,而我们的模型有效地预测了它们和其他大型物体。
图2:不同模型多标签预测实例结果,左边是ground-truth,中间的一列是来自基线模型、Multi-CNN和CNN+LSTM的结果,右列显示我们提出的RLSD模型的输出,包括预测的多个标签和选定的区域,与基线方法相比,我们的模型预测效果更加丰富,尤其擅长预测小物体,如瓶子、酒杯、花瓶等。
所提模型的框架如图3所示。首先通过CNN对输入图像进行处理,提取卷积特征,然后将其发送到RPN-like (Regional Proposal Network)定位层,与传统的目标检测框架中的RPN(如faster R-CNN)不同,RPN试图用一个单一的目标来预测提案,我们的定位层被设计用于定位图像中可能包含多个语义依赖标签的区域,利用全连接神经网络对这些区域进行编码,再将其发送给RNN, RNN在区域层面捕获潜在的语义依赖关系,RNN单元根据定位层的输出和先前的递归神经元的输出顺序输出多类预测.最后,执行最大池化操作以融合所有区域输出作为最终预测。
此外,我们还建立了一个上界模型(RLSD+ft-RPN),利用对象限定框坐标进行训练。我们的实验结果表明,我们的模型可以达到这个上限,而不涉及额外的限定框注释,这在现实世界中更加真实。
2.相关工作
在过去的几年中,人们对多标签图像分类进行了大量的研究。基于强大的深度卷积神经网络,在图像分类方面取得了最新进展,该网络尝试通过使用由多个非线性变换组成的架构来对视觉数据的高级抽象进行建模。已有几种方法将单标签分类网络扩展到多标签问题。Gong等人结合top-k排名目标与CNN架构来解决这个问题。通过为成对排序标签定义权重函数,使损失函数最小化,使正标签的排序高于负标签。weet al.提供了一个区域解决方案,允许在区域级别上独立地预测标签。他们使用BING生成对象建议,并进一步将其发送到CNN来计算多类得分。应用最大池化操作将区域得分融合在一起作为最终分类结果。我们还使用了区域特征和最大池融合。然而,我们考虑区域潜在语义依赖,这允许我们联合预测多个标签。
还有一些研究通过设计多模态表示方法来解决多标签分类问题,通过学习图像视觉内容和标签的表示方法来弥合图像和标签之间的语义鸿沟。通常采用典型相关分析(CCA)和核典型相关分析(KCCA)构建潜在语义空间来解决多标签图像标注和检索问题。这些方法侧重于挖掘标签丰富的语义信息,而忽视了标签之间的依赖关系。
为了建立标签依赖的模型,提出了几种方法。在之前的工作中,对图像特征标签联合分布进行建模.有几种不同的图结构可以实现这一目的.基于图的方法的一个局限性是,标签语义信息越丰富,图就越复杂,计算复杂度高,效率低.此外,上述所有方法都只在全局层次上对标签依赖进行建模
递归神经网络(RNN)已被证明能够有效地建立一个序列的时间依赖性模型,并已成功地应用于多个序列对序列的问题.Wang等表明,RNN可以有效地捕获高阶标签依赖关系,他们将CNN和RNN统一为一个框架,在全局层面上利用标签依赖性,极大地提高了标签的能力,我们也应用RNN来捕获标签的依赖关系,但与上述不同的是,我们的区域潜在语义依赖模型考虑了区域层面上的标签依赖,使我们能够预测小尺寸物体和视觉概念
我们提出利用区域建议网络、全连接识别网络和RNN共同提取具有丰富语义信息的图像区域,同时探索潜在的语义依赖关系
3. RLSD模型
a)框架概述:该模型的关键特征是能够捕获区域语义标签的依赖关系。其新颖之处在于,这是由一个本地化体系结构实现的,然后是一些LSTMs(长-短期内存)。定位层的目的是定位包含多个高度依赖标签的区域,而LSTMs被用来按顺序描述潜在语义标签依赖关系。执行一个max-pooling操作以最终融合所有区域输出。图3显示了我们提出的模型的整个网络:
图3:我们提出的区域潜在语义依赖模型。首先通过CNN对输入图像进行处理,提取卷积特征,然后将其发送给类似于RPN的全卷积定位层。定位层定位图像中可能包含多个高度依赖标签的区域,用全连接神经网络对这些区域进行编码,并发送到区域LSTM中。最后进行max-pooling操作,融合所有区域输出作为最终预测
接下来的章节III-A首先介绍了定位层,章节III-B描述了基于LSTM的标签序列预测模型,最大池化操作和损失函数概述在第III-C节,模型初始化和一些训练细节在章节III-D 节给出
A.本地化多标签区域
为了在区域层次上探索图像,我们需要生成可能包含多个对象和视觉概念的区域,因此,我们提出的模型的第一个组成部分是定位这些区域。传统的目标建议算法(如选择性搜索,Objectness, BING和MCG等)被排除,因为这些方法只关注预测单一候选目标,这意味着一个候选区域通常只包含一个单一的目标。Johnson等人提出了一种全卷积神经网络,它是在候选区域网络(RPN)[14]的基础上扩展而来的,用于定位可以用一句话而不是单个标签来描述的区域。因此,提出的区域通常具有较大的标签密度和标签复杂度,受他们工作的启发,我们开发了一种针对多标签图像分类的候选区域生成方法。
1)卷积特征作为输入:由于CNN的卷积层仍然保留了图像的空间信息,这是我们探索区域层面上的语义依赖关系所必需的,所以我们使用它来提取图像特征。具体来说,我们使用VGGNet卷积层配置,它由13个卷积层(具有3×3的内核大小)和5个最大池层(具有2×2的内核大小)组成。最后一个卷积层的输出作为图像特征。给定一个大小为的输入图像,卷积特征为,其中,与VGGNet设置相同,卷积特征被进一步发送到定位层,以生成我们感兴趣的候选区域。
2)全卷积定位层:定位层的输入是最后一步提取的卷积特征,而输出是感兴趣的空间区域的数量,每个区域都有固定大小的表示
a)锚点与回归:我们通过回归一组生成锚点的偏移量来预测候选区域,具体来说,将卷积特征图内部的每个点投影回原始图像(H×W),并以其为中心生成k个不同高宽比的锚盒(框),每个锚框被送到一个全卷积的网络中,以产生预测的盒标度和置信分数。全卷积网络由256个核大小为3×3的卷积滤波器,一个ReLU层,最后一个带有个滤波器的卷积层组成,其中4为盒标量的数目,1为置信分数,在我们提出的模型中,我们设k = 12.我们在锚框上应用对数空间缩放变换,这意味着给定锚框的参数,其中是锚框的中心,分别表示锚框的宽度和高度,我们通过以下公式生成区域坐标:
。采用光滑L1范数作为损失函数来回归区域位置,给定真坐标,损耗函数定义为:
其中:
b)盒采样和双线性插值:这里采用了一种采样机制对生成的候选区域进行子采样,因为将所有候选区域发送到进一步的基于LSTM的标签生成步骤是非常昂贵的,采样一个大小的小批量,M/2置信度最高的区域为正样本,M/2最低的区域为负样本,我们还限制了在一个小批中大部分盒子(框)是正样本,另一半是负样本,在测试阶段,采用非最大抑制来选择最优的M个方案
为了保证候选区域特征能被全连通层接受,梯度能被反向传播到输入特征和盒坐标,使用双线性插值代替ROI池化层,我们参考双线性采样操作,对于顶部的M区域候选,得到特征图,其中为VGGNet卷积特征图大小,为双线性采样网格大小。在我们的例子中,我们设.
3)全连接网络编码:得到区域特征后,将其发送到由两个4096-d全连接层组成的基于dropout正则化的全连接网络中,每个区域的特征被扁平化成一个向量,并通过这个全连接网络。因此,每个候选区域被编码为4096维的特征向量.所有区域全连接特征形成一个小批量,大小为,其中表示第个候选区域.
图4显示了我们的定位层提出的区域和MCG产生的候选区域之间比较结果的一些例子。由我们的模型生成的边界盒通常更大,其中一些包含多个对象。因此,我们的模型不仅可以探索足够的标签依赖,而且在预测小物体和视觉概念方面优于现有的方法。为了显示定位层的有效性,我们设置了一个基线模型,使用MCG[45]来代替我们的多标签区域定位层,用于进一步的多标签分类。
图4:MCG生成的前15个区域(左)与我们的定位层(右)对比结果。我们生成的一些区域包含多个对象,例如,生成的区域包含烤箱/微波炉/厨具、人/网球拍、人/风筝/车等对象
B.一个基于LSTM的多标签生成器
是sigmoid非线性,LSTM更新的时间步长,给定输入:
其中是LSTM的输入,忘记,记忆,输出状态,各种矩阵都是训练过的参数 ,是时间步长t的隐藏状态,并被输入到Softmax中,它将在所有标签上产生一个概率分布:
图5表示LSTM的结构
,设,其中为可学习的区域特征嵌入权值,由式(5)到式(11),得到一个初始隐藏状态,可用于下一个时间步.从到,设,隐藏状态由上一步给出,其中为可学习标签嵌入权值,T是区域内的标签数,是时间步长处的输入标签.实际上,在我们的RLSD模型中,由于在训练阶段(和测试阶段)只提供了全局多标签的地面真值,不能使用区域的地面真值,我们将称为潜在标签,可由下式得到:
是索引的独热向量,其他情况则为0.是所有标签上的概率分布的最大值的索引,它是通过LSTM前馈过程在前时间步计算得到的,在预测一个区域的所有标签之后,添加一个“END”标签来完成预测
将一个小批量中的所有M区域特征(一个小批量中的所有区域都来自同一幅图像)放入到LSTM模型中,我们在每个时间步长t上收集每个区域上的预测,形成一个形状为的矩阵,其中为数据集的标签大小。如果一个区域标签的长度小于T,我们将填充0.
C.最大池化和损失函数
为区域在时间步长的输出预测,为的第个分量,融合层的最大池可以表示为:
其中可以认为是给定图像第类的预测值
最大池融合是RLSD模型对噪声鲁棒性的关键步骤.以平方损失为代价函数,将融合层的输出输入多路softmax层,定义为:
是第幅图像的ground-truth概率向量,是第幅图像的预测概率向量.N是图像的数量
图6显示了所提出的测试图像RLSD模型的示意图。定位层生成测试图像的潜在多标签区域,进一步提取特征并输入到共享LSTM中,我们可以看到,像“酒杯”、“瓶子”、“花瓶”等小尺寸的物体,由于我们的多标签定位网络,可以包含在区域内。测试也以端到端方式执行.
图6:测试图像的RLSD模型示意图,定位层生成测试图像的潜在多标签区域,进一步提取特征并输入到共享LSTM中。我们可以看到,像“酒杯”、“瓶子”、“花瓶”等小尺寸的物体,由于我们的多标签定位网络,可以包含在区域内。测试也以端到端方式执行
D.初始化和预培训
我们的模型能够从头到尾进行训练,但是正确的初始化和预训练机制对于实现良好的性能非常重要。
a)定位层预训练:定位层在视觉基因组区域标题数据集上预先训练,与其他目标检测数据集不同的是,该数据集图像中的每个区域通常包含多个目标和视觉概念,非常适合我们的多标签区域定位任务。
b) LSTM预训练:在训练阶段,LSTM首先对全局图像进行预训练,没有候选区域,其中每个时间步长都以全局图像标签作为真实标签,计算损失,然后使用预先训练好的LSTM作为我们提出的RLSD模式下区域LSTM的初始化,我们发现初始化过程对模型快速收敛非常重要
4.实验
在这一节中,我们给出了我们的实验结果和分析来证明我们提出的RLSD模型在多标签图像分类问题上的有效性.我们在三个基准数据集上评估了提出的模型:VOC PASCAL 2007 [48], Microsoft COCO[49]和NUS-WIDE[50]。通过与几种最先进的模型和基线模型的比较,我们表明我们提出的RLSD模型取得了最好的性能。我们进一步分析了精确度-召回率和边界盒的大小,表明我们的模型特别擅长预测小的对象。
4.1 评价指标
我们使用的评价指标:计算预测标签的精度和召回率。对于每个测试图像,我们预测k个排名最高的标签,并与图像的ground-truth进行比较。精确度是正确标注标签的数量除以预测标签的数量;召回率是正确标注标签的数量除以地面真实值标签的数量。我们根据下述的公式计算总体精度和召回率(op & or)和每级精度和召回率(cp & cr)。我们还计算了用于比较的平均平均精度(mAP):
4.2 在Microsoft COCO的实验结果
Microsoft COCO dataset[49]是一个大规模的基准数据集,用于几个视觉任务。总共有123,287张图像用于训练和验证,其中注释了80个对象概念.我们使用一幅图像中所有标注的对象标签作为多标签的地真,以其训练集作为训练数据,以验证集作为测试数据.去除没有标注的图像后,我们有82081张训练图像和40137张测试图像。我们通过计算这些标签的共现率来获得这些标签的语义依赖性,并将其形成一个矩阵.我们发现它的标签集有很强的依赖性,例如键盘和计算机总是同时出现:
5.结论
多标签图像分类是多媒体领域的一个重要问题,因为它不仅比单标签图像分类更具挑战性,而且更接近于现实应用。在本文中,我们提出了一个区域潜在语义依赖(RLSD)模型来解决这个问题。顾名思义,该模型可以捕获区域级别上的标签依赖关系。在几个基准数据集上的实验结果表明,提出的RLSD模型始终能够取得优于现有方法的整体性能,特别是在预测图像中的小目标和视觉概念方面
在未来,我们将研究以无监督的方式定位多标签区域,注意机制在这种情况下可以被重视,因为它可以用来建模标签之间的空间关系,我们将在未来的工作中将注意力机制与我们提出的区域潜在语义依赖模型结合起来。