摘要
随着深度学习的迅速发展并广泛应用到语义分割领域,语义分割效果得到了显著的提
升。本文主要对基于深度神经网络的图像语义分割方法和研究现状进行了详细的综述。根据
网络训练方式的不同,将现有的方法分为全监督学习图像语义分割方法和弱监督学习图像语
义分割方法,对每类方法中代表性算法的效果以及优缺点进行分析介绍,并系统地阐述了深
度神经网络对语义分割领域的贡献。然后,归纳了当前主流的公共数据集和遥感数据集,并
在此基础对比主流图像语义分割方法的实验结果。最后,对语义分割技术面临的挑战以及未
来工作的发展方向进行了展望。
全监督学习图像语义分割方法
人工标注的样本能够提供大量细节信息和局部特征,有利于提高网络训练效率和分割精
确度。因此,目前主流的语义分割网络模型大多是全监督学习类型。针对传统的分类神经网
络有固定尺寸的输入,产生非空间输出,全连接层有固定维度等问题,Long 等人[10]提出一
种可以接受任意尺寸的图像输入的全卷积网络(Fully Convolutional Networks, FCN),图 1,
FCN 将 CNN 模型中的全连接层替换为全卷积层以进行像素级的稠密估计;其次利用增大数
据尺寸的反卷积层对特征图进行上采样,对每个像素都产生一个预测,并保留了原始输入图
像中的空间信息,将粗糙的分割结果转换为精细的分割结果;最后采用结合不同深度层的跳
跃结构,融合深层粗糙特征(全局语义信息)和浅层精细特征(局部位置信息),从而成功
地将图像分类网络转变为图像分割网络
FCN 解决了传统分割网络由于使用像素块而带来的重复存储和计算卷积问题,从而推
动了图像语义分割的快速发展。但其仍存在一些明显缺陷:(1)反卷积过程粗糙,对图像细
节不敏感;(2)没有考虑像素之间的联系,缺乏空间一致性;(3)未有效考虑图像上下文特
征信息,无法充分利用空间位置信息,导致局部特征和全局特征的利用率失衡;(4)训练复
杂,计算量大,不能达到实时;(5)固定网络的感受野不能自适应物体尺寸。因此,研究者
们在 FCN 网络的基础上,提出了一系列图像语义分割方法,如图 1 所示。本文根据改进思 路的不同,又将其分成 8 小类:DeepLab 系列方法、基于编解码器方法、基于注意力机制方
法、基于概率图模型方法、基于图像金字塔方法、基于生成对抗网络方法、基于优化卷积方
法和基于循环神经网络方法。图 2 中不同箭头线条代表不同的基于全监督学习方法的语义分
割类别。
弱监督学习图像语义分割方法
基于深度神经网络进行全监督学习的分割模型已成为图像语义分割的主流方法,在分割
效果上不断取得突破。然而这些方法需要大量人工标签数据进行训练,不仅耗时耗力,并且
很难大批量获取。因此,研究者们将目标转向轻量级标注数据,提出了一系列弱监督学习的
图像语义分割方法,进一步提高语义分割性能。本文根据不同类型的弱监督标注数据,将弱
监督学习图像语义分割方法分为 6 类:基于边界框标注方法、基于涂鸦级标注方法、基于点
级标注方法、基于图像级标注方法、基于混合标注方法以及基于附加数据源方法。图 6 所示
为弱监督学习图像语义分割方法的时间发展轴。
数据集介绍
自语义分割发展以来,图像一直是该领域的关注重点,因此二维图像数据集数据量丰富,
涉及范围广。本节以表格的形式列举了语义分割领域中常见的公共图像数据集和遥感图像数
据集,希望给研究者们以后的工作带来更多的方便。
表 2 常用的图像语义分割遥感数据集