实现了全景分割,即语义分割+实例分割。

全景分割:全景分割任务(Panoptic Segmentation)要求图像中的每个像素点都必须被分配给一个语义标签和一个实例id。其中,语义标签指的是物体的类别,而实例id则对应同类物体的不同编号。

语义分割:在语义分割中我们需要将视觉输入分为不同的语义可解释类别,「语义的可解释性」即分类类别在真实世界中是有意义的。例如,我们可能需要区分图像中属于汽车的所有像素,并把这些像素涂成蓝色。

实例分割:实例分割为属于同一对象类的不同对象实例提供了不同的标签。因此,实例分割可以定义为寻找目标检测的任务同时解决语义分割。将每个分割后的对象分解为各自的子成分。

语义分割会为图像中的每个像素分配一个类别,但是同一类别之间的对象不会区分。而实例分割,只对特定的物体进行分类。这看起来与目标检测相似,不同的是目标检测输出目标的边界框和类别,实例分割输出的是目标的Mask和类别。

主要包括语义分割头,实例分割头以及一个将两者融合的模块。

语义分割头为作者自己设计的。

作者提出的语义分割头由三个部分组成,每个部分都针对其中一个关键需求。

实例分割头作者使用了Mask-RCNN的变体。

Mask-RCNN:Mask R-CNN是一个两阶段的框架,第一个阶段扫描图像并生成提议(proposals,即有可能包含一个目标的区域),第二阶段分类提议并生成边界框和掩码。Mask R-CNN 扩展自 Faster R-CNN。

网络的backbone使用EfficientNet的变体以及双路FPN。

EfficientNet:该论文提出了一种新的模型缩放方法,它使用一个简单而高效的复合系数来从depth, width, resolution 三个维度放大网络,不会像传统的方法那样任意缩放网络的维度,基于神经结构搜索技术可以获得最优的一组参数(复合系数)。EfficientNet不仅比别的网络快很多,而且精度也更高。为了追求更好的精度和效率,在ConvNet缩放过程中平衡网络宽度、深度和分辨率的所有维度是至关重要的。

FPN:特征金字塔网络(FPN),FPN能够实现底层到高层的feature map的融合,从而充分利用了提取到的各阶段的特征。FPN采用了top-down的结构和横向连接,以此融合具有高分辨率的浅层layer和具有丰富语义信息的深层layer,从而实现了从单尺度的输入图像上,快速构建在所有尺度上都具有强语义信息的特征金字塔,同时并不产生明显的开销。同时FPN是一个窗口大小固定的滑动窗口检测器,在不同的层滑动可以增加其对尺度变化的鲁棒性。

RPN:区域建议网络(RPN) RPN是一个轻量的神经网络,它用滑动窗口来扫描图像,并寻找存在目标的区域,RPN扫描的矩形区域被称为anchor,这些anchor相互重叠尽可能地覆盖图像。滑动窗口是由 RPN的卷积过程实现的,可以使用GPU并行地扫描所有区域。此外,RPN并不会直接扫描图像,而是扫描主干特征图,使得RPN可以有效地复用提取的特征,并避免重复计算。RPN为每个anchor生成两个输出:用于区分前景和背景的anchor类别以及更好拟合目标的边框精度。通过使用RPN的预测,可以选出最好地包含了目标的anchor,并对其位置和尺寸进行精调,如果有多个 anchor 互相重叠,通过非极大值抑制,保留拥有最高前景分数的anchor。