一、主要内容

本文介绍了一种用于语义图像分割的轻量级结构LiteSeg。论文探索了一个新的更深层的Atrous Spatial Pyramid Pooling module (ASPP),并应用了长短残差连接以及深度可分离卷积,从而得到了一个更快、更有效的分割模型。LiteSeg体系结构在多个backbone上进行测试,如Darknet19、MobileNet和ShuffleNet,在准确性和计算成本之间提供多重权衡。以MobileNetV2为主干网的LiteSeg模型,在Cityscapes数据集上针对640×360分辨率的图像以每秒161帧的速度,达到了67.81%的mIoU精度。

二、创新点

基于编解码结构、Atours Spatial Pyramid Pooling (ASPP)、空洞卷积和深度可分离卷积,论文设计了一种能够适应任何backbone的LiteSeg结构。通过选择不同的backbone,将允许在计算成本和精度之间进行权衡,以满足多种需求。

详细来说主要有两点:

  • 1、提出了一种实时有竞争力的网络结构,并用三种不同的backbone Darknet19、MobileNetV2和ShuffleNet进行了测试,在Cityscapes数据集上实现了70.75%、67.81%和65.17%的分割性能。
  • 2、新的更深层版本的ASPP模块经过调整并结合长短残差连接,可以更好地提升实验效果。

三、网络结构

下图所示的网络结构思想也比较简单,主要是不同膨胀率的空洞卷积和浅层深层特征连接,后期进行解码生成分割图。其实思想比较简单,但是可以将该思想广泛应用到不同backbone中~

LiteSeg: 一种用于语义分割的轻量级ConvNet_卷积

四、实验结果

编码效果对比:

LiteSeg: 一种用于语义分割的轻量级ConvNet_数据集_02

参数和fps对比:

LiteSeg: 一种用于语义分割的轻量级ConvNet_卷积_03

Cityscapes数据集上实验结果对比:

LiteSeg: 一种用于语义分割的轻量级ConvNet_卷积_04

可以发现,LightSeg结构有很大的优越性。

LiteSeg: 一种用于语义分割的轻量级ConvNet_数据集_05

上述内容,如有侵犯版权,请联系作者,会自行删文。