LiteSeg: 一种用于语义分割的轻量级ConvNet

原创

3D视觉工坊 2022-10-06 12:30:28 ©著作权

©著作权归作者所有：来自51CTO博客作者3D视觉工坊的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、主要内容

本文介绍了一种用于语义图像分割的轻量级结构LiteSeg。论文探索了一个新的更深层的Atrous Spatial Pyramid Pooling module (ASPP)，并应用了长短残差连接以及深度可分离卷积，从而得到了一个更快、更有效的分割模型。LiteSeg体系结构在多个backbone上进行测试，如Darknet19、MobileNet和ShuffleNet，在准确性和计算成本之间提供多重权衡。以MobileNetV2为主干网的LiteSeg模型，在Cityscapes数据集上针对640×360分辨率的图像以每秒161帧的速度，达到了67.81%的mIoU精度。

二、创新点

基于编解码结构、Atours Spatial Pyramid Pooling (ASPP)、空洞卷积和深度可分离卷积，论文设计了一种能够适应任何backbone的LiteSeg结构。通过选择不同的backbone，将允许在计算成本和精度之间进行权衡，以满足多种需求。

详细来说主要有两点：

1、提出了一种实时有竞争力的网络结构，并用三种不同的backbone Darknet19、MobileNetV2和ShuffleNet进行了测试，在Cityscapes数据集上实现了70.75%、67.81%和65.17%的分割性能。
2、新的更深层版本的ASPP模块经过调整并结合长短残差连接，可以更好地提升实验效果。