MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spectral Scenes

一、Overview
RGB-T图像的语义分割可以用于自动驾驶,用于克服夜晚光照差以及天气条件恶劣的情况。本文提出了第一个RGB-T的语义分割数据集(城市场景),同时提出了MFNet模型用于多模态(RGB-T)的场景分析。(自动驾驶的要求:有效性即实时性;精度;鲁棒性)
二、Motivation
目前存在的语义分割模型多是以RGB图像为输入的,这严重依赖于光照条件以及天气情况,而红外图像可以很好地弥补光照不足等问题,捕捉到更多可见光图像所缺失的信息,因此多模态RGB-T的语义分割在自动驾驶(机器人感知)领域有着巨大的作用,它可以有效的提高运输速率,提高汽车的安全性。
实验证明,使用RGB或RGB-D图像的语义分割模型处理RGB-T输入的效果并不好,这是因为没有考虑到热图像与可见光图像信息间的互补关系。
三、Contributions
1.提出了一种新的多光谱融合网络(MFNet)结构,用于自动驾驶任务的实时图像分割。
2.建立了一个新的RGB-T数据集,其中包含1569个RGB-T城市场景图像对。同时这也是第一个带有像素级标注的RGB-T数据集(数据集中每张图像存成了四通道,使用时需要提取前三通道数据为RGB部分,第四个通道数据为T部分)
3.证明利用热红外信息可以显著提高夜间自动驾驶语义分割系统的性能以及对温度高于周围环境的目标的分割效果。
四.Model

sd语义分割色卡 rgbd语义分割_深度学习


图1 多光谱融合网络MFNet结构 表1 MFNet结构

sd语义分割色卡 rgbd语义分割_计算机视觉_02


从图1和表1中可以看出,MFNet使用两个单独的编码器分别提取RGB图像和T图像的特征信息,最后在译码器部分上采样操作前融合两种模态信息。同时所有卷积层的激活函数都使用leaky-ReLU。

sd语义分割色卡 rgbd语义分割_sd语义分割色卡_03

图2 MFNet核心结构

图2中(a)部分为Mini-inception模块,借鉴了Inception模块的思想,选择了了卷积层与洞卷积层并行的结构以获取上下文信息。(b)部分为Shortcut模块,通过将编码器各阶段RGB信息和T信息级联,再与译码器上一层的结果相加完成信息融合过程。模型结构图中红色矩形框代表的Unpooling层没有使用SegNet中提出的记录最大值位置的Unpooling(Indexed Unpooling),而是使用上采用后所有位置均取最大值的方法,如图3所示。

sd语义分割色卡 rgbd语义分割_深度学习_04

图3 Unpooling策略

**五、Dataset** 该数据集包含1569组RGB-T图像对(白天820组,夜间749组)。在这个数据集中标记了在驾驶过程中经常遇到的八类障碍(汽车、人、自行车、曲线、车站、护栏、警戒锥和凸起),再加上未标记(unlabeled)标签一共是九类。数据集中RGB图像和T图像分辨率都是480×640。

sd语义分割色卡 rgbd语义分割_计算机视觉_05

图4 数据集内各标签分布情况

**六、Experiments** 训练和测试的数据使用本文提出的RGB-T数据集,评价标准是类平均精度Class avg和平均交并比mIoU。 1.MFNet结果与SegNet结果以及Ground Truth可视化结果对比

sd语义分割色卡 rgbd语义分割_计算机视觉_06

图5 可视化结果对比

2.对比实验及消融实验 (1)直接使用RGBT四通道输入效果甚至不如RGB,因此对于RGB-T多模态语义分割任务直接按通道级联输入效果并不好,对应表2中的sec V-A。 (2)Mini-inception模块消融实验。用两个模型与之对比,分别是将Mini-inception模块换成普通3×3卷积层和3×3膨胀系数为2的洞卷积层。实验结果表明使用3×3卷积层和3×3膨胀系数为2的洞卷积层并行的结构可以获取更丰富的信息,效果在三者中最好,对应表2中的sec V-B。 (3)卷积层的激活函数分别使用Leaky-ReLU和ReLU以及增加通道数为两倍的对比实验,可以发现增加通道数对性能的提升很大,而且卷积层激活函数使用Leaky-ReLU的效果也要比使用ReLU的效果要好很多。对应表2中sec V-C。 (4)是否使用Shortcut和Indexed Unpooling以及增加通道数为两倍的对比实验,实验结果再次验证了增加通道数对MFNet性能的提升,同时还验证了本文的Shortcut策略和Unpooling策略的有效性,对应表2中的sec V-D。 (5)是否在Mini-inception中使用1×1卷积层压缩通道数(压缩为多少)的对比试验。实验发现,在语义分割网络中,使用1×1的卷积层来“压缩”卷积层的通道数会对准确率产生显著的负面影响(压缩通道导致信息丢失)。 对应表2中 sec V-E。 表2 对比实验及消融实验

sd语义分割色卡 rgbd语义分割_深度学习_07


3.在测试集中与SegNet和ENet对比 表3 测试结果对比

sd语义分割色卡 rgbd语义分割_深度学习_08


4.与SegNet和ENet的推理速度与参数数目对比 表4 推理速度与参数数目对比

sd语义分割色卡 rgbd语义分割_人工智能_09