RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation of Urban Scenes

一、Overview
 2019年的一篇RGB-T语义分割论文,创新点在于提出了一个新的编码器-译码器模型。实验结果表明,本文提出的RTFNet在MFNet提出的数据集中取得了目前最好的分割效果。
二、 Additional knowledge
1.热(红外)图像主要应用于缺乏光照条件(黑夜)以及强光照射情况的自动驾驶。
2.热(红外)图像相关应用较少的原因:
(1)热成像摄像机最初是为军事用途而发明的,其他领域的使用受限。
(2)热成像相机的制造要比普通相机复杂得多,工艺要求较高,价格昂贵。 (近年来价格有所下降,因此这些摄像机可以越来越多地用于民用应用)
(3)使用热成像摄像机获取的热图像噪声较多像素较低,与RGB图像的校准较为困难。
三、Contributions
1.提出了一种融合RGB信息和T信息的深度神经网络模型,用于城市场景的语义分割。
2.证明了使用T信息可以有效提升语义分割效果。
3.在MFNet提出的数据集(第一个RGB-T数据集)中得到了目前最好的结果。
四、Model

rgb遥感图像 unet语义分割模型 pytorch_python


图1 RTFNet模型结构  RTFNet模型结构如图1所示,主要由两个并行的编码器和一个译码器构成,其中两个并行的编码器结构相同,均使用ResNet作为骨架,只有输入的通道数不同(3/1),分别用来提取RGB图像和T图像的特征。图1中黑色的矩形代表Fusion layer,目的是将编码器从两个模态提取到的feature map逐元素相加进行信息融合。  译码器部分是本文的创新点,没有直接采用一般的上采样操作(反卷积层、反池化层、插值等方法),设计了Upception模块,由于编码器部分得到的feature map分辨率为原来的1/32,因此译码器部分使用五个Upception模块,每个模块会将分辨率恢复为其输入的两倍。 表1 Upception Block A&B结构

rgb遥感图像 unet语义分割模型 pytorch_机器学习_02


rgb遥感图像 unet语义分割模型 pytorch_人工智能_03

图2 Upception Block A&B结构

 Upception结构由A和B两部分构成。其中Upception A中的三个卷积层不改变输入的分辨率和通道数。Upception B中Conv1不改变feature map的分辨率但是将通道数减少为原来的一半;Conv2不改变feature map的分辨率和通道数;TransConv1保持feature map的通道数不变同时将通道数变为原来的两倍(上采样);TransConv2将feature map的通道数减少为原来的一半同时将分辨率变为原来的两倍,此时两条路径(残差路径和跳连接路径)的结果分辨率相同(原来的两倍)通道数相同(原来的一半),即可逐元素相加。

五、Experiments
 使用MFNet论文中提出的数据集(第一个RGB-T语义分割数据集),共有九类标签。评价标准还是一般语义分割通用的mAcc和mIoU。数据集的划分也按照MFNet中提出的:训练集由50%的白天图像和50%的夜间图像组成,验证集由25%的白天图像和25%的夜间图像组成,其余图像用于测试。
1.消融实验
验证加入T图像信息是否可以提升分割精度以及Upception结构是否有用。

rgb遥感图像 unet语义分割模型 pytorch_深度学习_04

图3 消融实验结果对比

 图3中NRE代表没有RGB图像编码器(仅使用T图像),NTE代表没有T图像编码器(仅使用RGB图像),NUB表示用一般的上采样操作替换Upception模块。  实验结果表明,编码器部分使用ResNet-50和152较好。虽然ResNet-152的精度略高,但是ResNet-50的参数更少,因此结合精度和效率来看ResNet-50算是最好的选择。  实验结果验证了T信息与RGB信息融合确实可以提高分割精度,而Upception对模型性能的提升也非常明显。 2.与现有方法对比 表2 现有方法类别精度对比

rgb遥感图像 unet语义分割模型 pytorch_深度学习_05


 由于表中除了最后四个模型都是RGB语义分割模型,为了确保公平,对这些模型采用RGB-T四通道输入。(直接将输入的通道级联,效果不好可以预见的到)。

 RTFNet得到了最好的结果。对于某些类别比如护栏的精度为0.0,文中给出的解释是因为数据集中类别不平衡导致的,用于训练的图片中护栏标签极少,因此模型无法从训练数据中学习到这类物体的特征。

3.与现有方法对比(白天和黑夜图片分割效果对比) 表3 现有方法白天和黑夜图片分割效果对比

rgb遥感图像 unet语义分割模型 pytorch_机器学习_06


4.推理速度对比 表4 现有方法推理速度对比

rgb遥感图像 unet语义分割模型 pytorch_人工智能_07


 本文的模型推理速度一般,但是足够完成实时的语义分割(fps大于30),主要好在精度比其它方法都要高。

5.分割结果对比展示

rgb遥感图像 unet语义分割模型 pytorch_机器学习_08

图4 可视化结果 六、Reproduction 1.复现RTFNet-50测试集上的结果:

rgb遥感图像 unet语义分割模型 pytorch_机器学习_09

图5 复现测试结果 2.可视化分割结果示例(复现):

rgb遥感图像 unet语义分割模型 pytorch_计算机视觉_10