rgb遥感图像 unet语义分割模型 pytorch

转载

mob6454cc6f6c1c 2024-09-09 11:52:50

文章标签 计算机视觉机器学习深度学习人工智能 python 文章分类 PyTorch 人工智能

RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation of Urban Scenes

一、Overview
2019年的一篇RGB-T语义分割论文，创新点在于提出了一个新的编码器-译码器模型。实验结果表明，本文提出的RTFNet在MFNet提出的数据集中取得了目前最好的分割效果。
二、 Additional knowledge
1.热（红外）图像主要应用于缺乏光照条件（黑夜）以及强光照射情况的自动驾驶。
2.热（红外）图像相关应用较少的原因：
（1）热成像摄像机最初是为军事用途而发明的，其他领域的使用受限。
（2）热成像相机的制造要比普通相机复杂得多，工艺要求较高，价格昂贵。（近年来价格有所下降，因此这些摄像机可以越来越多地用于民用应用）
（3）使用热成像摄像机获取的热图像噪声较多像素较低，与RGB图像的校准较为困难。
三、Contributions
1.提出了一种融合RGB信息和T信息的深度神经网络模型，用于城市场景的语义分割。
2.证明了使用T信息可以有效提升语义分割效果。
3.在MFNet提出的数据集（第一个RGB-T数据集）中得到了目前最好的结果。
四、Model

rgb遥感图像 unet语义分割模型 pytorch_python

图1 RTFNet模型结构 RTFNet模型结构如图1所示，主要由两个并行的编码器和一个译码器构成，其中两个并行的编码器结构相同，均使用ResNet作为骨架，只有输入的通道数不同（3/1），分别用来提取RGB图像和T图像的特征。图1中黑色的矩形代表Fusion layer，目的是将编码器从两个模态提取到的feature map逐元素相加进行信息融合。译码器部分是本文的创新点，没有直接采用一般的上采样操作（反卷积层、反池化层、插值等方法），设计了Upception模块，由于编码器部分得到的feature map分辨率为原来的1/32，因此译码器部分使用五个Upception模块，每个模块会将分辨率恢复为其输入的两倍。表1 Upception Block A＆B结构

rgb遥感图像 unet语义分割模型 pytorch_机器学习_02

rgb遥感图像 unet语义分割模型 pytorch_人工智能_03

图2 Upception Block A＆B结构

Upception结构由A和B两部分构成。其中Upception A中的三个卷积层不改变输入的分辨率和通道数。Upception B中Conv1不改变feature map的分辨率但是将通道数减少为原来的一半；Conv2不改变feature map的分辨率和通道数；TransConv1保持feature map的通道数不变同时将通道数变为原来的两倍（上采样）；TransConv2将feature map的通道数减少为原来的一半同时将分辨率变为原来的两倍，此时两条路径（残差路径和跳连接路径）的结果分辨率相同（原来的两倍）通道数相同（原来的一半），即可逐元素相加。

五、Experiments
使用MFNet论文中提出的数据集（第一个RGB-T语义分割数据集），共有九类标签。评价标准还是一般语义分割通用的mAcc和mIoU。数据集的划分也按照MFNet中提出的：训练集由50%的白天图像和50%的夜间图像组成，验证集由25%的白天图像和25%的夜间图像组成，其余图像用于测试。
1．消融实验
验证加入T图像信息是否可以提升分割精度以及Upception结构是否有用。

rgb遥感图像 unet语义分割模型 pytorch_深度学习_04

图3 消融实验结果对比

图3中NRE代表没有RGB图像编码器（仅使用T图像），NTE代表没有T图像编码器（仅使用RGB图像），NUB表示用一般的上采样操作替换Upception模块。实验结果表明，编码器部分使用ResNet-50和152较好。虽然ResNet-152的精度略高，但是ResNet-50的参数更少，因此结合精度和效率来看ResNet-50算是最好的选择。实验结果验证了T信息与RGB信息融合确实可以提高分割精度，而Upception对模型性能的提升也非常明显。 2．与现有方法对比表2 现有方法类别精度对比

rgb遥感图像 unet语义分割模型 pytorch_深度学习_05