文章目录

  • Introduction
  • LSTM-CF模型
  • Memorized Vertical Depth Context
  • Memorized Vertical Photometric Context
  • Memorized Context Fusion
  • Scene Labeling
  • 实验结果


Introduction

Scene labeling也叫做semantic scene segmentation,即语义分割,其目的是给场景中的每个像素都赋予一个语义类别的标注,比如桌子、路、墙,等等。如下图所示。(关于语义分割可以参照博主的这篇论文。)

setr语义分割 lstm语义分割_语义分割

应用场景:机器人任务规划(robot task planning)位姿估计平面分割基于上下文的图像检索自动照片调整(automatic photo adjustment)

与室外场景的分割相比,室内场景任务更加困难,原因有:室内场景的语义类别更多、遮挡更严重、目标外观差异更大。 比如,如果只用广度通道(RGB)识别诸如床这种室内目标,盖上不同的床单、搭配不同的窗帘,要比室外场景难很多(如道路、建筑、天空)。尽管引入深度信息后,由于其能够提供额外的结构信息,室内场景的分割效果要好很多,但是仍然有下面两个问题需要解决:

  1. 如何有效地表述和融合共存的深度和光度(RGB)数据。
  2. 如何在特征学习过程中有效获取全局场景上下文。

LSTM-CF用了与ReNet相同的方式,通过竖直和水平方向上级联的RNN模型捕获图像中的2D依赖项。通过几何编码(geometric encodeing)方法对深度通道构造了HAA图像,再用几层卷积层提取特征。受ReNet的启发,这些卷积层后面跟着用于记忆上下文的层,对竖直方向上短期和长期空间依赖建模。对于光度通道,LSTM-CF用DeepLab网络学习特征,随后用记忆了上下文的层建模竖直方向上的上下文。之后,网络利用一个融合层将竖直方向上的光度和深度通道的上下文整合起来。考虑到光度通道相对于深度通道而言包含更多信息,LSTM-CF在最终全连接层之前又增加了跨层连接,将从光度通道习得的特征直接传递给融合的全局上下文。支持端到端训练、测试。

LSTM-CF模型

下图是论文所提出的LSTM-CF模型,包含四个部分:用于竖直深度上下文提取的层,用于竖直光度上下文提取的层,用于整合光度和深度上下文成2D全局上下文的记忆融合层,和给定级联的卷积特征和全局上下文进行像素级场景分割的最后一层。网络的输入是光度图像和深度图像。(深度图像提取上下文的那三层卷积的参考文献看这里。)

setr语义分割 lstm语义分割_卷积_02

Memorized Vertical Depth Context

给定深度图像,论文应用这篇论文的提出的HHA描述来编码深度图像在三通道(视差、表面法线、高)下的几何性质。后面三层卷积层随机初始化,用来获得与RGB通路下相同的图像分辨率(这个操作与该论文不同,没有直接用ILSVRC2012数据库下预训练好的模型。这么做的原因是HHA图像与RGB图像色彩分布不同。)在HHAConv3层后面,跟了一个从ReNet中获得的额外的memorized上下文层,其从卷积层习得的局部上下文信息沿竖直方向进行双向传播。由于进行的是逐像素标注,因此这个ReNet层中的每个patch中仅包含一个像素。由此,vertical memorized context layer(此处用LSTM作为回归单元)可以表示为:

setr语义分割 lstm语义分割_卷积_03
setr语义分割 lstm语义分割_rgb-d_04

其中,用setr语义分割 lstm语义分割_2d_05表示HHAConv3习得的特征图,setr语义分割 lstm语义分割_setr语义分割_06setr语义分割 lstm语义分割_语义分割_07setr语义分割 lstm语义分割_卷积_08setr语义分割 lstm语义分割_setr语义分割_09分别代表宽、高、通道数),setr语义分割 lstm语义分割_2d_10setr语义分割 lstm语义分割_rgb-d_11分别代表LSTM中前向和后向的隐藏状态。在前向LSTM中,在像素setr语义分割 lstm语义分割_卷积_12处的单元以setr语义分割 lstm语义分割_setr语义分割_13setr语义分割 lstm语义分割_setr语义分割_14为输入,输出由下式算出(文献):

setr语义分割 lstm语义分割_2d_15

后向LSTM也可以类似地计算出来。

最后,像素级竖直深度上下文被共同描述成一张图setr语义分割 lstm语义分割_语义分割_16,其中setr语义分割 lstm语义分割_卷积_17代表vertical memorized context layer输出通道数的总数。

Memorized Vertical Photometric Context

这一部分没说什么特别的,就是把网络结构详细说了一下。注意一点:提升分辨率这里用的interpolation。

Memorized Context Fusion

这一层的输入、输出维度:setr语义分割 lstm语义分割_rgb-d_18setr语义分割 lstm语义分割_rgb-d_19

Scene Labeling

考虑到光度图像比离散、稀疏的深度图像包含更多信息,网络又加了两层,从光度图像分支到像素标注之前。文献

实验结果

setr语义分割 lstm语义分割_2d_20


setr语义分割 lstm语义分割_语义分割_21


setr语义分割 lstm语义分割_语义分割_22


setr语义分割 lstm语义分割_2d_23


setr语义分割 lstm语义分割_rgb-d_24


setr语义分割 lstm语义分割_语义分割_25


setr语义分割 lstm语义分割_语义分割_26