论文:Adaptive Pyramid Context Network for Semantic Segmentation

一. 论文简述

  本文主要设计了一种自适应金字塔上下文模型(APCNet),与其他现有的语义分割模型相比,它包含了多尺度(MS)、自适应、全局指导局部亲和力(GLA)三大特性,经实验表明其性能优于现有的其他模型。

(上下文信息指的是被检测目标附近的一些信息,对目标检测可以起到帮助作用)

二. Motivation

  已经有相关工作证明,多尺度、自适应以及全局指导局部亲和力三大特性都可以提升语义分割模型的性能,但是当前现有的的一些模型都忽略了其中一个或一些特性,因此作者提出了一种包含了这三个特性的模型,得到了很好的效果。

        

语义分割热力图最简单的三个步骤 语义分割tta_数据集


三.模型结构

语义分割热力图最简单的三个步骤 语义分割tta_CNN_02


  模型的整体结构如上图,模型的多尺度特性体现在使用多个ACM模块对经CNN生成的feature map进行处理,每个ACM模块将feature map变成了不同尺度的局部信息;自适应性体现在s的取值可变,即可以通过ACM模块中的Adaptive Pooling调整生成的feature map尺寸为ss512;GLA特性体现在ACM模块中有两条支路,上面的支路包含的是全局信息,它产生的亲和力系数(类似权重,越大说明越重要)用来指导下面支路中的局部信息。最终将各个ACM模块生成的自适应上下文向量进行级联来预测语义标签

四.实验

  1. 在PASCAL VOC 2012数据集中s的取值实验

      第一行没有使用金字塔多尺度的模型为baseline,实验表明使用多尺度的话都会比baseline效果要好,其中ResNet-50/101 based FCN为骨架的APCNet都是s取[1,2,3,6]时性能最优,也就是使用四个ACM模块。
  2. 有无GLA的性能对比

      不同的backbone都是有GLA的模型性能更加好,其中每个实验s都取{1,2,3,6}。
  3. 不同设置对模型性能的影响

      分别比较了深度监督、数据增强、多尺度以及微调模型对模型的性能影响,可以看出这些操作都可以提升模型的性能。
  4. 在PASCAL VOC 2012数据集测试集中与现有方法对比

      APCNet得到了最优的表现,比现有的方法都要好。
  5. 在PASCAL-Context数据集中与现有方法对比
  6. 在ADE20K数据集中与现有方法对比

疑惑:
1.图片输入一开始经过的CNN是否就是实验中提到的backbone。