前阵子,加入了一个孙博士领衔的CVPR2019分割论文群,大家一起翻译了41篇论文,形成了187页的PDF文件,知识众筹的感觉是那么清新、舒爽。

这里我把自己翻译的三篇论文一篇一篇的分享下,希望自己能继续好好学习,天天向上。

CVPR2019 Note|知识适应,高效的语义分割_计算机视觉

CVPR2019 Note|知识适应,高效的语义分割_计算机视觉_02

这个是CVPR2019的论文目录,公众号后台回复:​CVPR2019​ 可以得到所有论文。

CVPR2019 Note|知识适应,高效的语义分割_人工智能_03

CVPR2019 Note|知识适应,高效的语义分割_机器学习_04

1.(05)Knowledge Adaptation for Efficient Semantic Segmentation


论文题目:​《Knowledge Adaptation for Efficient Semantic Segmentation》

代码地址​无​

  推荐指数:​★★★★☆​

  论文摘要:本文提出了一种新的基于语义分割的知识提取框架。通过将高级特性转换为更易于学习的紧凑格式,提高了学生模型的性能。对Pascal VOC ,Cityscapes和Pascal Context这三个流行的数据集上进行了广泛的实验证明了该方法的有效性。本文的方法:(1) 在不引入额外参数或计算的情况下,大幅提高了学生模型的性能;(2) 以更少的计算开销获得了更好的结果。语义切分的准确性和效率对语义切分具有重要的影响。

1.1. ​方法概括

准确性和效率都对语义分割的任务具有重要意义。现有的深度FCNs由于采用了一系列高分辨率的特征图来保存稠密估计中的细节知识,计算量大。尽管通过70次采样操作(例如,轮询和卷积跨步)降低特征图分辨率(即,应用大的整体步幅)可以立即提高效率,但是它显着降低了估计精度。为了解决这一难题,我们提出了一种为语义分割量身定制的知识蒸馏方法,以提高具有较大总体步幅的紧凑型FCN的性能。为了处理学生和教师网络的特征之间的不一致性,我们优化了通过利用预先训练的自动编码器制定的转移潜在域中的特征相似性。此外,提出亲和蒸馏模块以通过计算整个图像上的非局部相互作用来捕获长程依赖性。此知识提取框架将学生网络的性能提高2.5%(在城市景观测试集中,从70.2增加到72.7),并且可以训练更好的紧凑模型,只有8%的浮动操作 - 实现可比性能的模型(FLOPS)。

FLOPS与性能之间的关系如图 1-1所示。

蓝点是学生模型(MobilNetV2)的表现,而红点是网络,我们通过我们提出的知识蒸馏优化学生模型的转移表现中的特征相似性。通过使用预先训练的自动方法配制的潜伏域。性能在PASCAL VOC训练集上进行训练。此外,提出了亲和蒸馏模块并在val组上进行测试。OS意味着输出步幅。通过计算所提出的方法来捕获长程依赖性,在整个图像上使用非局部交互,具有低分辨率(16s)的特征图的学生模型优于具有大特征图(4s)的模型。仅验证8%的FLOPS。

CVPR2019 Note|知识适应,高效的语义分割_计算机视觉_05

 图 1-1 FLOPS与性能之间的关系

CVPR2019 Note|知识适应,高效的语义分割_python_06

图 1-2 为语义分割量身定制的知识适应方法的详细框架

   教师网络被冻结并输出高分辨率特征图。学生网络输出小尺寸的特征图,并由地面实况标签和压缩空间和亲和力信息中定义的知识更新。

CVPR2019 Note|知识适应,高效的语义分割_机器学习_07

图 1-3 亲和蒸馏模块的效果(更好地在颜色上可视化)

(a)用红色'+'输入图像和随机选择的点。(b)没有亲和蒸馏模块的学生模型给定点的亲和图。(c)由亲和蒸馏模块增强的亲和图。

CVPR2019 Note|知识适应,高效的语义分割_python_08

图 1-4 分割结果的比较

(a)输入图像。(b)基本事实。(c)学生网络的结果,MobileNetV2。(d)使用MobileNetV2进行知识蒸馏的结果。(e)我们提出的使用MobileNetV2的方法的结果。(f)教师网络的结果,即ResNet50。

CVPR2019 Note|知识适应,高效的语义分割_python_09

图 1-5 知识转移过程的L1损失曲线

我们使用翻译器和适配器的方法使学生网络更容易学习和复制知识。

1.2 ​实验

数据集

框架

迭代次数

备注


Pascal VOC、Cityscapes、

Pascal Context


无注明

30K-300K次epochs

Huawei Technology GPU cloud computing resources

对于Pascal VOC数据集,训练过程可以分为两个步骤。首先,我们在COCO数据集上训练300K次迭代,然后在trainaug数据集上训练30K次迭代。

对于Cityscapes数据集,我们没有在COCO数据集上预先训练我们的模型,以便进行公平的比较。我们在train-fine精细数据集上训练90K次迭代,训练精细数据集在训练曲线上进行微调,训练粗数据集在测试数据集上进行评估。

对于Pascal Context数据集,COCO数据集不用于预训练。在train训练集上训练30k次迭代,在val集上进行评估。

与其他轻量级模型相比。我们首先在Pascal上下文数据集上测试我们的方法。我们提出的方法将基线提高了1.3个点。结果如表4所示。

然后,在Pascal VOC val数据集上,将所提出的方法与其他最先进的轻量化模型进行了比较。我们的模型得到的mIOU值为75.8,在定量上优于不考虑速度的几种方法。它还将MobileNetV2的基线提高了约1个百分点。结果如表5所示。

最后,在城市景观数据集上验证了该方法的有效性。在val和测试数据集上分别达到了70.3和72.7mIOU。即使构建在高度竞争的基线上,我们的方法也将性能提高了2.1和2.5个点,而不需要引入额外的参数和计算开销,如表6所示。

表4 - 与Pascal Context val集上的其他轻量级模型进行比较。“ - ”表示未提供。

CVPR2019 Note|知识适应,高效的语义分割_python_10

表5 - 与Pascal VOC 2012 val数据集上的其他轻量级模型的比较。在单个1080Ti GPU上测试速度,输入大小为513×513。基线模型是我们对MobileNetV2的实现。

CVPR2019 Note|知识适应,高效的语义分割_机器学习_11

 表6-我们提出的方法与Cityscapes val和测试数据集上的其他轻量级模型的性能和计算比较。运行时间均以输入大小1025×2049计算。“ - ”表示未提供。

CVPR2019 Note|知识适应,高效的语义分割_人工智能_12