paper链接:Integrated Recognition, Localization and Detection using Convolutional Networks

 


目录

Abstract

Introduction

Vision Tasks

Classification

Model Design and Training

Feature Extractor

Multi-Scale Classification

Localization

Combining Predictions

Conclusion


Abstract
  • ConvNet中有效地实现多尺度和滑动窗口。
  • 新的定位框学习方法。
  • 累积而不是抑制定位框以增加检测置信度。
  • 使用单个共享网络可以同时学习不同的任务。
  • 我们从名为OverFeat的最佳模型中发布了一个特征提取器。
Introduction
  • ConvNets对许多此类任务的主要优点是整个系统都经过端到端训练,从原始像素到最终类别,从而减轻了手动设计合适的特征提取器的要求。 主要的缺点是他们对标记训练样本的需求很大。
  • 训练卷积网络以同时对图像中的对象进行分类,定位和检测可以提高分类准确性以及所有任务的检测和定位精度。
  • 不进行背景训练可以让网络专注于正类,以获得更高的准确性。
  • 训练ConvNet使用窗口作为决策的context ,将查看窗口的中心像素与其所属对象的类别进行分类。
Vision Tasks
  1. 分类
  2. 定位
  3. 检测
  • 难度递增,依赖前者,分类和定位共享相同的数据集,而检测还有附加数据(其中的物体更小)
Classification

Model Design and Training

  • 输入尺寸固定(proposed by Krizhevsky),对每个图像进行下采样,使得最小尺寸为256个像素
  • 提取大小为221x221像素的5个随机截取(及其水平图像),并以mini-batches=128 输入网络
  • 网络权重初始化正态:OverFeat论文解读_其他
  • 通过SGD更新,momentum=0.6, OverFeat论文解读_paper翻译姬_02范式权重衰减率为OverFeat论文解读_其他_03, 学习速率初始为OverFeat论文解读_其他_04,在OverFeat论文解读_其他_05步后依次减少一半。DropOut为0.5, 应用在分类器中的完全连接层(第6和第7层)
  • 网络具体结构见tables:

OverFeat论文解读_paper翻译姬_06

OverFeat论文解读_其他_07

Feature Extractor

  • 发布了一个名为“OverFeat”的特征提取器。
  • 提供两种模型,快速的和准确的。

Multi-Scale Classification

  • 通过在每个位置和多个尺度密集运行网络来探索整个图像。
  • 将ConvNet卷积在任意大小的图像上的结果是每个尺度的C维向量的空间图。
  • How the resolution augmentation is performed?

OverFeat论文解读_其他_08

  1. 对于单个图像,在给定的比例下,我们从unpooled的第5层特征开始。
  2. 每个unpooled的feature map经历OverFeat论文解读_其他_09最大池化操作(非重叠区域),值为OverFeat论文解读_paper翻译姬_10OverFeat论文解读_paper翻译姬_11像素偏移重复3x3次。
  3. 这会产生很好的池化后的特征,对于不同的OverFeat论文解读_paper翻译姬_11组合重复OverFeat论文解读_其他_09次。
  4. 分类器(第6,7,8层)的固定输入大小为OverFeat论文解读_其他_14,并为pooled map中的每个位置生成C维向量,分类器以滑动窗口的方式应用于pooled map,产生C维输出map(对于给定的OverFeat论文解读_paper翻译姬_11组合)
  5. 不同OverFeat论文解读_paper翻译姬_11组合的输出map被重新reshape为单个3维输出map(两个空间维度 x C类)。
Localization

Combining Predictions

  1. 对于回归网络得到的一系列bounding box,该论文不是通过传统的非极大值抑制,而是使用了累积预测的方法。
  2. 首先对于每个scale计算出前k个类别,对每个类别计算出所有的bouding box。
  3. 然后合并所有scale的bounding box得到集合BB,重复以下步骤
  4. OverFeat论文解读_其他_17
  5. 假如,OverFeat论文解读_其他_18,则停止
  6. 否则,OverFeat论文解读_其他_19
Conclusion
  1. 本文使用一个CNN来集成三个任务,分类,定位和检测(共享前层的特征)。
  2. 第一次具体解释了CNN是如何被用于定位和检测的。
  3. 提出了一个多尺度的,滑动窗口的方法,能够提升任务的表现。
  4. 在多尺度分类这一块,在feature map上滑窗,相比于传统的原始图像滑窗(用一个滑窗对整幅图像进行密集采样,然后处理每一个采样得到的图像,再组合结果),大大提高了效率。