paper链接:Integrated Recognition, Localization and Detection using Convolutional Networks
目录
Abstract
- ConvNet中有效地实现多尺度和滑动窗口。
- 新的定位框学习方法。
- 累积而不是抑制定位框以增加检测置信度。
- 使用单个共享网络可以同时学习不同的任务。
- 我们从名为OverFeat的最佳模型中发布了一个特征提取器。
- ConvNets对许多此类任务的主要优点是整个系统都经过端到端训练,从原始像素到最终类别,从而减轻了手动设计合适的特征提取器的要求。 主要的缺点是他们对标记训练样本的需求很大。
- 训练卷积网络以同时对图像中的对象进行分类,定位和检测可以提高分类准确性以及所有任务的检测和定位精度。
- 不进行背景训练可以让网络专注于正类,以获得更高的准确性。
- 训练ConvNet使用窗口作为决策的context ,将查看窗口的中心像素与其所属对象的类别进行分类。
- 分类
- 定位
- 检测
- 难度递增,依赖前者,分类和定位共享相同的数据集,而检测还有附加数据(其中的物体更小)
Model Design and Training
- 输入尺寸固定(proposed by Krizhevsky),对每个图像进行下采样,使得最小尺寸为256个像素
- 提取大小为221x221像素的5个随机截取(及其水平图像),并以mini-batches=128 输入网络
- 网络权重初始化正态:
- 通过SGD更新,momentum=0.6, 范式权重衰减率为, 学习速率初始为,在步后依次减少一半。DropOut为0.5, 应用在分类器中的完全连接层(第6和第7层)
- 网络具体结构见tables:
Feature Extractor
- 发布了一个名为“OverFeat”的特征提取器。
- 提供两种模型,快速的和准确的。
Multi-Scale Classification
- 通过在每个位置和多个尺度密集运行网络来探索整个图像。
- 将ConvNet卷积在任意大小的图像上的结果是每个尺度的C维向量的空间图。
- How the resolution augmentation is performed?
- 对于单个图像,在给定的比例下,我们从unpooled的第5层特征开始。
- 每个unpooled的feature map经历最大池化操作(非重叠区域),值为的像素偏移重复3x3次。
- 这会产生很好的池化后的特征,对于不同的组合重复次。
- 分类器(第6,7,8层)的固定输入大小为,并为pooled map中的每个位置生成C维向量,分类器以滑动窗口的方式应用于pooled map,产生C维输出map(对于给定的组合)
- 不同组合的输出map被重新reshape为单个3维输出map(两个空间维度 x C类)。
Combining Predictions
- 对于回归网络得到的一系列bounding box,该论文不是通过传统的非极大值抑制,而是使用了累积预测的方法。
- 首先对于每个scale计算出前k个类别,对每个类别计算出所有的bouding box。
- 然后合并所有scale的bounding box得到集合BB,重复以下步骤
- 假如,,则停止
- 否则,
- 本文使用一个CNN来集成三个任务,分类,定位和检测(共享前层的特征)。
- 第一次具体解释了CNN是如何被用于定位和检测的。
- 提出了一个多尺度的,滑动窗口的方法,能够提升任务的表现。
- 在多尺度分类这一块,在feature map上滑窗,相比于传统的原始图像滑窗(用一个滑窗对整幅图像进行密集采样,然后处理每一个采样得到的图像,再组合结果),大大提高了效率。