基于深度学习目标检测中多尺度问题的研究成果

原创

wx5ba0c87f1984b 2021-08-13 09:54:39 博主文章分类：计算机视觉 ©著作权

文章标签 目标检测 ide 2d 多级 sed 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者wx5ba0c87f1984b的原创作品，请联系作者获取转载授权，否则将追究法律责任

(1)Feature Pyramid Networks for Objection Detection

(2)An Analysis of Scale Invariance in Object Detection – SNIP

(3)SNIPER: Efficient Multi-Scale Training

(4)Scale-Aware Trident Networks for Object Detection

(5)M2Det：A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

(1)Feature Pyramid Networks for Objection Detection

利用深度卷积网络内在的多尺度、金字塔分级来构造具有很少额外成本的特征金字塔。提出了一种具有横向连接的自顶向下架构，用于在所有尺度上构建高级语义特征映射。这种特征提取器既可用于检测也可用于分割。

(2)An Analysis of Scale Invariance in Object Detection – SNIP

这篇也是CVPR2018的文章。这篇文章想探讨的是Scale变化对识别和检测的影响，然后就是upsample对于小物体的检测是否有用。根据这两个问题的分析，本文提出了一种端到端的Image Pyramid Network，然后针对大物体在大尺度的图片上、小物体在小尺度的图片上不易识别的问题，提出了一种新颖的训练策略Scale Normalization。这篇文章我觉得最重要的就是把目标检测的多尺度问题进行了进一步的分析，有兴趣的可以看一下细节。

(3)SNIPER: Efficient Multi-Scale Training

这篇文章发布在NIPS2018，RCNN本身具有很好的尺度不变形，因为它先从图片中提取proposal，然后都resize到224去提取特征但是这样每个proposal不共享特征的计算，很慢，而Fast R-CNN系列为了解决这个问题，输入大小不固定，不同尺度的图片都经过同一个的cnn提取特征然后拿proposal去对应位置扣特征，这就破坏了RCNN原来的尺度不变形，但是它很快且整体做特征提取能捕捉更多的context，得到广泛的应用。现在大家为了解决Fast系列的问题，往往进行多尺度的训练。RCNN中只对扣出来的proposal进行放缩，小的proposal会放大，合适的proposal就会不怎么变，太大的proposal会放小，总之都会resize到一个固定的尺度，检测网络只用适应这一种尺度，而Fast系列多尺度训练时，不管图片中的proposal大还是小都要跟着图片整体做放大或者缩小，这样检测网络还是去适应这些尺度，而且上一篇中引用Naiyan Wang的说法: 这更多是通过CNN来通过capacity来强行memorize不同scale的物体来达到的，这其实浪费了大量的capacity。上一篇的SNIP是忽略掉大图中的大proposal和小图中的小proposal，也就是把一些极端的情况都忽略掉，相对来说只保留了尺度大致一致(和Imagenet的预训练模型的尺度差不多)的proposal参与训练，但是它也有个缺点就是训练太慢了，每个尺度的图片的每个像素都要参与训练。综上本文提出一种SNIPER的方法，通过生成scale specific context-regions，本文叫做chip，生成多个尺度的chips，不管是哪个尺度都采样到512x512，这样既保留RCNN的尺度不变性和Fast系列的速度，也由于过滤到了很大一部分背景而比SNIP快很多。

(4)Scale-Aware Trident Networks for Object Detection

这篇是图森Naiyan Wang的TridentNet ，这篇文章的创新点我可以在这里说一下，主要是基于感受野的控制来实现多尺度目标的检测，本文通过三个branch来实现多尺度目标的感受野，三个branch共享权重，感受野的大小通过dilation rate来控制，同时通过scale aware training 的方式来过了三个branch的检测。具体的可以看作者本人的解读文章：TridentNet：处理目标检测中尺度变化新思路（http://bbs.cvmart.net/articles/231），当然这篇文章还没有会议录用处于刚刚发布阶段。

(6)M2Det：A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

特征金字塔广泛用在一阶段目标检测器(比如，DSSD，RetinaNet，RefineDet)和两阶段目标检测器(比如Mask R-CNN， DetNet)。尽管这些使用特征金子塔的目标检测器具有很好的结果，但是由于仅仅根据固有的多尺度(为目标分类任务而设计的骨干的金字塔结构)。在这个工作中，作者提出了一个方法称为多级金字塔网络(Multi-Level Feature Pyramid Network, MLFPN)来构建检测不同尺度目标更有效的金子塔：首先融合骨干网提出的多级特征作为基础特征。其次，把基本的特征加入一组交替连接的u型模块和特征融合模块，利用每个u型模块的解码器层作为目标检测的特征。最后，将具有等效尺度(大小)的解码器层集合起来，形成一个用于目标检测的特征金字塔，其中每个特征图由多个层次的层(特征)组成。为了评估所提出的多目标检测器(MLFPN)的有效性，设计并训练了一种功能强大的端到端单级目标检测器(M2Det)。

上一篇：latex表示极限

下一篇：tf.reverse()和tf.transpose()

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯