作为计算机视觉中的核心任务之一,在智能视频监控、自动化检测、工业检测等领域应用中目标检测发挥了巨大的作用。同时,随着深度学习的广泛应用,目标检测的精确度和效率都得到了较大的提升,但基于深度学习的目标检测仍面临着改进与优化关键技术的挑战。
在目标检测器中,Backbone是基本特征提取的重要组成部分,如SSD采用VGG,YOLO采用DarkNet,Faster R-CNN采用ResNet,检测器的性能在很大程度上取决于它。
但是,大多数目标检测器直接使用的Backbone往往不是最优的,这就引发了一些困惑:
· 如何在保证效果好的同时,选择性能更好的模型,降低成本和能耗;
· 如何确保目标检测器找到每个目标的位置和分类;
· 如何从发展的角度理解模型的设计思路;
· 如何理解CNN的模型落地准则和计算效率……
那么,如何才能正确的梳理模型和设计思路?如何学习实时目标检测的高效Backbone网络?理解兼具精度与效率优势的VoVNet呢?