020-04-26 20:11:08
本文介绍的是CVPR2020论文《CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection》,作者来自商汤 。
论文地址:https://arxiv.org/pdf/2003.09119.pdf代码地址:https://github.com/KiveeDong/CentripetalNet1
导读
CVPR 2020上,商汤移动智能事业群-3DAR-身份认证与视频感知团队提出了基于向心偏移的anchor-free目标检测网络centripetalnet,为基于关键点的目标检测方法研究带来了新思路。Centripetalnet在大型公开数据集MS-COCO上达到了目前anchor-free检测模型中的最优效果。
2 动机
1、现有的基于关键点的目标检测网络(如CornerNet、CenterNet、ExtremeNet等)通过使用关联嵌入向量进行物体关键点的匹配,然而关联嵌入向量具有训练难度大且容易混淆同类物体的缺点,这会造成许多错误的关键点匹配从而导致错误的检测结果。因此本文提出使用关键点的向心偏移(centripetal shift)来进行匹配,其背后的思想是同一个物体的不同关键点应该对应同一个物体中心点。从下图可以直观的看到利用向心偏移匹配相对于关联嵌入向量在避免错误匹配方面的优势。
2、我们采用物体边界框的两个角点作为关键点,然而角点位置缺乏物体信息,现有方法使用角点池化的方法将物体边界信息聚合到角点位置,然而我们发现角点位置依然缺乏物体内部信息,而这些物体内部特征在角点位置形成了如下图的“十字星(cross-star)”,因此我们设计了十字星可变形卷积(cross-star deformableconvolution),成功地提取了这些物体内部信息,从而优化了角点位置的物体特征,提高了模型性能。
3 模型设计
CetripetalNet可以分为4个部分:特征提取网络,角点检测与特征调节,向心偏移模块,实例分割模块,整体架构如下图所示。
1、特征提取网络:
CentripetalNet和CenterNet、CornerNet一样,采用Hourglass-104和Hourglass-52作为特征提取网络。
2、角点检测和特征调节模块
左上角点和右下角点的这部分模块是独立的。角点检测采用关键点预测的方法,用角点的ground truth构建要回归的角点热力图并加以高斯化,让网络输出回归该热力图从而学习预测角点位置;特征调节即是十字星可变形卷积,通过利用角点池化之后的特征预测十字星几何信息(guiding shift),然后从十字星几何信息中学习可变形卷积的采样点偏移。
3、向心偏移模块
首先使用经过十字星可变形卷积调节之后的特征预测每个角点的向心偏移,接着结合角点位置,完成角点的匹配,得到检测到的物体边界框。
4、实例分割模块
使用特征提取网络得到的物体特征图和3得到的物体检测框作为输入,利用RoIAlign提取每个感兴趣区域的特征,然后利用多个卷积和反卷积层预测物体掩膜。
4
实验分析1、在COCO test-dev上,CentripetalNet达到了anchor-free模型中的最优检测效果,同时在实例分割方面的表现也具有一定竞争力。
2、向心偏移相对于关联嵌入向量的优势为了比较向心偏移和关联嵌入向量的性能,我们使用特征提取网络为Hourglass-52的CornerNet作为基准模型,然后将关联嵌入向量直接替换为向心偏移进行比较。为了公平起见,我们还将关联嵌入的向量增加为2维,这和向心偏移的维度一致,从下表可以看到,基于向心偏移的方法性能明显更优。
3、十字星可变形卷积的有效性
我们比较了十字星可变形卷积和其他特征调节方法的性能差异(包括普通可变形卷积以及RoIConv)
我们还比较了几种特征调节方法的采样点位置,发现只有十字星可变形卷积可以很好地采样到十字星上的特征信息。
4、和现有算法的可视化比较
下图三行从上至下分别是CornerNet,CenterNet和CentripetalNet
5、实例分割效果可视化
CVPR 2020 系列论文解读
01. PolarMask:将实例分割统一到FCN,有望在工业界大规模应用
02. RandLA-Net:大场景三维点云语义分割新框架(已开源)
03. 17篇入选CVPR 2020,腾讯优图 9 篇精选论文详解
04. 化繁为简,弱监督目标定位领域的新SOTA - 伪监督目标定位方法
05. 挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难
06. 看图说话之随心所欲:细粒度可控的图像描述自动生成
07. PQ-NET:序列化的三维形状生成网络
08. 视觉-语言导航新篇章:真实场景下的远程物体定位导航任务
09. 室内设计师失业?针对语言描述的自动三维场景设计算法
10. 深度视觉推理2.0:组合式目标指代理解
11. 用无监督强化学习方法来获得迁移能力
12. 细粒度文本视频跨模态检索
13. IR-Net: 信息保留的二值神经网络(已开源)
14. 旷视研究院提出Circle Loss,革新深度特征学习范式
15. ACGPN: 基于图像的虚拟换装新思路
16. 双边分支网络BBN:攻坚长尾分布的现实世界任务
17. 基于点云的3D物体检测新框架
18. MetaFuse:用于人体姿态估计的预训练信息融合模型
19. 针对VI-ReID的分层跨模态行人识别
20. 8比特数值也能训练模型?商汤提出训练加速新算法
21. 挖坑等跳,FineGym,一个面向细粒度动作分析的层级化高质量数据集
22. 神奇的自监督场景去遮挡
23. 基于空间修剪的 NAS 算法
24. 可扩展且高效,谷歌提出目标检测“新标杆”