CVPR 2019 | Rethinking on Multi-Stage Networks for Human Pose Estimation
Official Code: pytorch

1.重新划分人体姿态估计网络类别
bottom-up and top-down:

现有的人体姿态估计网络综述中,通常将其分为bottom-up和top-down两大类。其中bottom-up类网络直接提取全图人体关键点并利用启发式后处理方法将全图关键点分配到对应人体实例上。top-down类网络先通过人体目标检测算法提取全图中的人体实例框,并基于该框进行人体关键点提取。这种划分算法的方式是基于获取人体关键点的步骤进行划分的。

单阶段 and 多阶段

而本文基于网络结构的特点将人体姿态估计网络划分为单阶段人体姿态估计网络和多阶段人体姿态估计网络。单阶段人体姿态估计网络:以典型的Simple_baseline为例子,与多阶段人体姿态估计网络不同,此类网络没有模块的重叠,直接通过一个图像分类中的backbone结构,后接几个上采样操作即可构成完整的人体姿态估计网络。多阶段人体姿态估计网络:以典型的Hourglass为例子,此类网络中每一个stage都可以作为一个独立的模块,拥有自己的降采样和上采样过程。此类网络中的stage就想积木,你可以任意选择积木的数量构成最终的多阶段人体姿态估计网络。

直观来说,多阶段网络更加适合姿态估计任务,因为该结构保留着高分辨率的灵活性。可以使得低分辨率的特征和高分辨率的特征重复交叠,兼顾了位置信息和特征抽象信息。在MPII数据集上,也确实如此。然而在COCO数据集上,单阶段网络的性能却要比多阶段的好,这就和直觉相悖,作者认为其主要原因是现有的多阶段网络的设计不是很合理。并从三个方面进行了分析:多阶段网络中单个stage结构设计不合理重复升降采样导致的特征损失多阶段只有一个损失难以优化。最终优化后的多阶段人体姿态估计(MSPN)框架图如下。

CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_卷积

2.优化单个stage结构

在现有的多stage网络中,每个stage在进行特征降采样和升采样时,其通道是保持不变的,而不是像Resnet一样随着特征图的减小会相应的增加通道。这种现象就会导致特征丢失。作者采用CPN的网络结构来替换Hourglass中每个stage。使得单个stage的能力变强,规避了特征因为降采样而丢失。下表结果可以看出,对于Hourglass当stage从4上升到8时,增加了0.3AP。对于MSPN当stage从3上升到4时,增加了0.7AP。因此作者认为MSPN的单stage能力更强。但是我认为这个结论不是很扎实,因为差距蛮小的。
CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_图像分类_02

3.相邻stage特征聚合

每个stage都会对特征图进行降采样和升采样,多个stage就会反复的进行降采样和升采样,这种反复的操作使得特征信息丢失明显,最终导致网络优化困难。作者将相邻阶段的特征进行聚合,以增强特征信息传播能力并降低训练难度。具体的特征聚合方法如下图所示,对于当前stage的某个降采样过程,其输入包含三个部分。分别为:上个阶段中相同size的降采样特征经过1*1卷积编码后的特征,上个阶段中相同size的升采样特征经过1*1卷积编码后的特征,以及当前stage的降采样特征。
CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_划分算法_03

通过上述的特征聚合方式,使得每个stage中的信息完备且表征能力强。下表结果展示了上述特征聚合能力在最终COCO测试集上的表现,具体来说作用于Hourglass网络,上升为0.5AP,MSPN网络上升为0.3AP。基于此结果作者认为,Hourglass在传播过程中会丢失更多信息,而聚合策略可以更有效地缓解这一问题。但我个人觉得0.2AP的这个差异仍然不能太说明问题。
CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_数据集_04

4.多stage由粗到细监督

多stage网络的特点是,每个stage的输出都能作为最终的关键点检测结果。而且随着stage的增多,关键点定位会越来越准。为了使得在前端的stage能够获得更好的知道,作者提出了由粗到细的多分支监督的方式来优化多stage的能力。如下图所示,正对于每个stage的特点,采用不同kernel-size的高斯核制作标签,越靠近输入的stagekernel-size越大。
CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_数据集_05

在每个stage的监督标签中,使用不同大小的高斯核来制作GT热度图。前面的stage用大的高斯核,后面的stage用小的高斯核。下表展示了使用粗细监督的有效性。该策略作用于Hourglass和 MSPN中都能有1.0AP的效果提升。
CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_数据集_06

5.结果展示

如下两个表所示,是本文提出的MSPN网络在COCO和MPII数据集上的效果,可以看到论文提出的方法达到了SOAT。本文对多阶段和单阶段网络的性能优劣进行了分析,总体来说,作者的思路还是很不错的,但是个人认为这篇文章仍然无法解释多stage网络真的是优于单stage网络的。
CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_图像分类_07

CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络_处理方法_08