论文地址:https://arxiv.org/abs/2012.15175 代码地址:https://github.com/greatlog/SWAHR-HumanPose
论文总结
本文所针对的问题,是Bottom-up方法中的不同对象尺度会造成的问题。同一张图的不同尺度对象所对应的感受野不同,因此也应该有不同kernel size的高斯核heatmap。所以对于bottom-up方法,尺度适应的heatmap回归方法自适应每个keypoint的标准差,与此同时,提出自适应权重heatmap回归的损失函数以解决其产生的问题(前背景失衡问题)。
SAHR(scale-adaptive heatmap regression),权重自适应heatmap回归的名称为WAHR(weight-adaptive heatmap regression)。
如下图(b)和(c)所示,同一张图的不同对象应该有不同的高斯核,否则鼻子上的高斯核可能比脸还大。
论文简介
在实际应用中,不同的Keypoint都应用了相同标准差的高斯核,意味着不同的Keypoint有相同的heatmap监督。但这有两个不合理的原因:(1)Keypoint有不同的Scale,有不同的感知空间大小;(2)即使是人工标记,在像素级精度的关键点标注下,也会存在误差。使用高斯核可以给这个关键点提供模糊性。
。在某种程度上,表示对应关键点的尺度。(4)最后,使用WAHR给不同难易样本添加权重,类似分类任务中的focal Loss。
对于常规的高斯核heatmap ground truth来说,如下图所示:
Scale-Adaptive Heatmap Regression
对于加了scale map的heatmap ground truth来说,变成了如下图所示公式:对应ground truth的关键点位置施加不同的scale 权重。
,所以上述公式变成如下的点乘格式,以方便实现:
实际上,在总体的Heatmap表示上,公式如下图所示:与原来的H的关系是一个指数关系,是一个element-wise的操作。
为了稳定训练,给scale map添加一个正则化项:
简单地使用L2 Loss最小化并不能得到正确地引导模型,如下图所示:
在SAHR上仍采用L2损失,但并没有保持高斯核标准差不变,而是采用正则项来帮助引导模型收敛到期望的方向。作者认为,SAHR结合了Heatmap和坐标回归的优点。
Weight-Adaptive Heatmap Regression
Heatmap中大部分为0,可能会让模型更倾向于过拟合背景样本。最简单的方法是添加一个Weight tensor,但Heatmap回归是连续的,很难决定哪些是正样本,哪些是负样本。对于这个问题,提出了自适应的Heatmap回归方法(WAHR),其中W表现为如下所示:
是控制位置的“软边界”的超参数,其决定的heatmap阈值 为,最后。实际上,作者采用。这里的
SWAHR。
论文实验
HrHRNet,是使用了deconv模块的HRNet。