本文转载自腾讯优图。
近日,腾讯优图实验室在人体2D姿态估计任务中获得创新性技术突破,其提出的基于语义对抗的数据增强算法Adversarial Semantic Data Augmentation (ASDA),刷新了人体姿态估计国际权威榜单。
相关论文(Adversarial Semantic Data Augmentation for Human Pose Estimation)已被计算机视觉顶级会议 ECCV2020 收录。
作为计算机视觉领域的基础技术之一,人体姿态可以理解为对“人体”的姿态(关键点,比如头、左手、右脚等)的位置估计,其中2D人体姿态估计在多种视觉应用中发挥着重要作用。不过尽管该技术方向的研究历程较长,但在一些挑战场景下效果依然不尽人意。
如图1所示,对于对称性较强的人体、遮挡比较严重的场合以及多人场景,2D姿态估计的表现普遍不佳。解决上述问题的一种有效的方法是对数据集进行数据增强,然而现有的数据增强算法比如图片翻转、旋转或图片色度改变,均为全局尺度上的数据增强方式,无法解决图中所示局部部件带来的挑战性案例。
图1 二维人体姿态估计的挑战性案例
为解决上述提及的难点,优图提出了基于语义对抗的数据增强算法Adversarial Semantic Data Augmentation (ASDA)。该算法的整体pipeline如图2所示,输入图片经过生成网络,进行语义粒度上的数据增强;增强后的图片作为姿态估计网络的输入,进行姿态估计,得到二维人体姿态。生成网络生成增强样本,提升姿态估计网络的预测难度,姿态估计网络则试图预测增强后图片。
图2 ASDA算法流程图
与其他算法相比,腾讯优图的算法有三点创新。
创新之一,提出了一种基于局部变换的数据增强方式,有效填补了全局数据增强的缺陷。
创新之二,设计了一种基于人体语义部件的数据增强算法(SDA, Semantic Data Augmentation),通过语义粒度上的图像替换以及变换来有效模拟之前网络无法处理的挑战案例。
第三点创新,便是提出了ASDA算法,该算法在MPII、COCO、LSP等主流二维人体姿态估计Benchmark上均超过了以往Baseline,达到State-of-the-art精度,将人体2D姿态估计精度水平推进到全新高度。ASDA作为一种通用的数据增强方法,可以便捷地用在二维人体姿态估计的不同数据集以及不同网络结构上。
图4-7展示了ASDA方法在以上三个权威数据集上与其他过往SOTA方法在预测精度上的定量对比结果。为了方便展示ASDA算法效果,在COCO测试集进行可视化得到图3,可以看到ASDA方法能够有效解决图1中的挑战性案例。
图3 ASDA的可视化结果展示 ▼
图4 ASDA的数值指标展示-LSP ▼
图5 ASDA的数值指标展示-MPII ▼
图6 本文方法对应MPII官方榜单结果 ▼
图7 ASDA的数值指标展示-COCO ▼
论文地址:
https://arxiv.org/pdf/2008.00697.pdf