python openpose 动作识别动作识别数据集

转载

mob6454cc649dc8 2024-03-01 15:06:19

文章标签 数据集 Google 动作识别 文章分类 Python 后端开发

今天，Google发布了一个新的人类动作识别数据集—AVA。

AVA由超过57,000个视频片段组成，标有96,000个标记动作和21万个动作标签。包括从YouTube视频中收集的公开视频片段：统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。然后使用80个动作类型（如步行，踢或拥抱）手动标记进行分类。

五月份，Google在arXiv上公布的一篇论文中，首先介绍了AVA的创建工作，并于7月份更新。该论文中的初步实验表明，Google的数据集对于现有的分类技术来说是非常困难的 - 下面显示了较旧的JHMDB数据集的性能，与新的AVA数据集的性能之间的对比。

python openpose 动作识别动作识别数据集_数据集

尽管过去几年在图像分类和查找对象方面取得了惊人的突破，但识别人类动作仍然是一个巨大的挑战。这是因为行为本质上不如视频中的对象明确定义，使得难以构建精细标记的动作视频数据集。

而许多基准数据集，如UCF101，ActivityNet和DeepMind的动力学采用图像分类的标签方案，为数据集中的每个视频或视频剪辑分配一个标签，不存在包含可以执行不同动作的多个人的复杂场景的数据集。

为了进一步研究人类动作识别，Google发布了AVA，由“原子视觉动作”创建，这是一个新的数据集，为扩展视频序列中的每个人提供了多个动作标签。AVA由来自YouTube的公开可用视频的URL组成，用空间时间本地化的80个原子动作（例如“walk”，“kick（object）”，“hands hands”）进行注释，从而导致576000的视频片段，96000标记的人类执行动作，以及总共210000的动作标签。

与其它动作数据集相比，AVA具有以下主要特点：

以人为本的标注。每个动作标签都与一个人相关联，而不是一个视频或剪辑。因此，我们可以为同一场景中，执行不同动作的多个人分配不同的标签，这是很常见的。

原子视觉动作。Google将人类的动作标签限制在精细的时间内（3秒），其中动作本质上是物理的，并具有清晰的视觉签名。

现实视频资料。Google使用电影作为AVA的来源，包括各种流派和国家的历史。因此，数据中出现了广泛的人类行为。

python openpose 动作识别动作识别数据集_Google_02

3秒视频片段与每个片段的中间帧的边界框注释的示例（每个示例只显示一个边界框）

为了创建AVA，Google首先从YouTube收集了各种各样的长序列内容，重点是“电影”和“电视”类别，以不同国籍的专业演员为特色。然后分析了每个视频的15分钟片段，并将其均匀分割成300个不重叠的3秒段。采样策略在一致的时间背景下保留了动作序列。

接下来，手动标记每个3秒片段中间帧的所有边界框的人。对于边界框中的每个人，标注者从预定义的原子动作词汇（包含80个类）中选择了可变数量的标签，这些词汇描述了该段内的人的行为。

这些行为分为三组：姿态/动作动作，人物对话交互以及人与人的交互。因为Google对执行所有动作的人进行了全面的标注，因此AVA的标签的频率是长尾分布，如下所述。

python openpose 动作识别动作识别数据集_数据集_03

分配AVA的原子动作标签。x轴上显示的标签只是词汇的一部分

下图显示了AVA中最先进的并发动作对及其同现分数。Google确认预期的模式，例如人们在唱歌时经常玩乐器，在与孩子一起玩耍的同时提起一个人，亲吻时拥抱。

python openpose 动作识别动作识别数据集_Google_04

AVA中的顶级并发动作对

为了评估人类行为识别系统对AVA数据集的有效性，Google开发了一个现有的基线深度学习模型，在较小的JHMDB数据集上获得了极高竞争力的白哦先。由于变焦、背景杂乱、摄影和外观变化的挑战性变化，当正确识别AVA（18.4％mAP）的动作时，该模型实现了相对适度的性能。这表明AVA将成为开发和评估新的动作识别架构和算法的有用的测试平台。

Google希望AVA的发布，有助于改善人类行为识别系统的发展，在个人行为层面上，根据具有精细时空粒度的标签，对复杂的活动进行模拟。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。