今天,Google发布了一个新的人类动作识别数据集—AVA。


AVA由超过57,000个视频片段组成,标有96,000个标记动作和21万个动作标签。包括从YouTube视频中收集的公开视频片段:统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。然后使用80个动作类型(如步行,踢或拥抱)手动标记进行分类。



五月份,Google在arXiv上公布的一篇论文中,首先介绍了AVA的创建工作,并于7月份更新。该论文中的初步实验表明,Google的数据集对于现有的分类技术来说是非常困难的 - 下面显示了较旧的JHMDB数据集的性能,与新的AVA数据集的性能之间的对比。

python openpose 动作识别 动作识别数据集_数据集


尽管过去几年在图像分类和查找对象方面取得了惊人的突破,但识别人类动作仍然是一个巨大的挑战。这是因为行为本质上不如视频中的对象明确定义,使得难以构建精细标记的动作视频数据集。


而许多基准数据集,如UCF101,ActivityNet和DeepMind的动力学采用图像分类的标签方案,为数据集中的每个视频或视频剪辑分配一个标签,不存在包含可以执行不同动作的多个人的复杂场景的数据集。


为了进一步研究人类动作识别,Google发布了AVA,由“原子视觉动作”创建,这是一个新的数据集,为扩展视频序列中的每个人提供了多个动作标签。AVA由来自YouTube的公开可用视频的URL组成,用空间时间本地化的80个原子动作(例如“walk”,“kick(object)”,“hands hands”)进行注释,从而导致576000的视频片段,96000标记的人类执行动作,以及总共210000的动作标签。


与其它动作数据集相比,AVA具有以下主要特点:


以人为本的标注。每个动作标签都与一个人相关联,而不是一个视频或剪辑。因此,我们可以为同一场景中,执行不同动作的多个人分配不同的标签,这是很常见的。


原子视觉动作。Google将人类的动作标签限制在精细的时间内(3秒),其中动作本质上是物理的,并具有清晰的视觉签名。


现实视频资料。Google使用电影作为AVA的来源,包括各种流派和国家的历史。因此,数据中出现了广泛的人类行为。


python openpose 动作识别 动作识别数据集_Google_02

3秒视频片段与每个片段的中间帧的边界框注释的示例(每个示例只显示一个边界框)


为了创建AVA,Google首先从YouTube收集了各种各样的长序列内容,重点是“电影”和“电视”类别,以不同国籍的专业演员为特色。然后分析了每个视频的15分钟片段,并将其均匀分割成300个不重叠的3秒段。采样策略在一致的时间背景下保留了动作序列。


接下来,手动标记每个3秒片段中间帧的所有边界框的人。对于边界框中的每个人,标注者从预定义的原子动作词汇(包含80个类)中选择了可变数量的标签,这些词汇描述了该段内的人的行为。


这些行为分为三组:姿态/动作动作,人物对话交互以及人与人的交互。因为Google对执行所有动作的人进行了全面的标注,因此AVA的标签的频率是长尾分布,如下所述。


python openpose 动作识别 动作识别数据集_数据集_03

分配AVA的原子动作标签。x轴上显示的标签只是词汇的一部分


下图显示了AVA中最先进的并发动作对及其同现分数。Google确认预期的模式,例如人们在唱歌时经常玩乐器,在与孩子一起玩耍的同时提起一个人,亲吻时拥抱。


python openpose 动作识别 动作识别数据集_Google_04

AVA中的顶级并发动作对


为了评估人类行为识别系统对AVA数据集的有效性,Google开发了一个现有的基线深度学习模型,在较小的JHMDB数据集上获得了极高竞争力的白哦先。由于变焦、背景杂乱、摄影和外观变化的挑战性变化,当正确识别AVA(18.4%mAP)的动作时,该模型实现了相对适度的性能。这表明AVA将成为开发和评估新的动作识别架构和算法的有用的测试平台。


Google希望AVA的发布,有助于改善人类行为识别系统的发展,在个人行为层面上,根据具有精细时空粒度的标签,对复杂的活动进行模拟。