任务说明(截取视频行为分类)
对视频中人的行为动作进行识别,即读懂视频。
Hand gesture:集中于处理视频片段中单人的手势
Action:短时间的行为动作,场景往往是短视频片段的单人行为
Activity:持续时间较长的行为,场景往往是较长视频中的单人或多人行为
Classification:给定预先裁剪好的视频片段,预测其所属的行为类别
Detection:视频是未经过裁剪的,需要先进行人的检测 where 和行为定位(分析行为的始末时间)when,再进行行为的分类 what。
行为识别 Action Recignition 可能是 Hand gesture/Action/Activity 和 Classification/Detection 任意组合情况。但是通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类,即 Trimmed Video Action Classification。
数据集(RGB)
1.UCF-101
说明:UCF101 是一个从 YouTube 收集的真实动作视频的动作识别数据集,具有 101 个动作类别。该数据集是具有 50 个动作类别的 UCF50 数据集的扩展。UCF101 拥有来自 101 个动作类别的 13320 个视频,在动作方面具有最大的多样性,并且在相机运动、物体外观和姿态、物体尺度、视点、杂乱背景、照明条件等方面存在较大变化,是迄今为止最具挑战性的数据集。由于大多数可用的动作识别数据集都不是真实的,并且是由演员表演的,UCF101 旨在通过学习和探索新的真实动作类别来鼓励对动作识别的进一步研究。101 个动作类别中的视频被分为 25 组,其中每组可以由 4-7 个动作视频组成。来自同一组的视频可能具有一些共同的特征,例如相似的背景、相似的视点等。
下载地址:UCF101 - Action Recognition Data Set
2.HMDB-51
说明:从各种来源收集的 HMDB,主要来自电影,还有一小部分来自公共数据库,如 Prelinger 档案、YouTube 和谷歌视频。数据集包含 6849 个剪辑,分为 51 个动作类别,每个类别至少包含 101 个剪辑。操作类别可分为五种类型:
1. 一般面部动作微笑、大笑、咀嚼、交谈。
2. 面部动作与物体操纵:抽烟、吃饭、喝酒。
3. 一般身体动作:侧身、拍手、攀爬、爬楼梯、跳水、摔倒在地、反手翻转、倒立、跳跃、引体向上、俯卧撑、跑步、坐下、仰卧起坐、翻筋斗、站起来、转身、走路、挥手。
4. 与物体互动的身体动作:刷头发、接球、拔剑、运球、高尔夫、击球、踢球、挑球、倒球、推东西、骑自行车、骑马、投篮、射箭、射箭、挥杆、挥杆棒球、剑练习、投掷
5. 人体互动的身体动作:击剑、拥抱、踢某人、亲吻、拳击、握手、剑击。
下载地址:HMDB: a large human motion database
3.Kinetics-700
说明:根据数据集版本,包含多达 650000 个视频片段的大规模高质量 URL 链接数据集,涵盖 400/600/700 个人类动作类。视频包括乐器演奏等人与物的互动,以及握手和拥抱等人与人的互动。每个动作类至少有 400/600/700 个视频剪辑。每个剪辑都是人类注释的一个动作类,持续约 10 秒。
下载地址:Kinetics 700-2020
4.Moments in Time(339)
说明:该数据集包括 100 万个标记为 3 秒的视频,涉及人、动物、物体或自然现象,这些视频捕捉了动态场景的要点。
下载地址:Moments in Time(339)
方法(基于深度学习的视频时空特征分析)
1.TwoStream
TwoStream 将动作识别中的特征提取分为两个分支,一个是 RGB 分支提取空间特征,另一个是光流分支提取时间上的光流特征,最后结合两种特征进行动作识别,代表性方法如 TwoStreamCNN 及其扩展,TSN,TRN 等。
TwoStreamCNN:Two-stream convolutional networks for action recognition in videos. In NIPS 2014
TSN:Temporal segment networks: Towards good practices for deep action recognition. ECCV 2016
TRN:emporal Relational Reasoning in Videos. ECCV2018
SlowFast:SlowFast Networks for Video Recognition. ICCV2019
2.C3D
3D convolution 直接将 2D 卷积扩展到 3D(添加了时间维度),直接提取包含时间和空间两方面的特征,这一类也是目前做的比较多的 topic。代表方法如开山之作 C3D 及其之后的扩展 P3D,R (2+1) D,ECO 等,最近 FAIR 提出了 SlowFast 算法,CVPR2019 上也有相关的论文(比如 MARS) 。
C3D 开篇之作:Learning spatiotemporal features with 3d convolutional networks. ICCV2015
P3D:Learning spatio-temporal representation with pseudo-3d residual networks. In ICCV2017
R(2+1)D:A Closer Look at Spatiotemporal Convolutions for Action Recognition. CVPR2018
ECO:Efficient Convolutional Network for Online Video Understanding. ECCV2018
MARS:Motion-Augmented RGB Stream for Action Recognition.CVPR2019
3.LSTM
这种方法通常使用 CNN 提取空间特征,使用 RNN(如 LSTM)提取时序特征,进行行为识别。代表方法如 CVPR2015 的 LRCN。
领域难点
1.严重依赖物体和场景
算法就越来越偏向用物体和场景来识别,始终没有切入到 “动作” 这个东西本身,而是绕开人的 bounding box 做事情
2.光流的问题:长度和语义
光流现在是视频动作里面不可或缺的信息,第一是很难去描述长时间的动作,第二光流本身的意义也不是完全明确
3.CNN特征提取问题
很擅长获取物体和场景的信息,它自己也会突出自己擅长的部分,投机取巧,把动作识别往物体和场景上压的。