基于视频流的图像识别视频识别算法

转载

mob64ca13f9e726 2024-08-09 12:07:11

文章标签 基于视频流的图像识别数据集召回率生成器 文章分类 计算机视觉人工智能

近日，腾讯优图实验室提出一种新的视频动作检测算法DBG并开源，这是继今年4月人脸检测算法DSFD开源后，优图的又一次开源动作。

目前，DBG算法在全球两大权威视频动作数据集ActivityNet-1.3和THUMOS14上均取得了第一。相关论文《Fast Learning of Temporal Action Proposal via Dense Boundary Generator》已被国际人工智能顶级会议AAAI2020接收，与此同时，算法代码已在优图研究官方Github上开源。

Github开源地址：

https://github.com/TencentYoutuResearch/ActionDetection-DBG

论文公开地址：

https://arxiv.org/pdf/1911.04127.pdf

三点创新，探索视频动作检测最优方案

视频动作检测技术是精彩视频集锦、视频字幕生成、动作识别等任务的基础，随着互联网的飞速发展，在产业界中得到越来越广泛地应用。视频动作检测算法需要在给出视频中找到动作发生的位置（起点和终点）和置信度。如下图所示，我们需要在一段体育视频场景中，找到“跳高”这个动作发生的起点时刻和终点时刻。

基于视频流的图像识别视频识别算法_生成器

与现有的视频动作检测算法相比，DBG算法有3点创新：

（1）提出一种快速的、端到端的稠密边界动作生成器(Dense Boundary Generator，DBG)。该生成器能够对所有的动作提名（proposal）估计出稠密的边界置信度图。

（2）引入额外的时序上的动作分类损失函数来监督动作概率特征，该特征能够有利于回归动作的完整度。

（3）设计一种高效的动作提名特征生成层，该层能够有效捕获动作的全局特征，便于后面的分类和回归模块。

据了解，DBG算法在全球两大权威视频动作数据集ActivityNet-1.3和THUMOS14上均取得了第一。算法的整体框架主要包括三个部分：视频特征抽取（Video Representation），稠密边界动作检测器（DBG），后处理（Post-processing）。

基于视频流的图像识别视频识别算法_数据集_02

DBG算法框架图

从评估结果来看，DBG无论在召回率还是耗时上都优于现有其他开源算法。其中，ActivityNet1.3数据集分为Validation和Test两个评估集，DBG单模型（表中Ours）在Validation和Test的两种评估模式上均取得了Top 1，通过使用多种特征提取网络和多尺度特征等策略，DBG算法的融合结果是73.05%，达到ActivityNet榜单的第一名。

基于视频流的图像识别视频识别算法_召回率_03