为什么目标检测视频会比较慢视频中的目标检测

转载

mob6454cc745a10 2024-05-16 03:55:59

文章标签 为什么目标检测视频会比较慢计算机视觉人工智能深度学习视频 文章分类 计算机视觉人工智能

【亮点概述】

1.不依赖光流或递归神经网络进行特征聚合，不强调时间上相邻的帧，而是进行全局聚类。

2.在整个视频序列上聚集特征，将视频视为一包无序的帧，去学习每种类别的表示，可以理解为多镜头检测任务（视频由多组对象组成，对象的外观退化表现为类内特征变化较大），解决了无法在固定的时间范围之外利用视频的丰富信息的问题。

3.设计了新的序列级的语义聚合模块（SELSA）。

4.不需要复杂的后处理，管道简单干净。

后处理方法：试图通过设计复杂的规则连接静态图像检测器生成的边界框，从而整合视频级别的信息。

管道：指的是视频对每个目标在每一帧提取的检测框按照时间序列的顺序连接在一起，就构成了一个管道。

【面临问题】

为什么目标检测视频会比较慢视频中的目标检测_视频

1.处理快速运动的物体：快速运动带来的图像退化是不易观察到的，如运动模糊、相机散焦、姿势变化。

2.处理视频丰富的视觉信息：视频的任何一帧上只要能与感兴趣对象的特征相似度较高，就可能有对整个的目标检测有贡献，当一帧中的目标外观退化严重时，可通过其它特征丰富的帧减轻这种退化。

image degradation unseen：图像在形成、记录、处理和传输过程中，由于成像系统、记录设备、传输介质和处理方法的不完善，导致图像质量的下降，这种现象叫做图像退化。

【基本流程】

为什么目标检测视频会比较慢视频中的目标检测_计算机视觉_02

1.从整个视频中提取不同帧的目标

2.聚类，跨帧计算目标的语义相似性，基于相似度聚合其他帧的目标区域特征

3.转换，检测

【SELSA模块】

将跨时空与语义相似联系起来设计了 SELSA模块，

$X^{f}=({x_{1}^{f},x_{2}^{f}},)$

代表目标f类的所有帧图像的集合，使用广义余弦相似度衡量

$(x^{_{i}^{k}},x_{j}^{l})$

之间的语义相似度，公式如下

为什么目标检测视频会比较慢视频中的目标检测_计算机视觉_05

相似度越高代表属于同一类别的可能性越大。

特征聚合，以语义相似度作为参考聚合其他帧目标区域的特征，聚合的新目标特征具有丰富的信息，可以应对姿态变化、运动模糊和对象变形等外观变化影响，此外，特征聚合是在目标区域的特征上进行的，不需要冗余的像素级计算，也更关注感兴趣的区域。从F个帧中聚合，每帧产生N个目标，聚合的特征为

为什么目标检测视频会比较慢视频中的目标检测_为什么目标检测视频会比较慢_06

针对视频中感兴趣目标的识别，相比于从附近帧进行小范围的特征聚合，从整个序列上聚集特征将更具识别能力和检测的鲁棒性，因为外观退化可能会跨越一个很宽的时间，短时间内的帧可能具有很高的冗余度，削弱了特征聚合的优势，所以在整个视频帧上利用语义聚合特征，不易受到长时间外观退化的影响。

【使用网络】

1.消融实验主干网络：ResNet-101

2.检测网络：RPN，检测网络RPN应用于CONV4的输出

3.SELSA模块：每一个建立在 Faster R-CNN的一个全连接之后 (FC→SELSA→FC→SELSA)，FAST-RCNN应用于CONV5的输出

【消融实验】

为什么目标检测视频会比较慢视频中的目标检测_深度学习_07

1.b列相当于SELSA的退化版，从同一帧中获取聚合的目标，这导致相比于单帧基线的方法只有1.64的mAP提高。

2.cl列使用SELSA，整体上的识别率都有较大提升，特别是fast部分提升了9.85。

【特征聚合的抽样策略】

特征聚合的采样策略对视频检测很重要，测试期间在特征聚合中使用更多的帧会产生更好的结果，以均匀的步幅对帧进行采样，以提高性能。

为什么目标检测视频会比较慢视频中的目标检测_计算机视觉_08

1.从图(a) 可以看出从聚合5帧增加到聚合21帧会有1.04的mAP的提高。

2.从图(b)中，聚合21帧保持不变，步长从1提升到10，mAP提高到79.36。

3.采样的步长比测试帧的数量相比提升的更大，由于在序列级上处理具有多样性的样本是更加有效的，而光流法和RNN等聚合方法不会因步长有提升。基于光流法中，当帧数超过某个阈值时，性能会随着帧数的增加而下降，而在无序的特征聚合上，如图(c)中使用5帧就能达到之前21帧的水平，优势来自语义邻域的聚合而非时间邻域。

【后处理问题】

不依赖后处理方法整合完整的序列信息，表2中使用Seq-NMS的后处理方法后性能反而下降，说明该方法已经捕获到了完整的序列级的信息。

为什么目标检测视频会比较慢视频中的目标检测_计算机视觉_09