我们已经生活在一个被摄像头和视频包围的世界里,从手机、汽车、无人机到各类监控设备,随处可见摄像头的“身影”。据前瞻产业研究院2020年的报告分析,预计到2025年全球摄像头镜头的出货量将超过120亿颗。 

面对海量的摄像头及其产生的视频素材,如何利用具有深度学习功能的 AI 技术,高效、智能地处理、挖掘信息,已成为一项非常有价值的课题。

一、目标跟踪简介

视频目标跟踪技术(也称为:目标跟踪、视觉跟踪),作为计算机视觉领域中基础的、重要的研究方向之一,可广泛应用在交通管理、安防监控、自动驾驶、机器人、体育赛事转播等领域,其已成为一大研究热点。

多类别多目标跟踪 多目标跟踪数据集_目标跟踪


二、目标跟踪分类

● 根据跟踪的目标数量,目标跟踪任务可分为单目标跟踪(SOT)多目标跟踪(MOT)

● 根据背景状态,可分为静态背景下的目标跟踪和动态背景下的目标跟踪;

● 根据摄像头数量,可分为单摄像头跟踪多摄像头跟踪

● 根据任务计算类型,可分为在线跟踪离线跟踪

更多分类可参考下图:

多类别多目标跟踪 多目标跟踪数据集_多类别多目标跟踪_02

目标跟踪纵览

其中,多目标跟踪作为计算机视觉中的一项中级任务,仍然是一项具有挑战性的任务,因为它需要同时解决目标检测、轨迹估计、数据关联和重识别问题。另外它也是许多高级任务的基础,如姿态估计、动作识别和行为分析等。

让我们一起来看看。

三、什么是多目标跟踪任务

多目标跟踪与单目标跟踪是一组相对的概念。

单目标跟踪是指,在视频的初始帧画面上框出单个目标,预测后续帧中该目标的大小与位置。该目标始终位于视场中,并且对目标种类无限制。

多类别多目标跟踪 多目标跟踪数据集_多类别多目标跟踪_03

单目标跟踪示意

而多目标跟踪是在事先不知道目标数量的情况下,对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪。不同的目标拥有不同的ID,以便实现后续的轨迹预测、精准查找等工作。[2]

多类别多目标跟踪 多目标跟踪数据集_计算机视觉_04

多目跟踪示意

四、多目标跟踪方法步骤

多目标跟踪主要分为以下四个步骤:[3]

1. 对象初始化

首先对各个视频帧中的新出现的对象进行建模,即对象初始化;

2. 检测与特征提取

其次根据建立的模型进行对象检测,获得初始对象序列的特征;

3. 相似度计算

根据得到的特征,在后续帧中重复寻找目标对象进行相似度度量;

4. 数据关联

根据相似度度量结果对目标进行关联,获得一系列的对象轨迹。

五、多目标跟踪任务难点

相对于单目标跟踪,多目标跟踪面临着更加复杂的问题包括频繁的遮挡、轨迹的管理、相似的外观和多目标间的相互影响。

在实际的应用场景中,需要面对存在的各种复杂变化(以行人跟踪为例):

1. 目标自身的变化

目标的颜色变化(行人的衣服颜色变化),目标的尺度变化(离摄像头的远近)和目标的形态变化(行人的站立、蹲与躺)等。

2. 外界环境的变化

光线明暗的变化、目标所处环境的多样性、目标的消失与出现和目标的遮挡问题。

这些复杂变化会影响跟踪对象与背景环境的区分度,从而进一步影响多目标跟踪算法的跟踪效果和结果的好坏,所以需要恰当地处理这些变化来提高多目标跟踪的准确性。

六、多目标跟踪常用数据集

目前多目标跟踪领域的重要基准是MOTChallenge,作为上传并公布多目标跟踪方法研究成果的公共平台,其拥有最大的公开行人跟踪数据集。[4]

其提供的数据集包括:MOT 15、MOT 16、 MOT 17、MOT 20,这些数据集都提供了训练集的标注,训练集与测试集的检测,以及数据集的目标检测结果,主要侧重于密集场景下行人跟踪任务。

多类别多目标跟踪 多目标跟踪数据集_数据集_05

MOT系列数据集的视频序列及其主要属性

另外还有近几年出的TAO数据集,是一个类似COCO的多样化的MOT数据集,其中包含2907个不同环境的高清视频,平均长度半分钟,包含833个类别,比现有的数据集高出一个数量级。

七、多目标跟踪数据集资源

OpenDataLab平台已经上架了多目标跟踪(MOT)系列数据集,提供了丰富的数据集信息、流畅的下载速度,快来体验吧!

· MOT15

https://opendatalab.com/MOT15

· MOT16

https://opendatalab.com/MOT16

· MOT17

https://opendatalab.com/MOT17

· MOT20

https://opendatalab.com/MOT20

· TAO

https://opendatalab.com/TAO

参考资料:

[1]https://arxiv.org/abs/1912.00535

[2]https://www.bilibili.com/read/cv12115742

[3]文成宇. 复杂场景行人的多目标跟踪方法[D].中国矿业大学,2021.

[4]徐涛,马克,刘才华. 基于深度学习的行人多目标跟踪方法[J]. 吉林大学学报(工学版),2021,51(01):27-38.