本文的跟踪器是POI(Person of Interest),在基于数据关联(data association)的MOT中detection和学习appearance feature是十分重要的。这篇论文使用了高性能的检测和基于深度学习的外观特征,做了大量的实验,结果很有说服力。

基本思路:在每帧上用检测器检测行人的位置,然后利用行人检测框的外观特征进行前后帧行人框的匹配,以便可以实现对行人的跟踪。

1、Detection

基于Faster R-CNN,采用每次随机采样的动态尺度的多尺度训练策略,在test时使用单一尺度和简单的模型,此外采用skip pooling和multi-region 策略把不同尺度和水平层次的特征联合起来。使用Faster R-CNN+skip pooling+multi-region这种策略,使得FP+FN之和下降。

2、Appearance Feature

外观特征是用来计算行人图像框之间的相似度的,使用相似度可以确定图像框集合之间的对应关系。外观特征的距离被用于计算数据关联(data association)的相似度分数(affinity value)。这个值在保持同一个人身份的时候是large,在不同身份的人的时候是small,在此,距离采用cosine distance。用与GoogLeNet相似的网络来提取外观特征。网络的input size是96*96,pool5 layer的kernel size是3*3。输出层是一个输出128维特征的全连接层。训练时用softmax和triplet loss,softmax loss保证appearance feature的判别能力,triplet loss保证了相同身份的外观特征的cosine距离是很小的。

相似度的计算:通过特征的cosine距离计算相似度,完全相关时为1,完全无关时为0。

3、Online Tracker

这个跟踪器很简单,使用KF进行motion prediction,使用Kuhn-Munkres算法进行数据关联(data association),即两个行人框集合之间的对应。

在相似矩阵构建方面,Kuhn-Munkres算法需要构建相似矩阵来进行两个集合间的对应,在相似矩阵中,元素即为两个集合(跟踪集和检测集)对应数据的相似度。

在数据关联(data association)方面,对应的是跟踪集和检测集。当使用Kuhn-Munkres时,因该算法倾向于寻找全局最优结果,所以当一些检测框缺失时可能有问题。而POI方法使用了两阶段方法解决了这一问题。

4、Offline Tracker

将整段视频作为输入,跟踪结果作为输出。输入是待处理视频及其每帧的检测框。输出是跟踪目标的轨迹。

Appearance Representation:建立affinity matrix用于dense neighbors search。需要计算三个affinities,即appearance,motion和smoothness affinity。在这3者中,appearance affinity是最重要的,所以用CNN的方法。

Big Target:对于big target而言,motion smoothness affinities是不可信赖的,这种unreliability是由于big targets的unsteady detection responses造成的。为解决这一挑战,引入了2个阈值。

启示:在MOT中,将Detection和Appearance Feature同时兼顾会取得state-of-the-art的效果。两者都很重要,不应该有所忽视。当然了,这两个方面是可以替换的,可以通过分别改进这两个方面来提高算法性能。在提高检测器的效果方面,可以像作者那样采用skip pooling和multi-region的策略,并且添加了这两个策略的Faster RCNN可以获得很好的效果。

Note: The method in this paper is not very good for offline tracker.