分享内容(2020/06/23)

Probabilistic Regression for Visual Tracking

视觉跟踪的概率回归


这篇论文是Martin Danelljan CVPR2020的最新一个工作,这个系列中几篇论文都是一种架构,即将整个跟踪任务分为位置预测和bbox回归两个问题,模型架构采用的是一种类似Siamese架构。这篇论文主要解决的是位置回归的问题,bbox的回归还是直接使用的跟atom\dimp中一样的Iou-net的head。
在atom中位置预测被定义为一个二分类问题,模型学习区分目标和背景两个类别,从而定位目标的位置。
在Dimp中,作者引入元学习,将第一帧的信息融入到后面帧中,即使用第一帧的信息来为后面帧的在线更新模型提供权重,这里在线更新模型是指位置预测和边界框预测的两个Head部分。
在这篇论文中,作者都归为回归问题,这里使用一个条件概率模型来通过前面帧的信息,预测下一帧的位置。

0. 要解决的问题

视觉跟踪从根本上讲就是回归目标在每一帧视频中的状态问题。虽然已经取得了重大进展,但跟踪器仍容易出现故障和不准确。因此,在目标估计中表示不确定性是至关重要的。尽管目前的突出范例依赖于评估一个依赖于状态的信心分数,这个值缺乏一个明确的概率解释,使它的使用复杂化。

1. 亮点

提出了一个概率回归公式来学习预测给定输入图像x的目标状态y的条件概率密度p(y|x)。与置信值s(y, x)不同,密度p(y|x)有一个清晰和直接的解释,允许计算绝对概率。我们假设没有特定的分布族,比如高斯分布,而是让p(y|x)直接由网络结构本身参数化。具体地说,密度p(y|x)由SoftMax操作的连续的泛化来表示,SoftMax操作以前在基于能量的模型[27]中使用,最近在[18]中使用。与之前的工作不同,我们还对注释本身的不确定性进行建模。这在视觉跟踪中非常重要,可以消除注释中的噪音和回归任务本身的歧义。通过最小化预测密度和标签分布之间的Kullback-Leibler散度来训练网络。

我们的跟踪器在六个数据集上取得了SOTA,在LaSOT上实现了59.8%的AUC,在TrackingNet上实现了75.8%的成功。

2. 基于置信度的回归方法

在机器学习中,回归问题基本上就是学习一个映射:r进行probit回归 probit回归分析_r进行probit回归, 表示从输入空间 r进行probit回归 probit回归分析_单目标跟踪_02到一个连续的输出空间 r进行probit回归 probit回归分析_r进行probit回归_03。最直接的方法是直接学习函数 r进行probit回归 probit回归分析_单目标跟踪_04,使用r进行probit回归 probit回归分析_最小化_05参数化一个神经网络,最小化一个loss r进行probit回归 probit回归分析_最小化_06. 然而,loss函数的选择有很大的问题依赖性,典型的选择就是r进行probit回归 probit回归分析_Prdimp_07范数家族。

2.1 一般形式 - 基于置信度的预测

形式上,我们将基于信心的回归定义为学习函数r进行probit回归 probit回归分析_r进行probit回归_08, 给定一个输入-输出对,它预测一个标量置信分数r进行probit回归 probit回归分析_视觉跟踪_09. 通过最小化关于y的置信度获得最终的估计:r进行probit回归 probit回归分析_单目标跟踪_10.

r进行probit回归 probit回归分析_视觉跟踪_11

这样,回归问题就转化为从数据r进行probit回归 probit回归分析_Prdimp_12中学习函数r进行probit回归 probit回归分析_最小化_13. 这通常通过定义函数r进行probit回归 probit回归分析_视觉跟踪_14来实现,以生成一个伪标签r进行probit回归 probit回归分析_单目标跟踪_15, 作为预测r进行probit回归 probit回归分析_最小化_16的 ground-truth 置信分数值。置信网络可以通过最小化 loss r进行probit回归 probit回归分析_视觉跟踪_17 来训练。这里:
r进行probit回归 probit回归分析_Prdimp_18

函数r进行probit回归 probit回归分析_Prdimp_19现在测量的是预测值r进行probit回归 probit回归分析_最小化_16的可信度(y, xi)和对应的标签值r进行probit回归 probit回归分析_单目标跟踪_15之间的差异。

2.2 在视觉跟踪中的应用形式

在视觉跟踪中,大多数方法都集中于回归目标物体的中心二维图像坐标r进行probit回归 probit回归分析_单目标跟踪_22,然后选择性地使用该模型通过多尺度搜索来估计单参数尺度因子。这类方法包括广泛流行的鉴别相关滤波器(DCF)方法、大多数的Siamese网络以及一些早期的方法。

DCF 中的使用形式:

在基于DCF的方法中,卷积层是在线训练的,即在tracking期间,预测一个置信度分数:
r进行probit回归 probit回归分析_Prdimp_23

这里,r进行probit回归 probit回归分析_单目标跟踪_24是卷积核,而r进行probit回归 probit回归分析_单目标跟踪_25是从图像x中提取的特征,通常是由权值冻结的CNN提取。将卷积(3)的结果在空间位置y处求值,得到置信值r进行probit回归 probit回归分析_Prdimp_26. DCF范式在置信度预测上采用了平方损失r进行probit回归 probit回归分析_最小化_27。几乎所有的DCF方法都使用在r进行probit回归 probit回归分析_Prdimp_28帧中以目标位置r进行probit回归 probit回归分析_单目标跟踪_29为中心的高斯置信伪标签r进行probit回归 probit回归分析_Prdimp_30

Siamese Trackers 中的使用形式:

与DCF不同, Siamese Trackers目的是在离线训练阶段充分学习网络参数r进行probit回归 probit回归分析_最小化_05,这是通过学习一个嵌入空间序列来实现的,其中目标模板z和框架x之间的相似性可以作为相关性来计算。
r进行probit回归 probit回归分析_单目标跟踪_32

Siamese方法通常采用二元交叉熵损失
r进行probit回归 probit回归分析_单目标跟踪_33

用在公式(2)中来训练网络参数r进行probit回归 probit回归分析_最小化_05.
也就是说,目标定位被视为一个密集的二分类问题,其中伪标签r进行probit回归 probit回归分析_r进行probit回归_35表示目标/背景类,或者更一般地表示一个伯努利分布。
在目标附近r进行probit回归 probit回归分析_Prdimp_36,一般设为r进行probit回归 probit回归分析_视觉跟踪_37, 否则r进行probit回归 probit回归分析_r进行probit回归_38

ATOM 模型的使用形式:

首先,使用与上述方法相似的技术对目标进行粗定位。然后,使用单独的网络分支回归目标边界盒。为此目的,ATOM跟踪器[9]使用了一个基于IoU- net[24]的网络头r进行probit回归 probit回归分析_Prdimp_39,它给任何输入边界框r进行probit回归 probit回归分析_最小化_40评分。这个网络头在离线阶段使用平方差损失r进行probit回归 probit回归分析_最小化_27来训练以用来预测 IoU overlap r进行probit回归 probit回归分析_视觉跟踪_42.
在这种情况下,积分(2)在训练时通过采样边界框逼近。在跟踪过程中,通过基于梯度最大化预测置信度得到最优方框(1)。

DiMP 模型的使用形式:

最近,Bhat等人[3]通过设计一种基于元学习的网络架构提出了 DiMP tacker,从一组样本对r进行probit回归 probit回归分析_单目标跟踪_43中预测鉴别目标模型的权重r进行probit回归 probit回归分析_Prdimp_44. 然后将预测的权值用于第一阶段鲁棒目标定位,并在跟踪过程中通过学习的递归优化过程进行更新。使用鲁棒版本的平方误差和高斯置信标签a(y, yi)的端到端学习目标模型预测器r进行probit回归 probit回归分析_单目标跟踪_45。第二阶段采用ATOM中提出的边界盒回归技术。

3. 方法

我们提出了一个概率回归模型,它集成了基于置信的回归的所有优点。然而,与上述基于信心的模型不同,我们的方法生成一个预测概率分布r进行probit回归 probit回归分析_r进行probit回归_46作为输出。该网络通过最小化预测密度r进行probit回归 probit回归分析_Prdimp_47和条件地真分布r进行probit回归 probit回归分析_最小化_48之间的KL散度来训练,它模拟(model)了任务本身的标签噪声和歧义。在推理过程中,回归值的点估计是通过最大化预测密度来获得的。

与基于信心的回归方法相比,我们的方法有几个重要的优点。在基于信心的回归方法中,预测r进行probit回归 probit回归分析_Prdimp_39很难解释,它的值很大程度上取决于伪标签函数a和使用的损失l。相反,我们方法的概率性质允许对输出中的不确定性进行推理。此外,在该方法中,伪标签函数a被标签条件分布 r进行probit回归 probit回归分析_视觉跟踪_50,它模拟了注释 r进行probit回归 probit回归分析_单目标跟踪_29

r进行probit回归 probit回归分析_Prdimp_52

图2。跟踪器通常被训练来预测地面真值边界盒(红色)的中心坐标。这是左帧的自然选择,并与跟踪器预测(绿色)很好地对齐。仅仅两帧之后(右),尾巴的运动导致ground-truth中心的位置发生了根本性的变化,现在它位于背景中。这并不一定是目标中心坐标的自然定义,因为对象外观略有变化。因此,目标中心回归是一个模糊的任务,其中不清楚如何定义正确的值r进行probit回归 probit回归分析_视觉跟踪_53。我们的公式通过正确值的分布r进行probit回归 probit回归分析_视觉跟踪_50来模拟回归任务中的模糊性和不确定性。

3.1 表达(Representation)

在这一节中,我们制定了一种方法来有效地训练网络,以预测给定输入x的输出y的概率分布r进行probit回归 probit回归分析_Prdimp_47。密度本身使用之前在基于概率能量的深度学习[27]中使用的公式和最近的深度条件目标密度来表示.
r进行probit回归 probit回归分析_最小化_56

对于第2节中描述的基于置信的方法,r进行probit回归 probit回归分析_单目标跟踪_57是一个将输出-输入对(y, x)映射到标量值的深度神经网络。表达式(6)将该值通过求幂并通过归一化常数 r进行probit回归 probit回归分析_r进行probit回归_58

由于网络的输出代表了在Y上的一个概率密度,我们可以通过对数据拟合概率分布的技术来学习网络参数r进行probit回归 probit回归分析_最小化_05。给定训练样本对r进行probit回归 probit回归分析_最小化_60, 最简单的方法是最小化负对数似然,
r进行probit回归 probit回归分析_最小化_61

该策略最近已成功应用于许多计算机视觉任务[18]中,包括视觉跟踪中的边界框回归。负对数似然损失(7)的一个优点是它只使用训练样本r进行probit回归 probit回归分析_Prdimp_62本身,没有进一步的假设。然而,这带来了一个重要的限制,我们将在下面讨论。

3.2 标签的不确定性和学习目标

与负对数似然损失(7)相比,由于伪标签函数r进行probit回归 probit回归分析_视觉跟踪_63,第2节中描述的基于信心的范式具有一定的灵活性。在实践中,r进行probit回归 probit回归分析_视觉跟踪_63的设计已经被证明是跟踪性能的关键[4,39]。我们认为,这主要是由于任务本身的模糊性和标签yi本身的不确定性。大多数跟踪方法集中于回归目标在图像中的中心坐标r进行probit回归 probit回归分析_单目标跟踪_22。然而,对于大多数对象来说,这是一项固有的模糊和定义不明确的任务。虽然中心坐标可以定义为目标边界框的质心,但这对人来说并不是一个直观的识别,也不是一个跟踪算法。

我们提出将回归问题的概率模型标记噪声和任务歧义作为条件 ground-truth 分布r进行probit回归 probit回归分析_最小化_48。在注释r进行probit回归 probit回归分析_单目标跟踪_29 的前提下,描述了地真值输出值y的概率密度。我们训练网络将KL散度最小化到r进行probit回归 probit回归分析_最小化_48而不是负对数似然(7),

r进行probit回归 probit回归分析_视觉跟踪_69

备注:

r进行probit回归 probit回归分析_r进行probit回归_70

KL散度(相对熵)的定义:
r进行probit回归 probit回归分析_单目标跟踪_71
上面的r进行probit回归 probit回归分析_r进行probit回归_72为真实事件的概率分布,r进行probit回归 probit回归分析_最小化_73 为理论拟合出来的该事件的概率分布。上面就是:交叉熵与真实分布的信息熵之差.

这里, r进行probit回归 probit回归分析_r进行probit回归_74表示等于一个常数项。(8)中的第二行对应两个分布之间的交叉熵,舍弃常数项为标签分布的负熵r进行probit回归 probit回归分析_视觉跟踪_75。详细的推导见附录A。

r进行probit回归 probit回归分析_单目标跟踪_76

损失(8)自然整合了注释样本r进行probit回归 probit回归分析_Prdimp_62中关于不确定度r进行probit回归 probit回归分析_最小化_48的信息。与基于信心的回归中使用的伪标签函数a(y|yi)不同,p(y|yi)作为概率分布有一个清晰的解释。事实上,p(y|yi)可以通过对一小部分数据获得多个注释来进行经验估计。在高斯模型r进行probit回归 probit回归分析_r进行probit回归_79的情况下,方差r进行probit回归 probit回归分析_单目标跟踪_80可以估计为这些注释的经验方差。在这项工作中,我们简单地认为参数r进行probit回归 probit回归分析_单目标跟踪_80是一个超参数。

3.3 训练

在本节中,我们考虑基于损失(8)来训练网络参数r进行probit回归 probit回归分析_最小化_05

网格采样: 对于二维图像坐标回归问题,如回归跟踪目标中心的情况,r进行probit回归 probit回归分析_r进行probit回归_83表示图像中的一个位置。在这种情况下,平移不变性被有效地利用参数化r进行probit回归 probit回归分析_单目标跟踪_84,其中r进行probit回归 probit回归分析_单目标跟踪_04是一个卷积神经网络(CNN)。通过对CNN在图像坐标y处的输出进行求值,得到r进行probit回归 probit回归分析_Prdimp_39。设r进行probit回归 probit回归分析_单目标跟踪_87为CNN r进行probit回归 probit回归分析_视觉跟踪_88卷积应用于图像样本x时得到的均匀网格位置的集合。进一步,设A为单个网格单元格的面积。由CNN自动提供的均匀网格采样产生的损失(8)近似如下,
r进行probit回归 probit回归分析_Prdimp_89

最后的损失是通过对小批量中所有样品i的平均r进行probit回归 probit回归分析_单目标跟踪_90

蒙特卡洛积分: 对于更一般的回归问题,网格抽样不一定提供任何计算上的好处。相反,由于刚性网格的存在,它在更高维度上的尺度很差,可能会导致采样偏差。在更一般的情况下,我们采用[18]中提出的基于蒙特卡罗(MC)的采样策略。具体地说,我们在训练期间从提议分布r进行probit回归 probit回归分析_r进行probit回归_91中抽取样本r进行probit回归 probit回归分析_Prdimp_92。用相同的样本来近似式(8)中的两个积分,
r进行probit回归 probit回归分析_视觉跟踪_93

为了准确地近似原始损失(8),提议分布r进行probit回归 probit回归分析_r进行probit回归_91应该理想地覆盖标签分布r进行probit回归 probit回归分析_最小化_48以及预测密度高的区域r进行probit回归 probit回归分析_r进行probit回归_46。在[18]中,以r进行probit回归 probit回归分析_单目标跟踪_29注释为中心的简单高斯混合足以完成各种任务,包括边界盒回归。

损失(10)需要对网络的局域网r进行probit回归 probit回归分析_r进行probit回归_98进行多次评估。然而,在实践中,计算机视觉体系结构通常使用深层骨干特征提取器r进行probit回归 probit回归分析_最小化_99(如ResNet[20])生成图像的强大表示。输出值y可以在后期熔合,即r进行probit回归 probit回归分析_视觉跟踪_100。这允许在所有样本r进行probit回归 probit回归分析_视觉跟踪_101之间共享需要计算的特征提取r进行probit回归 probit回归分析_单目标跟踪_102。针对我们的目的,这种架构已经成功应用于对象检测和视觉跟踪问题中的边界盒回归[3,9,18,24].

4. 跟踪方法

我们将第3节中介绍的一般概率回归公式应用于具有挑战性和多样性的视觉目标跟踪任务。

4.1 基线跟踪器:DiMP

我们采用最近的最先进的跟踪DiMP[3]作为我们的基线。正如第2.2节中简要讨论的,DiMP模型包含两个输出分支。

目标中心回归(Target Center Regression, TCR): 中心回归分支通过回归目标的中心坐标,粗略地定位图像中的目标。这个分支强调稳健性而不是准确性。它由一个线性卷积输出层组成,网络将其权重r进行probit回归 probit回归分析_单目标跟踪_24预测为一个可最小化r进行probit回归 probit回归分析_最小化_104的判别学习损失的展开优化过程。这允许跟踪器从背景中的相似对象中有力地区分目标对象。与(3)相似地预测了帧x中位置r进行probit回归 probit回归分析_r进行probit回归_105的目标中心置信度,即r进行probit回归 probit回归分析_最小化_106,这里r进行probit回归 probit回归分析_r进行probit回归_107是主干特征提取器。该分支在元学习设置中进行训练,使用高斯伪标签r进行probit回归 probit回归分析_Prdimp_108和鲁棒r进行probit回归 probit回归分析_最小化_104损失进行基于信心的目标(2),
r进行probit回归 probit回归分析_视觉跟踪_110

在跟踪过程中,通过在帧x内较宽的搜索区域内密集计算置信值r进行probit回归 probit回归分析_r进行probit回归_111来回归目标中心。详见[3].

边界盒回归(Bounding Box Regression, BBR): BBR分支采用[9]中提出的基于目标条件IoU-Net的[24]架构。正如在2.2节中所讨论的,该分支为给定的box r进行probit回归 probit回归分析_r进行probit回归_112预测了置信分数r进行probit回归 probit回归分析_单目标跟踪_113。使用边界框IoU作为伪标签r进行probit回归 probit回归分析_单目标跟踪_114和(2)中的标准r进行probit回归 probit回归分析_最小化_104损失l对其进行训练。在跟踪过程中,应用BBR分支利用r进行probit回归 probit回归分析_单目标跟踪_113 关于r进行probit回归 probit回归分析_视觉跟踪_117的基于梯度的最大化,将一个准确的边界框匹配到目标上。详见[9]。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ncPkm87f-1593254516935)(en-resource://database/2858:1)]

4.2 我们的跟踪器:Probabilistic DiMP

我们引入了一种完全概率输出表示的跟踪方法,通过将我们的回归公式整合到基线DiMP的两个分支来获得。图4显示了实例预测密度。

目标中心回归: 我们将(6)应用于网络输出r进行probit回归 probit回归分析_r进行probit回归_111来表示目标中心坐标r进行probit回归 probit回归分析_最小化_119的预测分布。由于该分支是完全卷积的,我们使用网格采样策略(9)近似kl散度损失(8)进行训练。设条件地真密度为高斯r进行probit回归 probit回归分析_Prdimp_120对应的伪标签函数r进行probit回归 probit回归分析_Prdimp_108在基线DiMP(目标大小的1/4分之一)中使用相同的方差参数r进行probit回归 probit回归分析_单目标跟踪_122. 对于预测中心回归分支的卷积权值r进行probit回归 probit回归分析_单目标跟踪_24的优化模块,我们使用了带有L2正则化项的KL-散度损失(9)。由于原来的高斯-牛顿近似只适用于最小二乘目标,我们修改了基于最陡下降的结构[3],使其采用二阶泰勒展开。
我们的方法得益于这样一个事实,即在r进行probit回归 probit回归分析_单目标跟踪_24中,对于线性预测器r进行probit回归 probit回归分析_最小化_106,所得到的目标(9)是凸的, 多亏了梯度和Hessian的解析表达式。有关优化器模块的详细描述,请参阅附录B。

边界框回归: 我们和[9,3]使用相同的架构,并将其应用到我们的概率公式(6)中。我们遵循[18]的工作,它使用负对数似然损失(7)和基于MC的近似将相同的ATOM BBR模块[9]扩展到概率设置。在这项工作中,我们进一步整合标签分布r进行probit回归 probit回归分析_Prdimp_126来建模边界框标注中的噪声和不确定性,并使用MC采样(10)最小化KL-散度(8)。特别地,我们使用一个各向同性的高斯分布r进行probit回归 probit回归分析_Prdimp_127,并且设置r进行probit回归 probit回归分析_Prdimp_128. 为了进行公平的比较,我们使用相同的提案分布r进行probit回归 probit回归分析_Prdimp_129

细节: 我们的整个网络使用与原始DiMP[3]相同的策略和设置,通过将其集成到公开可用的PyTracking框架[7]中,进行端到端联合训练。使用LaSOT [13], GOT10k [23], TrackingNet[33]和COCO[30]的训练分块,运行50 epoch,每个迭代1000次。我们还在DiMP中保留了跟踪过程和设置,只执行最小的更改,这是由我们的模型提供的概率输出表示强制执行的。由于网络输出的尺度不同,我们相应地改变了缺失目标的阈值和用于边界盒回归的梯度步长。训练和推理设置的详细描述参见[3,7]。我们的代码可以在[7]找到。

5. 实验结果
LaSOT 和 UAV123

r进行probit回归 probit回归分析_单目标跟踪_130

TrackingNet

r进行probit回归 probit回归分析_r进行probit回归_131

GOT-10K

r进行probit回归 probit回归分析_最小化_132

OTB-100

r进行probit回归 probit回归分析_最小化_133

VOT2018

r进行probit回归 probit回归分析_r进行probit回归_134