基础信息

题目:Cloth-Changing Person Re-identification from A Single Image with Gait Prediction and Regularization

出处:中科大22年CVPR的一篇论文

网址:https://arxiv.org/abs/2103.15537

正文

摘要

换衣人再识别(CC-ReID)的目标是在长时间内(如几天内)在不同地点匹配同一个人,因此不可避免地会出现换衣的情况。在本文中,我们重点研究如何在更具挑战性的情况下处理好CC-ReID问题,即仅从一个图像开始,这使得在监视中能够有效且无延迟地进行人员身份匹配。具体来说,我们引入步态识别作为一项辅助任务来驱动Image ReID模型,通过利用个人独特的和与布料无关的步态信息来学习与布料无关的表示,我们将此框架命名为GI-ReID。GI-ReID采用了由图像重识别分支和辅助步态识别分支组成的双分支结构。步态分支作为一个调节器,鼓励ReID分支在训练过程中捕捉布不变的生物特征。为了从单个图像中获取时间连续的运动线索,我们设计了步态序列预测(GSP)模块来丰富步态信息。最后,为有效的知识正则化,对两个流施加语义一致性约束。在多个基于图像的换装ReID基准上的大量实验,例如LTCC、PRCC、Real28和VC-Clothes,证明了GI-ReID优于最先进的方法。

介绍

行人重识别(ReID)旨在通过摄像机、时间和地点识别特定的人。人们提出了大量的方法来解决由于人类姿态的多样性[52,58,78]、摄像机视点[26,60,74]和样式/尺度[27,28]所导致的人图像之间具有挑战性的几何失调问题。这些方法通常会不经意地假定同一个人的查询图像和图库图像具有相同的服装。通常,它们在训练有素的短期数据集上表现良好,但在长期收集的ReID数据集上进行测试时,会出现显著的性能下降。因为在这些数据集之间,长时间内会发生较大的服装变化,这严重影响了ReID的准确性。例如,图1(a)显示了一个真实的通缉令案例1,在不同时间/地点被监视设备捕获的嫌疑人将她的外套从黑色改为白色,这使得ReID很困难,特别是当她戴着面具并且捕获的图像质量很低的时候。

近年来,为了处理服装变化ReID (CCReID)问题,一些研究贡献了一些新的数据集,其中服装变化是常见的(如Cele celeties - ReID [20,22], PRCC [69], LTCC [54], Real28和VC-Clothes[63])。他们还提出了一些新的算法,可以学习CC-ReID的布不可知表示。例如,Yang等人[69]提出了一种基于轮廓草图的网络来克服适度换衣的问题。同样,Qian et al. [54], Li et al. [38], Hong et al.[18]都是使用身体形状来处理CCReID问题。然而,无论是使用轮廓草图还是体型,这些方法都容易出现估计误差问题。因为单视图的轮廓/形状推断(来自2D图像)是非常困难的,因为可能的情况非常多,特别是当人们在冬天穿厚衣服的时候。此外,这些基于轮廓草图或形状的方法只注重从人身上提取静态空间线索作为额外的clothnostic表征,而忽略了丰富的动态运动信息(如步态、隐含运动[33])。

在本文中,我们探索利用步态特征暗示行人的动态运动线索来驱动模型来学习布料不可知和有区别的ReID表示。如图1(b)所示,虽然同一个人穿着不同的衣服很难识别,或者当他们穿着相似/相同的衣服时很难区分不同的人,但我们仍然可以利用他们独特/有区别的步态来实现正确的身份匹配。这是因为步态作为一种独特的生物特征,相对于其他易变化的外貌特征,如脸、体型、轮廓等,具有优越的不变性[43,75]。此外,即使使用低质量的摄像机成像,步态也可以进行远距离识别。不幸的是,现有的步态相关研究主要依赖于大视频序列[3,9]。捕捉视频需要时间延迟,保存视频需要很大的硬件存储成本,这对实时ReID应用程序来说都是不可取的。即使最近的工作[67]首次尝试从单个图像实现步态识别,如何利用步态特征来处理单个图像的CC-ReID问题仍有待研究,由于潜在的视点变化和遮挡,这一任务更具挑战性。

在本文中,我们提出了一种基于步态辅助图像的ReID框架,称为GI-ReID,它可以在步态特征的帮助下从单个图像中学习与布无关的ReID表示。它包括一个主要的基于图像的识别流和一个辅助的步态识别流(步态识别流)。图2显示了整个框架。Gait-Stream的目标是使ReID-Stream规范化,以便从单个RGB图像中学习与衣服无关的特性,从而实现有效的CC-ReID。它在高效率的推理中被抛弃了。由于综合步态特征提取通常需要步态视频序列作为输入[3,9],因此我们引入了一种新的步态序列预测(GSP)模块来从单个输入查询图像近似预测连续步态帧,从而丰富了学习步态信息。最后,为了鼓励主ReID-Stream从Gait-Stream的有效学习,我们进一步对同一个人在两个流的特性上实施高级语义一致性(SC)约束。我们的主要贡献总结如下:

  1. 我们专门针对图像里德所面临的换衣难题进行处理,促进实际应用。提出了一种步态辅助的基于图像的布料改变ReID (GI-ReID)框架。作为一个调节器,GI-ReID中的步态流可以在不牺牲ReID性能的情况下被移除。这减少了对步态识别精度的依赖,使我们的方法具有计算效率和鲁棒性。
  2. 一个设计良好的步态序列预测(GSP)模块使得我们的方法在具有挑战性的基于图像的ReID场景中是有效的。此外,一个高级语义一致性约束可以对两个流进行有效的正则化,增强了ReID-Stream在换布环境下的识别能力。

通过步态预测和正则化,GI-ReID在基于图像的换装ReID上实现了最先进的性能。它也足够通用,可以与现有的特定于reid的网络兼容,除了ResNet-50[14]外,我们还使用OSNet[81]、LTCC-shape[54]和prc -contour[69]作为我们评估的基线。

相关工作

ReID

一般ReID:在没有换装的情况下,一般ReID在深度学习方面取得了很大的成功。它包括探索细粒度行人特征描述[10,61,64,81],以及解决由(a)不同摄像机视点[26,59],(b)不同姿态[11,52,58],(c)语义不一致[28,77],(d)遮挡/部分观测[15,46,80,82]等因素引起的空间不对齐问题。这些方法主要依赖于静态空间纹理信息。但是,当人ReID遇到换衣服时,纹理信息就不那么可靠了,即使是同一个人,纹理信息也会发生显著变化。与静态纹理相比,步态信息作为一种识别生物特征的方式更加一致和可靠。

换装ReID:由于换装ReID (CC-ReID)具有更广泛的应用范围和更大的实用价值,越来越多的研究关注于解决这一具有挑战性的问题。Huang等[20,22]提出利用向量-神经元胶囊[55]来感知同一个人的布料变化。Yang et al. [69], Qian et al. [54]/ Li et al. [38], Yu et al. [71]/Wan et al.[63]提出在换布背景下分别利用轮廓轮廓、体型、脸/发型来辅助ReID。然而,由于难以获得外部线索(如体型、面部等),这些方法往往存在估计误差。此外,它们还忽略了对步态等具有鉴别性的动态运动线索的探索。

FITD[75]解决了基于视频真实运动线索的换装ReID问题。我们的工作至少在三个方面与FITD不同:1). FITD使用来自密集轨迹(光流)的运动信息,这需要连续的视频序列。我们的gii -ReID通过步态预测和正则化从单个图像处理换布里德,这更具挑战性和实用性。2). FITD直接利用人体运动线索完成ReID, ReID依赖于准确的运动预测,可能存在估计误差。该方法以步态识别任务为调节器,驱动主识别模型学习与布无关的特征,从而降低了算法对步态估计误差的敏感性。3). FITD仅表征ReID的时间运动模式,忽略了其他可识别的局部空间线索,如个人物品(如背包)。我们的GI-ReID不仅可以探索动态步态信号,还可以从原始的RGB图像中学习,从而获得更全面的特征。

步态识别和预测

步态识别[2、3、8、9、36、43、44、47、67]直接采用步态序列进行身份匹配,也是与服装无关的,但与我们的工作不同,不能直接应用于基于图像的换装ReID。我们在表1中详细说明了两个任务之间的区别:本文主要讨论基于图像的换装ReID,其中较大的视点变化、遮挡和复杂的环境导致步态识别失败。基于步态序列的步态识别方法在基于图像的CC-ReID算法中并不理想。因此,我们只是将步态识别作为一种辅助正则化来驱动ReID模型学习未知衣服的表示,这使得我们的方法对识别错误具有鲁棒性。此外,步态表征可以分为基于模型的[37,39,50]和基于外观的[2,3,9]。前者依靠人体姿态,后者依靠轮廓。我们使用轮廓作为步态表示,以保持简单和稳健。

单帧步态预测,或者说视频帧预测(即运动预测)领域已经得到了广泛的研究并取得了巨大的成功[13,19,42,49,67],这也验证了我们工作的可行性。这项任务非常具有挑战性,因此我们精心设计了步态序列预测模块,并以鲁棒正则化的方式间接使用预测结果来帮助换装ReID。

GI-ReID框架

GI -ReID框架旨在充分利用独特的人类步态来处理ReID仅仅依靠一张图像就能改变衣服颜色的挑战。图2显示了整个框架的流程图。对于单个人的图像,首先将其轮廓(即掩模)提取到Gait-Stream中,使用语义分割方法,如PointRend[30]。

利用所提出的步态序列预测(GSP)模块,我们可以预测出具有更全面步态信息的步态序列,然后将其输入到后续的识别网络(GaitSet[3]),提取具有判别性的步态特征。通过高级语义一致性(SC)约束,Gait-Stream充当一个调节器,鼓励主要的ReID-Stream从单个RGB图像中捕获与cloth无关的特性。我们将在下面的部分中详细讨论每个组件。

辅助的步态分支

步态流由步态序列预测(GSP)模块和预训练步态识别网络(GaitSet[3])两部分组成。GSP是为步态信息增强而设计的。然后,GaitSet从增强步态中提取与服装无关的有区别的运动特征线索,以指导/正则化ReID-Stream的训练。

步态序列预测(GSP)模块:GSP模块的目标是预测包含连续步态帧的步态序列。该模块涉及一般的视频帧预测任务(即帧插值和外推研究[13,19,42,49]),步态序列预测可视为“步态帧合成”过程。GSP模块的目标是预测包含连续步态帧的步态序列。该模块涉及一般的视频帧预测任务(即帧插值和外推研究[13,19,42,49]),步态序列预测可视为“步态帧合成”过程。如图2所示,GSP基于具有特征编码器E和解码器d的自动编码器架构[7]。为了减少预测的模糊性和难度(例如,给定一个悬挂的手臂,很难猜测它在下一帧会上升还是下降),我们通过位置嵌入器P和特征聚合器a将中间帧索引的额外先验信息人工集成到内部学习的特征中。

(1):编码器。给定一个轮廓输入S,编码器E的目标是提取一个尺寸收缩紧凑的特点:

具体/详细的网络结构(包括Gait-Stream中的其他组件)可以在附录中找到。

(2):位置嵌入和特征聚合器。考虑到步态序列预测的模糊性,我们引入了一种中间帧输入原理,该原理假设输入的轮廓总是与预测步态序列的中间帧相一致。在GSP训练过程中,我们将ground truth步态序列中间位置的步态帧作为GSP的输入,并使用一维向量p∈R1表示该位置标签。在GSP训练过程中,我们将ground truth步态序列中间位置的步态帧作为GSP的输入,并使用一维向量p∈R1表示该位置标签。给定一个有N帧的地面真步态序列,定义输入中步态的位置标签pmid∈R1为pmid = N//2,表示输入帧与整个序列的相对位置关系。为了方便起见,我们将位置标签转换为一个one-hot编码来计算损失。式中,位置嵌入器P为:

在编码器和解码器之间插入由全连接层实现的特征聚合器A,通过考虑嵌入的中间位置信息epp,将原始编码特征f转换为感知中间位置的特征fep S,供后续解码器使用。它明确地告诉解码器我们需要预测当前输入的中间步态状态之前和之后的步态状态,从而减少预测结果的预测模糊性。这个特征聚合过程可以表述为:

(3)Decoder:我们将聚合后的特征fep S输入与编码器E结构对称的解码器D,以预测预先设定的固定帧数n的步态序列。该过程表示为:

步态特征提取:步态识别模型GaitSet是一种基于集合的步态识别模型,它以一组轮廓作为输入,将帧上的特征集合成一个集合级特征,其表达式为g = GaitSet(eR)。更多细节见补充部分。

主要的ReID分支

ReID-Stream的主干网络可以是任何现成的网络,如常用的ResNet50[14]、特定于reid的PCB[61]、MGN[64]和OSNet[81]。我们采用ReID特征向量r上广泛采用的分类损失[10,61]和批量硬挖掘[16]的三重损失作为训练的基本优化目标。最后使用该特性作为参考。

俩个分支联合学习

由于GSP模块存在潜在的粗轮廓提取和步态序列预测误差,很难直接利用步态信息来完成有效的ReID。在实验中,我们很难直接利用步态信息来完成有效的识别。实验上,我们尝试仅以预测的步态序列eR作为输入进行CC-ReID,并发现该方案未能提供良好的结果(更多细节见消融研究)。因此,在避免上述问题的同时,为了充分利用步态信息与布料无关的优点,我们提出通过一个高级语义一致性约束(SC)联合训练步态- stream和ReID-Stream,其中步态特征作为一个调节器来驱动ReID-Stream的布料无关特征学习。注意,推断中也不需要SC约束。

语义一致性约束。SC约束本质上与知识蒸馏[17]、互学[76]、知识融合[70]等共同特征学习作品有关。我们的SC约束主要在两个方面与他们不同:1)SC鼓励从两种模式(动态步态和静态RGB图像)中进行高层次的共同特征学习。SC确保每个流/模式的信息完整性。

SC约束的详细信息如图2所示。首先将gait - stream的习得步态特征g和reed - stream的ReID特征r通过嵌入层转化为一个共同的交互空间:ˆr = Emb.(r)和ˆg = Emb.(g),其中ˆr和ˆg具有相同的特征维数。然后,通过最小化最大平均差异(MMD)[12],我们强制转换后的特征ˆr和ˆg彼此接近。MMD是一种距离度量,用于度量概率分布的域失配。我们使用它来衡量转换后的特征ˆr和ˆg之间的高级语义差异,并将其最小化,以驱动ReID-Stream更多地关注与布料无关的步态生物特征。将ˆrandˆg的MMD距离的经验近似简化为:

为了避免带有SC约束的特征正则化所造成的信息丢失,我们进一步实施重构惩罚,以确保转换后的特征ˆg和ˆr可以恢复到原始版本。具体来说,我们通过一个Recon来重建原始的输出特征。层(由FC层实现):er = Recon.(r), eg = Recon.(g),计算相应的重构损失如下:

训练管道。本文提出的GI-ReID的整个训练过程包括三个阶段:1).步态特征提取的预训练GaitSet [3];2).步态序列预测(GSP)模块和步态流步态集在步态相关数据集上的联合训练。3). CC-ReIDrelated datasets上的Gait-Stream和ReID-Stream联合训练。补充中提供了更多细节,包括伪代码和损失平衡策略。