Experiments


4.1. Datasets and Evaluation Metrics.


(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别在两个标准数据集上进行实验,即CASIA-B[30]和OU-MVLP[24],以验证本文方法的优越性。此外,在 CASIA-B 上进行了消融实验,以证明本文方法中每个模块的积极影响。

CASIA-B. CASIA-B由124个目标组成,每个目标包含110个序列,有11个不同的摄像机视角。在每个摄像机视角下,每个目标包含三种行走状态,即正常(NM)(6 个序列)、携包(BG)(2 个序列)和穿外套(CL)(2 个序列)。在训练和测试阶段,遵循 [29] 中的协议。前 74 名目标的样本被视为训练集,其余 50 名目标被视为测试集。在测试阶段,将每个目标NM条件下的前4个序列作为注册集,将每个受试者的其余6个序列作为验证集,包括2个NM序列、2个BG序列和2个CL序列。

OU-MVLP. OU-MVLP由10307个目标组成。每个目标包含28个序列,有14个摄像机视角,因此每个目标的每个视角包含2个序列(索引’01’和’02’)。前 5153 个目标用于训练,其余 5154 个目标用于测试。特别是,索引为’01’的序列被视为测试阶段的gallery,索引为’02’的序列被视为测试阶段的probe。

Implementation Details


Hyper-parameters. 1)在 CASIAB和OU-MVLP数据集上分别将(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别_02的值(一次迭代中的训练样本数)设置为 64 和 256。2)(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_03(输入帧数)和K(部分划分数)的值分别设置为30和32。(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别_04的消融实验附在补充材料中。3) 对于CASIA-B和OU-MVLP数据集,图 3 所示的 FC 的输出通道数分别设置为 256 和 512。4) 所有 MLP 遵循:FC(c,c/16)->ReLU()->FC(c/16,c)。 ATA 中的两个 FC 是 FC(c,c/16) 和 FC(c/16,c)。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_05

Training Details. 1)每一帧都像[24]那样对齐,将每一帧调整为64×44或128×88的大小。对于每个输入序列,遵循[6]的帧采样策略。2) 应用单独的(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_06三元组损失来训练本文的网络。训练的批大小记为(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_07,其中(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_神经网络_08表示采样目标的数量,(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_09表示每个目标的采样序列数。特别的,在 CASIAB 上将(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_07设置为(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_神经网络_11,在 OU-MVLP 上将(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_07设置为(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_13。3)由于OU-MVLP的数据量是CASIA-B的20倍,因此在CASIA-B和OU-MVLP数据集上,4层CNN中每层的输出通道数分别设置为32/64、64/128、128/256、128/256,这与GaitSet和GLN的设计相同。在第二个卷积层之后附加一个步幅为 2 的最大池化层。此外,在每个卷积层之后应用 Leaky ReLU激活函数。4)总的来说,在CASIA-B上训练10万次,在OU-MVLP上训练25万次。此外,本文的模型是由Adam优化的,学习率开始设定为1e-4,在OU-MVLP上迭代150k次时降低到1e-5。使用Pytorch和NVIDIA GeForce GTX 1080Ti GPU来进行实验。

Comparison with the State-of-the-art Methods


CASIA-B. 表 1 显示了所提出的 CSTL 与当前最先进的方法在 CASIA-B 数据集上的平均 rank-1 精度的比较结果。性能评估考虑了三种行走条件(NM、BG、CL)和 11 个不同的摄像机视角(0°- 180°)。几个结论总结如下:1)CSTL在所有情况下的平均精度比较中明显优于其他方法,这表明了其鲁棒性和优势。2)随着测试条件难度的增加,性能自然会下降。但是 ​​CSTL 的下降幅度明显小于其他方法​​。以GLN为例,当步行条件从NM变为CL时,平均精度下降几乎20%(从 96.9% 到 77.5%)。与此相对应的是,CSTL 的性能下降了11%(从 98.0% 到 87.0%)。原因是 CSTL 捕获了最具判别力的步态特征,从而为各种情况带来了鲁棒性。3) CSTL 还显示出​​对步态序列分辨率的鲁棒性​​​。比较BG条件在(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_14(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_15两种分辨率下的性能,CSTL 的准确度差距为 1.8%(从 95.4% 到 93.6%),而 GaitSet 的准确度差距为 4.3%(从 91.5% 到 87.2 %)。这种改进仍然归功于 CSTL 的鲁棒特征学习。对分辨率的鲁棒性为 CSTL 提供了另一个优势,即​​它可以在几乎所有情况下以较小的分辨率获得更好的性能​​。在此基础上,b本文的其余部分使用64×44的分辨率设置,因为它在性能和计算成本之间实现了更好的权衡。

表 1. CASIA-B 上的平均 rank-1 准确度 (%),不包括相同视视角的情况。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_16

OU-MVLP. 表 2 显示了所提出的 CSTL 与当前最先进的方法在 OU-MLVP 上的平均 rank-1 精度的比较结果。CSTL 在 OU-MVLP 中的所有相机视角下都优于现有方法,这证明了本文的方法在大规模数据集中的泛化能力。注意,​​CSTL 是第一个在 OU-MVLP 数据集上平均 rank-1 准确率超过 90% 的网络​​。

表 2. OU-MVLP 上的平均 rank-1 准确度 (%),不包括相同视角的情况。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_17

Ablation Study


(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别为了研究本文方法的确切有效性,进行了消融实验来研究网络的主要组成部分。注意,本文的基线不包含本文中提出的任何模块。

时空建模的影响。 空间和时间建模的单独效果在表3中给出。基线是指具有特征划分的 4 层 CNN,同时使用BA+ 损失进行监督。几个值得注意的观察可以概括为:1)与空间建模网络,即GaitSet相比,本文的基线在三种条件下(84.2% 和 85.4%)实现了相似的平均性能。然而,利用 MSTE 和 SSFL,本文的方法比GaitSet(+6.9%) 实现了显著的平均准确度提高,这证明了本文显著的空间学习能力的优越性。2) 与时间建模网络,即 GaitPart相比,使用 MSTE 和 ATA 获得了明显的改进(从 88.0% 到 90.1%),这验证了本文网络中的自适应时间表示能力。3)同时应用空间和时间建模取得了最好的结果,这证明了SSFL和ATA在提出的的方法中的互补特性。

表 3. CASIA-B 上 CSTL 模块在平均 rank-1 准确度方面的有效性研究。为了简单起见,使用 MSTE 来表示多尺度时间提取。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_19

多尺度特征的影响。 研究了 MSTE 模块中时间特征的影响,结果在表 4 中给出。可以注意到:1)比较前三个实验,发现所有三个级别的特征都对提高识别准确率产生了积极影响。因此,​​三级特征的联合学习达到了最好的性能​​​。2)​​帧间关系建模​​​,即短期和长期,提高了基于帧级特征学习的识别性能,证明了​​短期和长期时间信息的有效性​​。3)短期和长期特征相互提供改进,这说明这两种特征都侧重于互补层次的时间线索。

表 4. CASIA-B 上多尺度时间特征在平均 rank-1 准确度方面的有效性研究。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_20

序列聚合策略的比较。 为了研究序列聚合策略的效果,将 ATA 与最大池化和平均池化进行比较。结果在表 5 中给出。实验结果证明了ATA的优越性。注意到最大池化优于平均池化,这说明​​在细粒度识别任务中提取判别线索比平均全局信息具有优势​​。ATA 块优于最大池化和平均池化,这证明了 ATA 的自适应聚合能力。

表 5. CASIA-B 上时间聚合策略在平均 rank-1 准确度方面的有效性研究

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_深度学习_21

Visualization


(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别从 CASIA-B 测试数据集中选择十个身份,通过t-SNE可视化特征分布。比较基线和本文的方法的特征分布,注意到,在图 6(a)中,不同主体的特征分布彼此更接近,因此身份更难区分。不同的是,在图 6(b)中,不同主体的特征分布更加分散,因此身份更加可区分,这证明了本文方法的特征表示能力。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别_23

图 6. 基线的 tSNE 可视化示例和在 CASIA-B 测试数据集上提出的模型。不同颜色的不同数字表示不同的身份。放大观看效果最佳。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别为了更好地理解 SSFL 的积极作用,在图 7 中给出了一些空间选择示例,将 SSFL 中选择的部分数量设置为 8,以便更好地可视化。可以注意到:SSFL倾向于选择没有身体重叠和服装遮挡的部分,它们具有完整的外观特征。如图7(a)所示,SSFL在第5帧中选择了第8部分,与其他帧相比,它在很大程度上保留了脚的轮廓信息。在图 7(b) 中,在提包条件下,SSFL 选择第 2 帧中的第 4 部分,而在其他帧中,手臂被提包遮挡。补充材料中提供了更多示例。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_25

(a)在 NM 条件下来自目标“39”的序列,相机视角为 90 度。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_人工智能_26

(b) 在 BG 条件下,相机视角为 90 度的目标“106”的序列。

图 7. 空间显着特征学习示意图。红色框表示选定的部分。

(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别通过这种方式,可以获得高质量的空间特征,既弥补了时间操作带来的负面影响,又增强了提出的的网络在换衣和多视角场景下的鲁棒性。


Conclusion


(ICCV-2021)用于步态识别的上下文敏感时间特征学习(三)_步态识别本文提出了一种用于步态识别的上下文敏感时间特征学习(CSTL)网络。CSTL 提取多尺度的时间特征,捕捉显着的空间线索,实现强大的时空建模能力。具体而言,在 CSTL 中引入了三个尺度的不同时间特征,并基于这些时间信息考虑时间关系以进行自适应时间聚合。此外,在整个序列中选择具有判别力的空间部分来提供被破坏的空间特征。在公共数据集上进行的大量实验验证了本文方法的优越性。

参考文献


[6] Chao Fan, Yunjie Peng, Chunshui Cao, Xu Liu, Saihui Hou, Jiannan Chi, Yongzhen Huang, Qing Li, and Zhiqiang He. Gaitpart: Temporal part-based model for gait recognition. CVPR, pages 14225–14233, 2020. 1, 3, 4, 6, 7

[24] Noriko Takemura, Yasushi Makihara, Daigo Muramatsu, Tomio Echigo, and Yasushi Yagi. Multi-view large population gait dataset and its performance evaluation for crossview gait recognition. IPSJ Transactions on Computer Vision and Applications, 10(1):4, 2018. 2, 6

[29] Zifeng Wu, Yongzhen Huang, Liang Wang, Xiaogang Wang, and Tieniu Tan. A comprehensive study on cross-view gait based human identification with deep cnns. IEEE transactions on pattern analysis and machine intelligence, 39(2):209–226, 2016. 3, 6