文章目录

4. Experiments

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代已应用两个开放数据集来评估 GaitPart,即CASIA-B和OU-MVLP。在本节中,将首先描述这些数据库。然后,将 GaitPart 的性能与其他最先进方法的性能进行比较。最后,详细的消融研究将严格在CASIA-B进行,以验证GaitPart中每个组件的有效性。


4.1. Datasets and Training Details


CASIA-B. CASIA-B由124个目标组成,是一个应用广泛的步态数据集,其中每个目标包含 11 个视角,每个视角包含 10 个序列。这10个序列是在3种行走条件下获得的,前6个序列是在正常情况下获得的(NM),另外2个序列是在受试者携带背包时获得的(BG),最后2个是在受试者穿着外套夹克时获得的(CL)。换句话说,每个目标包含 11×(6+2+2)=110 个序列。测试协议:前 74 个目标被分组到训练集中,其余 50 个目标被保留用于测试。测试时将NM条件的前4个序列(NM#1-4)作为gallery,其余6个序列根据行走条件分为三个子集,即NM子集包含NM#56,另一个BG 子集包含 BG#1-2,最后一个 CL 子集包含 CL#1-2。

OU-MVLP. OU-MVLP 步态数据库是迄今为止世界上最大的公共步态数据集。它由10307个目标组成(5153个目标用于训练,其余5154个目标用于测试)。此外,每个主题包含 14 个视角(0,15, …,90; 180, 195, …, 270),每个视角包含 2 个序列。在测试阶段,索引#01 的序列被分组到gallery中,而索引为#02 的其余序列被分组到probe中。

Training details. 1)通用配置:输入轮廓通过[21]中提到的方法对齐,并调整为(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_机器学习_02的大小。使用 Adam 优化器,学习率为 1e-4,动量为 0.9。单独的三元组损失中的margin设置为 0.2。2) 在CASIA-B中, 按照第3.4节中介绍的方式, 批大小被设置为(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代_03。此外,对模型进行120K次迭代训练。3) 在 OU-MVLP 中,由于它包含的序列几乎是 CASIA-B 的 20 倍,因此在 FPFE 中堆叠了一个由两个 FConv 层组成的附加块(输出通道设置为 256),每个的 p 值块分别设置为 1、1、3、3。批大小设置为(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_机器学习_04,迭代次数设置为 250K,在 150k 次迭代时学习率将降低到 1e-5。


4.2. Comparison with State-of-art Methods


CASIA-B. 如表3所示,为了确保GaitPart能够与其他最先进的方法进行系统和全面的比较,所有的跨视角跨行走条件的情况都包括在比较范围内。1) 除CNN-LB是基于GEI的,表3中显示的其他方法都是基于视频的,所有这些方法的表现都大大超过了CNN-LB。这表明基于视频的方法在从原始步态序列中提取更细粒度判别性信息方面具有巨大潜力。2)与GaitSet相比,GaitPart在拥有类似主干的情况下明显表现出更好的性能(事实上,GaitPart的参数只有GaitSet的一半左右)。该结果通过实验揭示了 FConv 和 MCM 的优越性。3)与GaitNet相比,这两种方法的目的相同,但手段不同。在GaitNet中,引入了自动编码器框架以获得更多的判别性特征,并将多层LSTM应用于时空建模。而在本文的模型中,分别提出了FConv和MCM。从实验来看,GaitPart在CASIA-B上的各种行走条件下取得了更好的性能。

表3. 在CASIA-B上的平均rank-1准确度,不包括相同视角的情况。

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_计算机视觉_05

OU-MVLP. 为了验证其泛化性,在全球最大的公共步态数据集上完成了对 GaitPart 的评估。如表4所示,GaitPart在各种跨视角条件下达到了新的先进水平。需要指出的是,由于某些目标的序列缺失,rank-1准确率的最大值不能达到100%,这种情况在测试阶段被忽略了。如果丢弃probe中没有相应样本的目标,所有probe视角的平均rank-1准确性应该是95.1%,而不是88.7%。

表 4. OU-MVLP 上的平均 rank-1 准确度,不包括相同视角的情况。

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_计算机视觉_06


4.3. Ablation Study


(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代为了验证GaitPart中每个组件的有效性,将在CASIA-B上进行不同设置的消融研究,包括在FConv中设置不同的p值,在MCM模块中只设置一个或两个MTB,在MCM模块中应用和不应用注意力机制,以及使用TP模块的不同实例。实验结果及分析如下。

Effectiveness of FConv. 按照 3.4 节中提到的在 FConv 中设置超参数(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_计算机视觉_08的方式,在实验 A 组中进行了四个对照实验(分别编号为 A-a、b、c 和 d),所有结果如表 5 所示。值得注意的是,在实验 A-a 的主干中,所有 FConvs 的(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_计算机视觉_08值都设置为 1,即主干完全由常规层组成。1)很明显,所有使用 FConvs 的实验(包括 A-b、c 和 d)都比实验 A-a 获得了更好的性能。一方面,这验证了 FConv 的有效性。另一方面,在GaitPart中还声明了在FConv中改变值(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_计算机视觉_08鲁棒性。2) A-d 与 A-c 之间的比较表明,在 Block1(底层)使用 FConv 会对性能产生负面影响。可能的原因是在底层,相邻部分之间的边缘和轮廓信息会被 FConvs 损坏。3)通过比较实验A-a、b和c之间的差异,可以发现平均rank-1准确率在NM子集上先升后降,而在BG和CL子集上继续增加。造成这种现象的原因是顶层神经元的不同感受野可以适应不同的行走条件

表 5. A 组消融研究。控制条件:每个块中的(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代_11值。结果是 11 个视角的平均rank-1准确度,不包括相同视角的情况。

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代_12

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代此外,还有一点值得一提的是,在完全没有采用FConvs的情况下,实验A-a在A组中取得了较差的性能,但在表3中提到的其他基准中取得了最佳性能。因为A-a中应用的主干比其他基准更轻、更简洁,所以它可以松散地部分验证MCM模块的有效性。最后,选择综合表现突出的实验A-c作为GaitPart的基线。

Effectiveness of MCM. 如表6所示,B组有5个对照实验(分别编号为B-a、b、c、d和e),其中B-a、b、c和d侧重于MTB模块的设计,B-e只考虑TP模块的实例化。1)通过比较实验B-a,b和c之间的差异,发现MTB1和MTB2一起使用可以获得最佳性能。这表明 MCM 中的多尺度设计(在 3.3 节中提到)有助于捕捉有判别性微动作特征。2)通过实验B-a和B-d的比较,发现引入注意力机制是必要的。它确实使模型能够突出最具代表性的微动作特征。3) 实验 B-a 与 B-e 的比较表明 TP 模块的实例化对于 GaitPart 至关重要。当它不满足 "步态时间聚合的基本原则"时,以实例化的函数(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_数据集_14为例,在B组和A组的所有实验中得到最差的性能。

表 6. 消融研究,B 组。控制条件:使用和不使用 MTB1 或 MTB2,在 MTB 中使用和不使用注意力机制以及 TP 的不同实例。结果是 11 个视角的平均rank-1准确度,不包括相同视角的情况。

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_机器学习_15


4.4. Spatio-temporal Study


(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代通常认为静态外观特征动态时间信息都是个体步态的代表特征。但是许多先前的方法在没有明确建模时间特征的情况下取得了良好的性能,换句话说,​​输入帧的顺序在这些最先进的方法中并不重要​​。因此,在本节中,旨在公开探索时间信息和外观特征分别在GaitPart中扮演什么角色。

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代为此,作者进行了C组实验,所有的结果都显示在表7中。在训练(C-a)和测试(C-c)阶段,通过对输入帧进行shuffle,取得了较差的表现,但准确率的下降并不严重。它表明,即使在输入序列的时间信息混乱的情况下,该模型仍能取得不俗的表现。这种现象表明静态外观特征确实在步态识别中起着至关重要的作用。但作者不认为时间信息是微不足道或不重要的,因为该模型在跨穿戴条件下获得了相当大的准确性提升,在现实世界的场景中,步态外观变化很大。表 7 显示时间信息也是 GaitPart 中非常重要的鲁棒特征

表 7. 时空研究,C 组。控制条件:在训练/测试阶段对输入序列进行排序/打乱。结果是 11 个视角的平均 rank-1 准确度,不包括相同视角的情况。

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_计算机视觉_18

5. Conclusion

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(二)_迭代本文提出了一个新的观点,即由于人体在行走过程中的视觉外观运动模式不同,人体的每个部分都需要自己的时空模型。因此,提出了 GaitPart,它包括由 FConv 组成的帧级部分特征提取器和由几个并行和依赖的微动作捕获模块组成的时间特征聚合器。这两部分的核心目标是分别增强部分级特征细粒度学习和提取局部短程时空表达。最后,在著名的公共数据库CASIA-B和OUMVLP上进行的实验证明了GaitPart以及其所有组件的优越性。

参考文献

[21] Noriko Takemura, Yasushi Makihara, Daigo Muramatsu, Tomio Echigo, and Yasushi Yagi. Multi-view large population gait dataset and its performance evaluation for crossview gait recognition. IPSJ Transactions on Computer Vision and Applications, 10, 12 2018. 1, 2, 6, 7, 8