@[toc]

头一次写这种文章,如果大家有啥好的意见和建议,欢迎私信或在评论区指出(❁´◡`❁)

Information

标题:DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition

出处:北交23年挂在arxiv上的一篇论文,网址:https://arxiv.org/abs/2303.14953v1

正文

摘要

步态识别是一种生物特征识别技术,它通过人的行走模式来识别人的身份.与其他生物特征识别技术相比,步态识别具有较强的伪装性,可以应用于远距离的环境中,无需主体的配合。因此,它在预防犯罪和社会保障方面具有独特的潜力和广泛的应用。目前,大多数步态识别方法直接从视频帧中提取特征来建立表示。然而,这些架构同等地从不同特征学习表示,但没有足够关注动态特征,动态特征是指轮廓随时间的动态部分的表示(例如,轮廓的动态部分的表示)。腿)。由于人体的动态部分比其他部分(例如:袋)在步行过程中,在本文中,我们提出了一种新颖的和高性能的框架,名为DyGait。这是步态识别的第一个框架,旨在专注于动态特征的提取。具体来说,为了充分利用动态信息,我们提出了一个动态增强模块(DAM),它可以自动建立人体动态部位的时空特征表示。实验结果表明,我们的DyGait网络优于其他国家的最先进的步态识别方法。它在GREW数据集上实现了71.4%的平均Rank-1准确率,在Gait 3D数据集上实现了66.3%,在CASIA-B数据集上实现了98.4%,在OU-MVLP数据集上实现了98.3

本文主要的工作在于提出了一个动态增强模块(DAM),该模块可以更好的关注到人体的动态特征,而之前的模型是同等的从不同部位学习特征,即对于一系列人体走路时候的轮廓图,在行走的过程中,头部的动态变化很小,但腿部的动态变化很大,看图一就可以理解了。

介绍

步态识别作为计算机视觉中的一项识别任务,其基本目标是从人体运动的时间变化特征中学习唯一的、不变的表示。目前,有两种主要类型的特征表示方法来描绘人体步态。一种是基于空间的方法,其通常提取整个步态序列的空间步态特征。尽管以这种方式具有低计算成本,但它可能丢失时间信息。另一种是基于时态的方法,它为表示建模时态特征。这些基于CNN的工作可以自动提取空间和时间步态特征,但他们没有关注帧之间的动态差异,这可能是最有用的步态特征的步态识别。

如图1中的第一行所示,人的躯干和包在每个帧中占据大的区域,并且在行走过程中几乎保持静止和不变。相比之下,腿占据小的空间并且在运动中连续变化。可以观察到,不同帧之间的步态的主要差异在于动态特征,例如移动腿。这表明一些静态区域,例如包或外套,对于区分一个人与其他人并不重要。从这个角度来看,我们强调人体的动态部分比其他部分更能提供信息。因此,在实际应用中,应更加注重动态特性。

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积

基于上述观察,我们提出了一种新的步态识别方法称为DyGait,它可以自动提取步态的动态信息。如图1所示,DyGait更注重运动部位,如腿和手臂。

首先,开发了一种新的动态增强模块(DAM)来提取更全面的表示。基于动态特征提取器(DFE)构建DAM,它可以集成特征图的全局时间信息,生成步态模板。然后,通过计算每帧特征图与步态模板之间的差异来获得动态特征图。

此外,应用时间聚合(TA)和水平映射(HM)操作来生成特征表示[33]。所提出的DyGait实现了强大的性能,并优于其他国家的最先进的模型上的GREW,Gait 3D,CASIA-B和OU-MVLP的大利润。主要贡献如下:

1)我们提出了一个新的框架步态识别,称为DyGait。据我们所知,这是第一个明确专注于提取步态动态特征的网络。

2)DyGait基于动态增强模块(DAM)构建,该模块允许网络专注于关键信息并学习更多用于步态识别的判别表示。同时,该模块通过关注动态信息,能够有效地滤除无效噪声。

3)我们在最流行的数据集上实现了最先进的性能,包括GREW,Gait 3D,CASIAB和OU-MVLP。GREW、Gait 3D、CASIAB和OU-MVLP的Rank-1平均准确率分别为71.4%、66.3%、98.4%和98.3%。实验表明,我们的方法显着优于以前的方法由一个很大的保证金。

作者发现,人在行走的过程中,躯干等区域基本保持不变的,主要变化的是人的步态区域,从图一中可以观察出。而这些静态区域(躯干)对于区分一个人来说,并不太重要,最主要的还是应该依靠人体的动态部分(步态),因此,在实际应用中,应该更加注重动态特征。基于此发现,本文作者就提出了一个动态增强模块(DAM),用来提取出更加全面的表示。而DAM是在动态特征提取器(DFE)的基础上构建的。对于DAM,其可以集成特征图的全局时间信息,生成步态模板。然后,通过计算每帧特征图与步态模板之间的差异来获得动态特征图。

相关工作

  1. 步态识别:大多数先前的工作是基于使用传统的机器学习方法从步态序列中提取手工特征。在此类调查中使用的步态能量图像(GEI)是描述步态的最流行的方法。虽然可以有效地抑制噪声,平均在一个长的时间范围内的GEI的步态周期,这个模板失去了大多数细节,如时间信息。受卷积神经网络(CNN)在人脸识别[44,37,52,9,23,59,16,24]和行人重新识别(Re-ID)[65,34,57,18,15,73,71,72,74,26,54]中的成功应用的启发,最近的研究人员提出了许多基于CNN的步态识别框架。步态识别中的当前工作分为两种类型的特征表示:空间特征表示和时间建模。
  2. 空间特征表示:第一种是将步态序列作为模板,它依赖于二值人体轮廓图像。模板生成的目标是将步态周期编码到单个图像中,即步态能量图像(Gait Energy Image)(GEI)[17]或计时步态图像(Chrono-Gait Image)(CGI)。在模板匹配过程中,首先使用机器学习方法[2,58]或深度学习从模板图像中提取步态表示,然后,使用欧几里德距离或其他度量学习方法来测量表示对之间的相似性。例如,Shiraga et al.[41]提出了GEINet框架,从步态能量图像(GEI)中提取步态特征,该图像是通过使用均值函数生成的。Zhang等人[64]还将GEI作为输入来提取步态特征。然而,GEI的产生过程会造成严重的信息损失。因此,Chao et al.[5]提出了一个步态集框架,其中第一步是提取静态步态特征,然后使用max函数生成步态模板。Zhang等人[67]提出了一种注意力模块,用于学习不同帧的权值,然后采用加权平均运算生成步态模板。虽然这些方法可以实现优异的性能,并且易于计算,但它们在特征提取阶段不考虑时间信息。
  3. 时间建模:在第二类中,3D-CNN [27,28,31,32,30,39,53,29,11,62,63]或LSTM [55,43,48]用于对时间信息进行建模。这些方法可以理解更多的空间信息和收集更多的时间信息,但需要更高的计算成本。Wolf等人,[55]将步态序列划分为多个不重叠的步态片段,并使用3D CNN提取每个片段的步态特征。Thapar等人[48]也采用类似的策略来提取步态特征,并进一步引入LSTM模块来聚合多个片段的特征。然而,它是不灵活的,因为它只提取和聚合固定长度片段的信息。然而,它是不灵活的,因为它只提取和聚合固定长度的片段的信息。最近,Lin et al.[31]提出了一种新的框架,结合了基于模板和基于序列的方法的优点。该方法首先利用3D CNN提取步态时空特征,然后利用统计函数生成步态表征。然而,尽管空间特征表示和时间建模取得了成功,但对于动态和变化的信息,它们的提取变得更加复杂。换句话说,他们不关注步态中最有效的信息。
    因此,我们将注意力转向步态的动态部分,并提出了动态增强模块(DAM),它可以用来增强步态的表达能力。Zhang等[68]提出的GaitNet是最相关的工作。不同寻常的是,GaitNet直接从视频中的RGB帧学习步态表示。与GaitNet相比,我们的方法可以自动从二进制剪影中分离出动态特征,有利于隐私保护,对不同的服装/携带条件具有较强的鲁棒性。此外,最近的一些研究还通过光流[43]、2D位姿[46]和3D位姿[28]提取步态特征。这些方法对服装变化具有鲁棒性,但依赖于光流和姿态估计精度。

步态识别中的当前工作分为两种类型的特征表示:空间特征表示和时间建模。空间特征表示有步态能量图、计时步态图(CGI)。这种方法对于时间相信,普遍遗失巨大。而时间建模主要是利用3D-CNN或者LSTM,这种方法可以很好的获取到时间信息,但需要的计算成本是很高的。

方法论

在本节中,我们首先概述提出的方法的框架。然后,我们引入了动态增强模块(DAM)、时间聚合(TA)、水平映射(HM)和损失函数,最后介绍训练和测试细节。

概述

该方法的框架如图2所示,包括动态增强模块(DAM)、时间聚合(TA)和水平映射(HM)。首先利用卷积层提取浅层特征,然后利用局部时间聚合(local temporal Aggregation, LTA)对局部时间信息进行聚合。假设新∈RCin×Tin×Hin×Win为输入步态序列,其中Cin为输入通道的个数,Tin为步态序列的长度,(Hin,Win)为每帧的图像大小。这些操作可以表示为:

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积_02

其中,YL∈RCL×TL×Hin×Win为Local Temporal Aggregation (LTA)的输出,CL为输出通道数,TL为feature map YL的长度,C3×3×3为与核大小为3×3×3的3D卷积。C3×1×1表示与核大小为3×1×1, stride为3的3D卷积。σ表示激活函数。然后,我们提出了基于DAM的特征提取模块来提取增强的动态特征。然后,我们引入TA和HM运算来生成特征表示。最后,以三重损失和交叉熵损失作为损失函数对网络进行训练。


基于DAM的特征提取

最近,许多研究人员使用基于空间的[56,41,64,5,67,66,31,6,3,4]或基于时间的模型[27,28,31,7,55,43,48]来提取步态表征的特征。但是,这些方法对人体的动态信息都没有给予足够的重视。如上所述,人体躯干和一些干扰,如包和外套,可以被认为是静态信息,而移动的四肢可以被认为是动态信息,人体躯干和一些干扰,如包和外套,可以被认为是静态信息,而移动的肢体则可以看作是动态信息。不属于人体识别信息的包、外套可能会影响识别。另一方面,行走时动态肢体往往比相对稳定的躯干有更大的变化,这说明人体的动态部位可能提供更多的判别信息。传统的基于平均函数的步态模板,如步态能量图像(GEI)[17],完全保留了躯干信息,削弱了动态四肢的作用。为了利用动态信息,我们利用每帧步态特征与基于均值函数的步态模板之间的差异来生成动态特征图,DAM块如图3所示。

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_特征提取_03

假设Xo = {fi|i = 1,2,…, To},其中Xo∈RCo×To×Ho×Wo, Co为输入通道数,To为特征图长度,(Ho,Wo)为每帧图像大小。fi∈RCo×1×Ho×Wo是feature map Xo的第i帧。动态特征图可以通过如下公式获取:

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_特征提取_04

Xd∈RCo×To×Ho×Wo为动态特征图,Xm∈RCo×1×Ho×Wo为基于均值函数的步态模板。在动态特征映射的基础上,提出了一种动态特征提取器(dynamic feature Extractor, DFE)来建立步态动态部位的时空特征表示。动态特征提取器(DFE)可以设计为:

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_3D_05

其中YDFE∈RCod×To×Ho×Wo为DFE的输出,Cod为输出通道数,C3×3×3为核大小为(3,3,3)的3D卷积运算。

考虑到DFE主要是提取人体的动态信息,我们加入全局特征提取器(GFE)来提取步态序列的全局特征。全局特征提取器(GFE)可以表示为:

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_特征提取_06

其中YGFE∈RCod×To×Ho×Wo为GFE的输出,C1×3×3为核大小为(1,3,3)的3D卷积运算。在DFE的基础上,提出了一种新的动态增强特征生成模块DAM,大大提高了动态增强特征的表达能力。DAM可以表示为

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_特征提取_07

σ表示LeakyRelu函数。DAM后的增强特征图(Augmented Feature Maps, AFM)可以表示为:

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_3D_08

其中,YAFM∈RCod×To×Ho×Wo。如图2所示,特征提取阶段通过使用DAM进行多次卷积和max-pooling操作来实现。

此处将公式翻译过来就是:对于送入DAM的若干张特征图,作者首先将每张特征图相加,然后除以特征图的数量,即计算一个所有特征图的均值,将所得的均值做为步态模板,然后再让每一张特征图减去模板,得到一个新的特征图。随后将新的特征图送入一个卷积核未3x3x3的3D卷积中,即得到一些包含了人体动态信息的特征图。但由于该信息主要提取到的是人体动态信息,缺少步态序列的全局特征,所以作者再将初始的特征图,即刚送入DAM模块的特征图,送入一个卷积核大小未1x3x3的3D卷积中,并将输出的特征图和包含人体动态信息的特征图做一个相加的操作。这就是一个DAM所做的事情。

损失函数

为了达到最佳的性能,我们使用三元组损失和交叉损失来训练我们的网络。假设Fi、Fj、Fk分别是样本i、j、k对应的特征表示。注意,样本i和样本j属于A类,样本k属于b类。组合损失函数可以表示为:

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积_09

一方面,提出了利用三元组损失来优化类间和类内的距离,定义为

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积_10

另一方面,引入交叉熵损失来优化分类空间,其表达式为:

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积_11

在我们的方法中,我们在水平映射阶段获得多个列向量,然后根据公式8计算每个列向量的损失。

训练和测试细节

  1. 训练。在训练阶段,我们首先从输入序列中提取基于动态增强模型的特征图。然后,利用时间聚合(TA)和水平映射(HM)生成固定大小的特征表示。然后,采用三重损失和交叉损失进行评价。抽样策略为Batch ALL (BA)[18,5],每一步抽样P×K个实例,其中P为受试者ID的数量,K为每个受试者ID的样本数量。
  2. 测试。在测试阶段,将整个输入序列输入所提出的网络,生成表征人类步态的特征表示YHM。为了评估所提出的方法,我们采用“Gallery-Probe”模式来计算秩1精度。因此,测试集被分成两个集,即图库集和探测集。首先,我们从所有图库集中输入步态序列到提出的网络中生成特征表示,作为标准视图集。然后,将探针集中的每个步态序列输入该网络进行特征表示。然后,该特征表示被用来计算标准视图集的所有表示的欧氏距离。与输入样本的距离最小的样本的标号被赋给输入样本。最后,我们计算平均精度来评估所提方法的性能。

实验结果

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积_12

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积_13

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_卷积_14

消融实验

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_3D_15

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition_3D_16