此方法涉及多媒体信息处理领域,包括计算机智能、模式识别、机器学习领域。
背景技术:
:人类的动作检测识别方法,在当今社会具有非常广泛的应用,例如:智能监控、人机交互的体感游戏、视频检索等等。基于RGB-D(彩色和深度)视频序列的人类动作检测识别,在当今计算机视觉领域尤其流行。相比较传统的RGB视频序列,RGB-D视频序列对光照的敏感程度更低,同时还具有更为丰富的三维信息。基于深度信息,许多传统方法在第三维方向上提出了扩展,也有许多新的特征被提取出来。骨骼序列,作为深度信息中提取出来的一种特征,目前被广泛认可。Kinect的SDK中已经能够根据深度序列以及彩色图像序列计算出相当准确的骨骼序列。因此,单纯基于骨骼序列的人类动作识别也具有很有发展的前景。近年来,卷积神经网络在计算机识别的领域中具有相当出色的表现,尤其在图片的分类方面。然而,如何采用卷积神经网络来处理基于视频的识别问题仍然是一个开放的课题。当前人们采用卷积神经网络进行人类动作检测识别的方法,主要分为两类:采用卷积神经网络直接处理编码后的视频序列、对视频进行处理,转换为图片再采用卷积神经网络进行学习分类。技术实现要素:本发明利用从Kinect摄像机输出的人类骨骼序列,提出一种具有良好分类识别能力的基于骨骼序列的动作识别方法。技术方案如下:一种基于骨骼序列的动作识别方法,包括下列步骤:1)对于一个骨骼序列,将所有的骨骼均根据三维信息投影到三个笛卡尔正交系的正面、侧面和顶面,生成骨骼分布图;2)通过颜色的变换在骨骼分布图中加入时间信息,方法如下:不同骨骼序列中,同一个时间段的骨骼节点,采用同一个颜色来表示;同一个骨骼序列的不同时间段,用不同的颜色来表示;对不同位置的骨骼采用不同的颜色渐变方式来表示时间信息;在同一个时刻,当颜色信息已经选取完成后,根据骨骼节点的运动速度,用不同的色度以及饱和度来完成对当前颜色的加权;3)利用卷积神经网络,对基于训练数据集生成的三个投影面上的加入时间信息的骨骼分布图,分别做卷积神将网络的模型训练;4)对于每一个测试样本,经过步骤2)的处理后,针对三个投影面的加入时间信息的骨骼分布图,根据训练好的三个卷积神经网络模型,计算出三个Scores向量;将三个投影面的Scores向量相加后,取最大值所在的类别作为该视频序列的从属类别。附图说明图1为整个基于骨骼序列的人类动作识别框架具体实施方式1)骨骼序列到图片的映射通过Kinect摄像机捕捉人类动作,在捕获的数据流中进行骨骼跟踪,得到包含多个骨骼节点的三维骨骼序列。假设一个骨骼序列共有n帧,每一帧都有m个骨骼节点被从深度图上抽取出来,用来表示第i帧的第j个骨骼节点的三维位置信息。整个视频序列中所有的骨骼均可以根据三维信息投影到三个笛卡尔正交系的三个平面上(正面、侧面、顶面)。这样的投影后,每一个骨骼序列都能得到三张黑白的描述该动作骨骼分布的图片。具有丰富的空间信息,然而并不具备时间信息的描述。为了令骨骼展现更完备的动作信息,本发明通过颜色的变换在骨骼分布图中加入时间信息。首先,不同序列中,同一个时间段的骨骼节点,采用同一个颜色来表示;同一个骨骼序列的不同时间段,用不同的颜色来表示。由此,不同的骨骼序列都能够在图片上通过颜色的变换,即展现了空间的分布状态,又展现了时间的先后顺序。其次,由于人体的骨骼整体上是左右对称的,且几乎所有动作中,躯干的骨骼运动幅度都格外少。本专利采用对不同位置的骨骼用不同的颜色渐变方式来表示时间信息。接下来以20个骨骼节点为例,对于属于左侧的骨骼序列K1(左肩、左肘、左腕、左手、左胯、左膝、左脚踝、左脚),采用由蓝至红的颜色变换;对于属于右侧的骨骼序列K2(右肩、右肘、右腕、右手、右胯、右膝、右脚踝、右脚),采用由红至蓝,与左侧完全相反的颜色变换;而针对属于躯干部分的骨骼序列K3(头、颈、躯干、中央胯骨),采用由浅灰至灰色的色彩变换。最后,考虑到骨骼具有不同的速度,对于人类的运动,往往运动幅度大的部位,即关节点运动速度快的部位,具有更为有价值的能够表征动作的信息,因此,在同一个时刻,当颜色信息已经选取完成后,我们根据骨骼节点的运动速度,用不同的色度以及饱和度来完成对当前颜色的加权。以上工作均在给定骨骼序列根据以下公式,在HSV彩色空间表示出对骨骼节点的颜色选取。H(j,i)=in×(hmax-hmin)+hmin,j∈K1hmax-in×(hmax-hmin),j∈K20,j∈K3]]>S(j,i)=vjimax(v)×(Smax-Smin)+Smin,j∈K1,K20,j∈K3]]>V(j,i)=vjimax(v)×(bmax-bmin)+Smin,j∈K1,K2bmax-in×(bmax-bmin),j∈K3]]>其中H(j,i),S(j,i),V(j,i)分别代表HSV彩色空间中的色度、饱和度、明度的取值,表示第j个骨骼节点在第i帧的速度,max{v}表示整个骨骼序列中骨骼节点的最大值,hmin,hmax,Smin,Smax,bmin,bmax分别代表HSV空间中色度、饱和度、明度的取值范围边界值,在本发明中,均采用HSV彩色空间的色度、饱和度及明度的最大取值范围。2)利用深度学习进行图片分类,从而完成人类的动作检测识别任务。在这里,我们采用当今公用的深度学习框架Caffe,在Linux系统下,通过NvidiaGTXTITANX显卡进行卷积神经网络训练的加速,采用该工具箱中AlexNet的网络结构对经过颜色变换的彩色骨骼分布图片进行训练。采用数据集中的训练数据集,在求得三方向骨骼分布图后,分别进行三个卷积神经网络的参数训练对于每一个测试数据集中的视频序列,针对三个投影面的骨骼分布图,根据训练好的三个卷积神经网络模型,计算出三个Scores向量。该向量为图片从属对应类别的归一化概率,向量长度为训练类模型时的类别总数。将三个方向的Scores向量相加后,取最大值所在的类别作为该视频序列的从属类别。下面为本发明在MSRC-12、G3D、UTD-MHAD等数据集上的实验结果说明:在Matlab-2013b平台上进行算法的仿真实现,计算出了训练数据集以及测试数据集的三方向骨骼轨迹图片。我们采用当今公用的深度学习框架Caffe,在Linux系统下,通过NvidiaGTXTITANX显卡进行卷积神经网络训练的加速。最后的Scores综合部分依然在Matlab-2013b平台上完成。本方法在国际公认的人类动作识别数据集中进行测试,数据集中训练集以及测试集的分配方式采用CrossSubject分配方式。测试结果如下:在包含12类动作的MSRC-12数据集上,获得了94.27%的识别准确率;在包含20类动作的G3D数据集上,获得了95.45%的识别准确率;在包含27类动作的UTD-MHAD数据集上,获得了86.97%的识别精度。该实验结果对比与国际领先的基于骨骼序列的人类动作检测识别算法,均取得了高于其余算法的分类准确度。当前第1页1 2 3