摘要:

本文对基于视频的人脸表情识别做了如下几个方面的探究,包括:

(1)一种新的特征描述符,并融合多个特征,用于视频中的面部表情识别;

(2)一种基于LSTM的处理视频中面部表情的模型,并在此基础上融合外观特征和几何特征两个LSTM模型以识别面部表情的方法.第一项研究中,提出一种新的特征和多内核学习的应用,以结合多种特征进行视频中的面部表情识别.提出了一种新的特征描述符,称为"来自三个正交平面的定向梯度直方图"(HOG-3D),以表征面部外观变化.还提出了一种新的高效几何特征来捕获面部轮廓变化,并且探讨了音频的方法在情感识别中的作用.多特征融合可用于最佳地组合不同特征.实验结果表明,与近来的其他方法相比,该方法在实验室控制的环境下和户外环境下处理关于视频的面部表情识别问题时都是十分有效的.第二项研究是两个单独的人脸分析系统的融合模型,这两个系统都使用长短记忆(LSTM)网络,分别是基于视频的人脸验证模型(3L Model)和自发的面部表情识别模型(CL Model);开发基于LSTM的模型以提取面部表情的时间空间特征,分别来源于视频表情数据的外观和几何特征.在此基础上,分别使用两个LSTM面部表情识别模型进行加权融合.LSTM1的输出基于输入图像序列的外观特征,而LSTM2的输出基于输入图像序列的几何特征.该方法在在面部表情数据库CK+,JAFFE,FER2013,MMI,BP4D进行了表情检测的实验.实验结果与之前的研究数据相对比,证明了所提出新方法的有效性.