一般而言,表情识别系统主要有四个基本部分组成:

1.表情图像获取

2.表情图像预处理

3.表情特征提取

4.表情分类识别

他们对面部表情的研究可大致分为:表情预处理、面部特征提取、情感分类。通常其输入数据是静态图像或视频序列。

有的面部表情分析方法大致可分为两类:

典型的基于视觉特征的方法是动态文理识别的方法;

基于几何特征的方法包括面部成分的形状和位置特征、面部特征点的位置等。

这两种方法的区别主要在于特征的提取与描述方法不同。几何特征通常只考虑特征点的运动,而忽略了皮肤纹理变化提供的丰富信息、;另一方面,基于视觉特征的方法则容易受到光照和个体差异的影响。视觉特征的方法的优势在于该方法会生成细节信息,获得更好的识别精度,简单且性能良好。

 

 

CNN(convolutional neural network)是一种端到端(end to end)的模式,是人工神经网络(artificial neural network, ANN)的一种改进,其灵感来自研究猫的初级视觉皮层:简单细胞通过接受局部感受野特定边缘发出来的刺激作为响应,以此作为复杂细胞的输入。CNN最大的特点是局部连接性以及权值共享性。这使得网络参数减少,训练速度更快,且有一定的正则化效果。CNN是一个复杂的神经网络,损失函数是评价预测值与真实值之间吻合度的一个评估准则,常用的损失函数有Softmax分类器的互熵损失、hinge损失、L2范数损失、L1范数损失。CNN能解决非线性问题的关键是激活函数, 通过函数把“激活的神经元的特征”保留并映射出来,常用的激活函数有tanh、sigmoid、softsign、ReLU、LReLU等。为了防止网络层数过深造成的过拟合现象,增加其泛化能力,CNN一般需要进行正则化操作。常用正则化方法有数据扩增、dropout、L2正则化、dropconnect。另一方面,CNN采用pooling(池化层)操作最大限度的降低网络复杂度,让CNN保持一定的局部不变性,从而更加接近动物视觉皮层机制。

 

 

深度信念网络(deep belief network,DBN)基于受限玻尔兹曼机(restricted boltzmannmachine, RBM), 由一层反向前馈传播网络和深度RBM组成。RBM模型将前层输出作为后层输入,进行多个RBM层叠,而每层RBM都包含一个隐层与可见层,与BM(玻尔兹曼机)不同,RBM并没有连接每层的神经元,而是将隐层与可见层通过权值双向连接两层之间的节点。DBN的网络结构与人脑结构的认知过程类似,其对输入信号的提取特征为非监督、逐层抽象提取。DBN是一个从低到高的逐层自主学习过程,具有主动性、准确性的特点。不足是收敛速度慢,容易收敛到局部最优。

 

 

深度学习经过几年的发展,在表情识别领域已取得一定成果,Yu[54]构建一个9层CNNs结构,在最后一层连接层采用softmax分类器将表情分为7类,该模型在SFEW2.0数据集上识别率达到61.29%。Lopes[55]在CNN网络前加入预处理过程,探索预处理对精度的影响,最终识别率在CK+数据集上达到97.81%,且训练时间更短。Wang[56]采用softmax训练CNN模型,用triple损失函数调参,并且运用数据增强手段,将识别率提高2%,该模型对难以区分的类间表情(如生气和厌恶)表现优良。Zhao[57]融合MLP和DBN,将DBN无监督特征学习的优势和MLP的分类优势联系起来以提高性能。He[38]结合深度学习与传统机器学习,首先运用LBP/VAR提取初次特征,以初次特征作为DBN的输入实现分类。Li[58]为了解决DBN忽略图片局部特征的问题,将CS-LBP与DBN进行融合。深度学习发展至今,各种模型及其变体被提出,基本模型已不能满足性能需求,结合大量文献数据,人脸表情识别未来发展方向主要体现在提高网络深度、混合模型、与传统机器学习结合、迁移学习、无监督学习等方面,同时移动终端的开发也开始受到关注。

 

1) 深度学习是数据驱动的,带有标注的海量数据集是深度学习算法的基石,正因为有ImageNet这样百万量级且带有标签的数据,才有CNN在ILSVRC等大赛上的表现。但实际上,要构造一个海量且带有标注的数据库显得尤为困难,如何自动给海量无标记数据添加标签也是一个需要重视的方向。

2) 传统机器学习算法在小数据样本分析上占绝对优势,深度学习算法在小样本情况下易发生过拟合现象,如何将这两种现象折衷,创新出一种既能在小数据样本上表现良好,又能在大数据上表现优异的算法是人脸表情识别研究亟待解决的一个关键性问题。

3) 深度学习虽在人脸表情等分类领域具有优良的性能,但目前其理论知识尚不完备,大多数学者都是通过调参的方法去提高识别率,把深度学习当作一个黑匣子使用,如何用理论知识指导实践,用实践促进理论知识的理解是研究者需要解决的。

4) 虽然深度学习在训练好模型之后,识别效率很快,但是在训练阶段是一个漫长的过程,即便采用GPU等硬件加速,对于更深层网络,更海量的数据下训练模型,往往需要花费研究者数天或者更长时间的训练。

5) 表情区分不够细致,目前大部分表情库仍以高兴、悲伤、惊奇、愤怒、厌恶、恐惧、中性等7种基本表情为主,很少有包含更多细微表情的数据库,这成为人机交互走向更加智能化道路的一道阻碍。

综上所述,如何处理与理解深度学习与传统机器学习的关系,取长补短,是未来人脸表情识别研究的重点与方向。

 

 

 

人脸表情识别未来发展方向主要体现在提高网络深度、混合模型、与传统机器学习结合、迁移学习、无监督学习等方面,同时移动终端的开发也开始受到关注。

 

---------2018/8/7