卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。 K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后,更多的科研工作者对该网络进行了改进。其中,具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”,该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。
一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
事实上,行为识别分为特征检测、局部特征或行为切片的描述、分类三大块。特征提取包含检测、描述,该技术广泛应用在计算机视觉、机器学习、人工智能、仿生学等领域,是这些领域的出发点及基石。近年来,机器学习、人工智能技术等广泛结合生物机理特征,大量研究者研究从人类理解、分析视觉特征的角度出发,研究了学习特征,该特征更加符合仿生生物识别过程。
l 设计滤波器(非学习的特征映射)例如空时兴趣点、块或时空兴趣点、云兴趣点等。但空时兴趣点、云兴趣点等都是同时涉及到空间和时间,属于三维特征(空时域),存在一个共同的潜在约束,即要求成像设备静止或轻微运动。对于复杂视频,要获取这些特征,需要图像匹配。
l 对于学习特征,事实上,是通过训练数据训练一组函数。
目前对映射函数的研究主要从线性映射角度研究,非线性映射能够取得较好图像特征,目前文献较少(1篇)。为了得到鲁棒性特征,通过线性学习后的特征如何用非线性映射或组合特征?在相关文献中,特征的非线性组合最多是采用特征池方法,但该方法受池的大小形状限制。ISA模型引入了子空间为2,池尺度为训练样本大小,形状同训练样本;TICA采用拓扑结构(结构大小人为定义或多次试验取最好的)组合成鲁棒性特征,总的来说这些方法受一定的约束准则限制。为了解决这个问题,有文献采用coupla技术(2012年最新一篇,文章分析不完整,无试验结果,只查到1篇文章用到特征组合),估计子空间,或者采用一种映射,将属于同一空间的特征映射到一起。
1)基于无监督的特征学习例如稀疏编码,是一种非模型算法。在学习特征时只考虑采用小的图像块局部结构,未考虑整幅图像或大的图像块的结构。最近看到一篇2012年文献从大的图像结构方面入手学习。
2)基于模型法的学习,主要以卷积网络为基础。
文献[目前基于ICA及扩展模型均是]学习的特征仍然是基于局部图像块,通过最小化第二层激活累加,特征正交化的约束,采用梯度下降法更新权重,滤波响应激活服从双正切、S型函数或别的分布函数(为学习多样性特征,采用正交化约束过于严格,损失过多图像特征)。(关于这种方法看到的文献均是权重正交化、卷积响应服从某一函数)TCNN网络引入了局部感知域,但仍然仅考虑感知域内,未考虑周围与感知域联系。
文献[]采用MRF的方法,从图像整体结构出发,学习特征,迫使特征多样性,若学习特征完备,学习的特征之间存在关联。该方法计算量大,需要引入采样使模型分布逼近训练数据分布,在图像降噪修复工作中去的较好的结果。
l 总结
目前基于上述方法检测到的特征,在wizman、KTH、ucf-sport中取得了较好识别精度,这些视频都在特定条件下拍摄。Hollywood 、Youtube这些视频识别精度较低,主要原因是这些数据库背景复杂,存在相机随机运动调焦,提取的特征不能很好的描述行为,或描述的行为引入了无关信息。为解决这些问题,可以考虑采用常规的图像匹配方法等或采用新的检测描述子,这方面仍然空白。