图像识别过程分为图像处理和图像识别两个部分。
图像处理部分内容参考此篇:图像识别过程(以下图像识别内容同样参考本篇)
图像识别将图像处理得到的图像进行特征提取和分类。识别方法中基本的也是常用的方法有统计法(或决策理论法)、句法(或结构)方法、神经网络法、模板匹配法和几何变换法。
1)统计法(StatisticMethod)
该方法是对研究的图像进行大量的统计分析,找出其中的规律并提取反映图像本质特点的特征来进行图像识别的。它以数学上的决策理论为基础,建立统计学识别模型,因而是一种分类误差最小的方法。常用的图像统计模型有贝叶斯(Bayes)模型和马尔柯夫(Markow)随机场(MRF)模型。但是,较为常用的贝叶斯决策规则虽然从理论上解决了最优分类器的设计问题,其应用却在很大程度受到了更为困难的概率密度估计问题的限制。同时,正是因为统计方法基于严格的数学基础,而忽略了被识别图像的空间结构关系,当图像非常复杂、类别数很多时,将导致特征数量的激增,给特征提取造成困难,也使分类难以实现。尤其是当被识别图像(如指纹、染色体等)的主要特征是结构特征时,用统计法就很难进行识别。
2)句法识别法(Syntactic Recognition)
该方法是对统计识别方法的补充,在用统计法对图像进行识别时,图像的特征是用数值特征描述的,而句法方法则是用符号来描述图像特征的。它模仿了语言学中句法的层次结构,采用分层描述的方法,把复杂图像分解为单层或多层的相对简单的子图像,主要突出被识别对象的空间结构关系信息。模式识别源于统计方法,而句法方法则扩大了模式识别的能力,使其不仅能用于对图像的分类,而且可以用于对景物的分析与物体结构的识别。但是,当存在较大的干扰和噪声时,句法识别方法抽取子图像(基元)困难,容易产生误判率,难以满足分类识别精度和可靠度的要求。
3)神经网络方法(NeuralNetwork)
该方法是指用神经网络算法对图像进行识别的方法。神经网络系统是由大量的,同时也是很简单的处理单元(称为神经元),通过广泛地按照某种方式相互连接而形成的复杂网络系统,虽然每个神经元的结构和功能十分简单,但由大量的神经元构成的网络系统的行为却是丰富多彩和十分复杂的。它反映了人脑功能的许多基本特征,是人脑神经网络系统的简化、抽象和模拟。句法方法侧重于模拟人的逻辑思维,而神经网络侧重于模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程,与符号处理是一种互补的关系。由于神经网络具有非线性映射逼近、大规模并行分布式存储和综合优化处理、容错性强、独特的联想记忆及自组织、自适应和自学习能力,因而特别适合处理需要同时考虑许多因素和条件的问题以及信息不确定性(模糊或不精确)问题。在实际应用中,由于神经网络法存在收敛速度慢、训练量大、训练时间长,且存在局部最小,识别分类精度不够,难以适用于经常出现新模式的场合,因而其实用性有待进一步提高。
4)模板匹配法(TemplateMatching)
它是一种最基本的图像识别方法。所谓模板是为了检测待识别图像的某些区域特征而设计的阵列,它既可以是数字量,也可以是符号串等,因此可以把它看为统计法或句法的一种特例。所谓模板匹配法就是把已知物体的模板与图像中所有未知物体进行比较,如果某一未知物体与该模板匹配,则该物体被检测出来,并被认为是与模板相同的物体。模板匹配法虽然简单方便,但其应用有一定的限制。因为要表明所有物体的各种方向及尺寸,就需要较大数量的模板,且其匹配过程由于需要的存储量和计算量过大而不经济。同时,该方法的识别率过多地依赖于已知物体的模板,如果已知物体的模板产生变形,会导致错误的识别。此外,由于图像存在噪声以及被检测物体形状和结构方面的不确定性,模板匹配法在较复杂的情况下往往得不到理想的效果,难以绝对精确,一般都要在图像的每一点上求模板与图像之间的匹配量度,凡是匹配量度达到某一阈值的地方,表示该图像中存在所要检测的物体。经典的图像匹配方法利用互相关计算匹配量度,或用绝对差的平方和作为不匹配量度,但是这两种方法经常发生不匹配的情况,因此,利用几何变换的匹配方法有助于提高稳健性。
5)典型的几何变换方法主要有霍夫变换HT (Hough Transform)。
霍夫变换是一种快速形状匹配技术,它对图像进行某种形式的变换,把图像中给定形状曲线上的所有点变换到霍夫空间,而形成峰点,这样,给定形状的曲线检测问题就变换为霍夫空间中峰点的检测问题,可以用于有缺损形状的检测,是一种鲁棒性(Robust)很强的方法。为了减少计算量和和内存空间以提高计算效率,又提出了改进的霍夫算法,如快速霍夫变换(FHT)、自适应霍夫变换(AHT)及随机霍夫变换(RHT)。其中随机霍夫变换RHT(RandomizedHough Transform)是20世纪90年代提出的一种精巧的变换算法,其突出特点不仅能有效地减少计算量和内存容量,提高计算效率,而且能在有限的变换空间获得任意高的分辨率。