第1章 模式识别概述
1.1 模式识别的基本概念
模式识别(pattern recognition)是人类的一项基本智能,在日常生活中,人们经常进行“模式识别”。例如,在见到认识的人时,人们能辨别出他是张三还是李四,这是对人的形体及其他生物特征的识别行为;儿童在认读识字卡上的字母时,将它们区分为A~Z中的一个,这是对字母符号的识别;在与人交流时,人们能听出对方说话的意思,这是对语言的识别。随着人类社会活动及生产科研广泛而深入的发展,需要识别的对象种类越来越多,内容越来越复杂和深入,要求也越来越高。随着20世纪40年代计算机的出现以及20世纪50年代人工智能的兴起,人们当然也希望能用计算机来代替或扩展人类的部分脑力劳动,例如有些场合环境恶劣、存在危险或人们根本不能接近,这就需要借助机器、运用分析算法进行识别,于是,模式识别在20世纪60年代初迅速发展起来并成为一门新学科。
模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。模式识别又常称作模式分类。从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(supervised classification)和无监督的分类(unsupervised classification)两种。二者的主要差别在于,各实验样本所属的类别是否预先已知。一般来说,有监督的分类往往需要提供大量已知类别的样本,但在实际问题中,这是存在一定困难的,因此研究无监督的分类就变得十分有必要了。
模式识别研究的目的是利用计算机对物理对象进行分类,在错误率最小的条件下,使识别的结果尽量与客观物体相符合。计算机辨别事物最基本的方法是计算,即计算机对要分析的事物与标准模板的相似程度进行计算。例如,要识别一个手写的字母,就要将它与从A~Z的模板作比较,看哪个模板最相似或最接近。因此首先要能从度量中看出不同事物之间的差异,才能分辨当前要识别的事物,所以关键是找到能有效地度量异类事物的差异的方法。
为了本书后面章节中讨论方便,我们在这里把一些基本术语的含义约定一下。这些术语在其他文章或书籍中的含义和用法可能会略有不同,但只要参考上下文就不难明白其确切的含义。
- 样本(sample):按一定程序从总体中抽取的一个个体。
- 样本集(sample set):若干样本的集合。
- 类或类别(class):在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。
- 特征(feature):指事物可供识别的特殊的征象或标志,通常是数值表示的某些量化特征,有时也称为属性。如果存在多个特征,则它们就组成了特征向量。样本的特征构成了样本的特征空间,空间的维数就是特征的个数,而每一个样本就是特征空间中的一个点。某些情况下,对样本的元素描述可能是非数值形式的,此时通常需要采用一定的方法把这些特征转换成数值特征。
- 已知样本(known sample):指已经知道类别标号的样本。
- 未知样本(unknown sample):指类别标号未知但是特征已知的样本。