解决模式识别问题两种方法:基于知识的,基于数据
基于知识的方法:
主要指的是从专家那里收集相应的知识,整理出描述特征与类别之间关系的准则,建立计算机推理系统,从而对未知的客体进行特征捕捉,识别与分类.
基于数据的方法:
收集一定数量的已知样本,用这些样本作为训练集来训练一定的模式识别机器,使之在训练后能够对未知样本进行分类.
监督模式识别与非监督模式识别:
监督学习:
我们已知要划分的类别,并且能够获得一定数量的类别已知的训练样本,这种情况下建立分类器的问题属于监督学习(supervised pattern recognition)
非监督学习:
在面对一对未知的对象时,我们试图要通过考察这些对象之间的相似性来把他们区分开,这种学习过程称作非监督学习,在统计学中通常称为聚类(clustering),所得到的类别也称作聚类(clusters).
模式识别系统举例子:
语音识别:
语音通过信号采集系统进入计算机,成为数字化的时间序列信号,经过预处理被分成相对独立的音素,每一种音速就是一个类.建立分类器需要两个阶段,i).设计阶段:用大量已知的语音信号来确定分类器模型中的一系列参数.ii).决策阶段:未知的语音信号经过与设计阶段同样的预处理后进入训练好的分类器,分类器给出语音的识别结果.
与其他模式识别不同,一段自然语音是由一系列连续的音速构成的,而不是一个个独立的因素,因此在语音识别系统中并不是单独对每一个音素进行分类,而是用一个更高一层的隐马尔科夫模型把相邻的音素联合起来考虑.
模式识别问题的典型构成:
处理监督模式识别问题的一般步骤:
分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关.
原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量.
特征提取与选择:为了更好的进行分类,需要算法对特征进行再提取和选择
分类器设计:选择一定的分类器,用已知样本进行分类器训练
分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测,预处理和特征提取与选择,用所涉及的分类器进行分类,必要时根据领域知识进行进一步的后处理
非监督模式识别问题:
分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到,如果可能,猜测可能的或希望的类别数目,分析给定数据或者可以观测的数据中哪些因素可能与聚类有关.
原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量
特征提取与选择:为了更好的进行聚类,可能需要采用一定的算法对特征进行再次提取与选择
聚类分析:选择一定的非监督模式识别方法,用样本进行聚类分析
结果解释:考察聚类的结果,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释,如果有新样本,把聚类结果用于新样本分类.