1 基本概念

  结构模式识别: 以结构基元为基础,利用模式的结构信息完成分类的过程,称为结构模式识别。
  基元: 构成模式结构信息的基本单元,本身不包含有意义的结构信息。

结构化标签 NLP 结构化识别_相似性度量


  结构特征的表达:

  (1)串表达:是把任意结构,用基元彼此连接形成一个序列进行描述。一维的;

  (2)图表达:把模式的结构看成基元之间的相互连接,基元作为节点,基元与基元之间的链接作为边,模式结构就可以用一个图来表达。图表达能力比串更强(图论),图的缺陷是两个图之间的相似性度量无论从定义上还是从算法上、工程实现上都是一个困难问题。

结构化标签 NLP 结构化识别_相似性度量_02


  结构模式识别与统计模式识别:

  都是通过样本的相似性进行识别

结构化标签 NLP 结构化识别_结构化标签 NLP_03


  虽然结构模式识别在早期已经提出,但是对于一个样本的基元提取,和对一个类别共同结构特征的归纳都特别困难,所以结构模式识别没能得到发展和应用。

2 算法思路

  一个样本的结构特征,在确定了基元之后,可以使用串表达,或者使用图表达

  (1)图表达

  当使用图来表达样本结构特征时,结构相似性度量变为图相似性度量,图内部的节点及其相互连接关系,可以用邻接矩阵来表示。通过计算两个矩阵在某些特性上的相似度,作为两个模式结构上的相似度,由于图的规模不同、存在同构变化,确定相似的定义非常困难,没有理想指标。

结构化标签 NLP 结构化识别_相似性度量_04


  (2)串表达

  用基元代码构成的串来表达样本结构特征。

  用字符串之间的编辑距离度来度量两个结构之间的相似性。

结构化标签 NLP 结构化识别_结构模式识别_05