中文识别ocr python 中文识别模式

转载

mob64ca14040d22 2023-11-30 18:18:11

文章标签 中文识别ocr python 算法机器学习人工智能自然语言处理 文章分类 Python 后端开发

写在前面

今天要跟大家分享的是西湖大学张岳老师2018年发表在顶会ACL上的一篇中文实体识别论文 Lattice LSTM。

增强中文NER的开篇之作，并且思路清晰，创新有理有据。

本篇文章主要内容将围绕下图中的两点展开：

中文识别ocr python 中文识别模式_人工智能

1. 基于序列标注的实体识别所存在的问题

如下图，这部分主要包含两个内容，即：经典的 LSTM-CRF 实体识别模型及该类模型所存在的问题。

中文识别ocr python 中文识别模式_自然语言处理_02

1.1 经典LSTM-CRF模型

实体识别通常被当作序列标注任务来做，序列标注模型需要对实体边界和实体类别进行预测，从而识别和提取出相应的命名实体。在BERT出现以前，实体识别的SOTA模型是LSTM+CRF，模型本身很简单：

首先利用嵌入方法将句子中的每个token转化为向量再输入LSTM（或BiLSTM）；
然后使用LSTM对输入的信息进行编码；
最后利用CRF对LSTM的输出结果进行序列标注。

中文识别ocr python 中文识别模式_中文识别ocr python_03

LSTM+CRF 用在中文NER上，又可进一步分为两种：若token是词，那么模型就属于Word-based model；若token是字，那么模型就属于Character-based Model。

( 注：BERT+LSTM+CRF主要是将嵌入方法从Word2vec换成了BERT。)

1.2 误差传播与歧义问题

中文识别ocr python 中文识别模式_机器学习_04

Word-based model存在误差传递问题

Word-based model 做实体识别需要先分词，然后再对词序列进行实体识别即词序列标注。词汇的边界决定了实体的边界，因此一旦出现分词错误就会影响实体边界的判定。比如上图中，利用分词工具，“东莞台协” 和 ”会长“ 被拆分成了“东莞”、“台”、”协会长“，最终导致 ”东莞台“ 被识别为了GPE。换句话说，Word-based model 具有和其他两阶段模型同样的误差传递问题。

Character-based model存在歧义问题

既然分词会有问题，那就不分词。Character-based model 直接在字的粒度上进行实体识别即字序列标注。许多研究工作表明，在中文NER上基于字的方法优于基于词的方法。但是，相比词单字不具备完整语义。没有利用句子里的词的信息，难以应对歧义问题，识别结果可能差强人意。如上图，“会” 字本来应该和 “长” 一起组成 “会长” ，但是最终模型却将 “会” 与 “东莞台协” 视为一个语块儿，并将 “东莞台协会” 预测为ORG。

1.3 思考

中文识别ocr python 中文识别模式_算法_05

既然 Character-based model、Word-based model 各有优缺点，那是否可以结合二者进行互补呢？换句话说，我们在Character-based model里加入词信息，这样是不是就可以既利用了词信息，又不会因为分词错误影响识别结果呢？实际上，Lattice LSTM正是这样做的。接下来我们一起跟随文章的后续内容来学习Lattice LSTM。

2. 模型细节

这一节我们首先会介绍最简单的词信息利用方方法，然后再对Lattice LSTM进行详细介绍。

中文识别ocr python 中文识别模式_人工智能_06

2.1 简单直接的拼接法

中文识别ocr python 中文识别模式_算法_07

如上图所示，最容易想到同时也是最简单的词信息利用方法就是直接拼接词表征与字向量或者直接拼接词表征与LSTM的输出。16年的论文《A Convolution BiLSTM Neural Network Model for Chinese Event Extraction》^[1]就采用了这样的方法构建了中文事件抽取模型，其模型结构如下图所示：

中文识别ocr python 中文识别模式_算法_08

当然这里词表征可通过Word2Vec、Glove等词向量模型获得。也可以如16年的那篇事件抽取论文一样利用CNN进一步卷积获得更上层的 Local Context features，再将其拼接到模型中：

中文识别ocr python 中文识别模式_算法_09

当然这不是本文的重点，我们关注的是 Lattice LSTM是如何引入词信息的。

2.2 Lattice 与潜在词

中文识别ocr python 中文识别模式_算法_10

Lattice LSTM 模型结构如上图右侧所示。在正式开始介绍 Lattice LSTM 前，我们先来看看上图左半部分。

(1) Lattice LSTM 名字来由

我们可以发现在上图左侧所示网络中，除主干部分 基于字的LSTM 外，还连接了许多「格子」，每个「格子」里各含有一个潜在的词，这些潜在词所含有的信息将会与主干LSTM中相应的 Cell 融合，看起来像一个「网格（Lattice）」。所以论文模型的名字就叫做 Lattice LSTM，也就是有网格结构的LSTM模型。

(2) 词典匹配获得潜在词

网格中的这些潜在词是通过匹配输入文本与词典获得的。比如通过匹配词典， “南京市长江大桥”一句中就有“南京”、“市长”，“南京市”，“长江”，“大桥“，“长江大桥”等词。

(3) 潜在词的影响

首先，“南京市长江大桥” 一句的正确结果应当是 “南京市-地点”、“长江大桥-地点”。如果我们直接利用 Character-based model 来进行实体识别，可能获得的结果是：“南京-地点”、“市长-职务”、“江大桥-人名”。现在利用词典信息获得了文本句的潜在词：“南京”、“市长”，“南京市”，“长江”，“大桥“，“长江大桥” 等潜在词。其中，“长江”、“大桥” 与 “长江大桥” 等词信息的引入有利于模型，可以帮助模型避免犯 “江大桥-人名” 这样的错误；而 “市长” 这个词的引入却可能会带来歧义从而误导模型，导致 “南京-地点”，“市长-职务” 这样的错误。

换句话说，通过词典引入的词信息有的具有正向作用，有的则不然。当然，人为去筛除对模型不利的词是不可能的，所以我们希望把潜在词通通都丢给模型，让模型自己去选择有正向作用的词，从而避免歧义。Lattice LSTM 正是这么做的：它在Character-based LSTM+CRF的基础上，将潜在词汇信息融合进去，从而使得模型在获得字信息的同时，也可以有效地利用词的先验信息。

2.3 Lattice LSTM 模型细节

中文识别ocr python 中文识别模式_人工智能_11

如上图所示，Lattice LSTM模型的主干部分是基于字的LSTM-CRF（Character-based LSTM+CRF）：

若当前输入的字在词典中不存在任何以它结尾的词时：主干上Cell之间的传递就和正常的LSTM一样。也就是说，这个时候Lattice LSTM退化成了基本LSTM。
若当前输入的字在词典中存在以它结尾的词时：需要通过红色Cell （见2.2节图右侧）引入相关的潜在词信息，然后与主干上基于字的LSTM中相应的Cell进行融合。

接下来，我们先简单展示下 LSTM的基本单元，再介绍 红色Cell，最后再介绍信息融合部分。

2.3.1 LSTM 单元

中文识别ocr python 中文识别模式_自然语言处理_12

上图左侧展示了一个LSTM 单元(Cell)的内部结构，右侧展示了Cell的计算过程。在每个Cell 中都有三个门控，即输入门、遗忘门和输出门。如上图右侧计算公式所示，这三个门实际上是0～1的小数，其值是根据当前时刻输入和前一时刻 Cell 的输出的hidden state 计算得到的：

输入门：决定当前输入有多少可以加入 Cell State ，即；
遗忘门：决定 Cell State要保留多少信息，即。
输出门：决定更新后的 Cell State有多少可以被输出，即。

纯粹的基于字的LSTM可以完全基于上述计算过程去计算，而Lattice LSTM则有所不同。

2.3.2 红色Cell

前面我们提过「如果当前字在词典中存在以它结尾的词时，需要通过红色Cell引入相关潜在词信息，与主干上基于字的LSTM中相应Cell进行融合」。以下图中 "市" 字为例，句子中潜在的以它结尾的词有："南京市"。所以，对于"市"字对应的Cell 而言，还需要考虑 “南京市” 这个词的信息。

中文识别ocr python 中文识别模式_算法_13

红色Cell的内部结构与主干上LSTM的Cell很类似。接下来，我们具体来看下 红色Cell 内部计算过程。

(1) 红色Cell 的输入

中文识别ocr python 中文识别模式_自然语言处理_14

与上图左侧LSTM的Cell对比，上图右侧 红色Cell 有两种类型的输入：

潜在词的首字对应的LSTM单元输出的Hidden State 以及Cell State
潜在词的词向量 。

(2) 红色Cell 的输出

中文识别ocr python 中文识别模式_人工智能_15

可以发现，因为序列标记是在字级别，所以与左侧 LSTM 的 Cell 相比，红色Cell 没有输出门，即它不输出hidden state。

以“市”字为例，其潜在词为“南京市“，所以、来自于"南”字，代表“南京市”的词向量，红色Cell 内部具体计算过程如下图右侧所示：

依托 “南” 字的 hidden state 与 “南京市” 的词向量计算输入门、遗忘门以及状态更新量：
依托 “南” 字的 Cell state 、与 “南京市” 相关的状态更新量计算 “南京市“ 的 Cell State :

最终 红色Cell 只会向 "市" 字传递 Cell State 。

2.3.3 信息融合

（1）潜在词的输入门

现在对于主干上的 Cell 来说，除状态更新量外，还多了一个来自潜在词的 Cell State 。潜在词的信息不会全部融入当前字的 Cell，需要进行取舍，所以 Lattice LSTM 设计了额外的输入门 ，其计算如下：

402 Payment Required

(2) 加权融合

前面我们举的例子中都只有一个潜在词。但实际上，对部分字来说可能会在词典中匹配上很多词，例如 “桥” 这个字就可以在词典中匹配出 “大桥” 和 “长江大桥” 。为了将这些潜在词与字信息融合，Lattice LSTM做了一个类似Attention的操作：

中文识别ocr python 中文识别模式_机器学习_16

简单地说，就是当前字相应的输入门和所有以当前字为尾字的候选词的输入门做归一计算出权重，然后利用计算出的权重进行向量加权融合。

以 “桥” 字为例，它有两个潜在词，即 “长江大桥” 与 “大桥” 。那么对 “桥” 字而言，它会收到三对值，分别是：“桥” 字的输入门与状态；潜在词 "长江大桥" 相关的输入门与 Cell State ；潜在词 "大桥" 相关的输入门与 Cell State ，为了获得最终 “桥” 的 hidden State，需要经过如下计算：

"长江大桥" 的权重：

402 Payment Required

“大桥” 的权重：
“桥“ 的权重：

402 Payment Required

加权融合获得“ 桥“ 的 Cell state：

402 Payment Required

“桥“ 的 hidden state：

3. 实验

论文在Onto Notes、MSRA、微博NER、简历这4个数据集上进行了实验。从实验结果可以看出 Lattice LSTM 比其他对比方法有一定的提升。本文不深入探讨实验部分，感兴趣的读者可下载论文原文进行阅读。

中文识别ocr python 中文识别模式_机器学习_17

总结

今天我们分享了中文实体识别模型 Lattice LSTM，这是中文NLP领域非常重要的人物～张岳老师他们的工作。没记错的话，18年跟随导师参加NLPCC会议时，第一次见到张岳老师，深刻感觉张岳老师除了学术能力强以外，为人也非常真诚，很nice。

参考资料

[1]

《A Convolution BiLSTM Neural Network Model for Chinese Event Extraction》: https://eprints.lancs.ac.uk/id/eprint/83783/1/160.pdf

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：openstack aodh openstack aodh部署

下一篇：Android namespace 可以用多个吗 namespace有什么用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯