词义消歧 python 词义消歧算法

转载

mob64ca13f8eecb 2024-05-16 11:00:47

文章标签 词义消歧 python 自然语言处理人工智能 nlp 互信息 文章分类 Python 后端开发

自然语言处理总复习（五）—— 词义消歧

一、相关概念与预备知识

（一）词义消歧

1. 定义
2. 词义消歧需要解决的三个问题
3. 应用

（二）预备知识

1. 有监督学习和无监督学习
2. 伪词
3. 算法效能评估 —— 上界和下界

二、有监督的消歧方法

（一）基于贝叶斯分类的词义消歧

1. 概念介绍及准备工作
2. 计算公式推导
3. 词义排歧算法（Disambiguation）

（二）基于互信息的词义消歧

1. 核心思想
2. flip-flop算法

（1）算法描述
（2）算法应用举例

（一&二）贝叶斯方法和互信息方法的比较
（三）基于词典的词义消歧

1. 核心原理
2. 算法描述
3. 算法伪代码
4. 算法示例
5. 算法总结

（四）基于义类词典的消歧

1. 相关概念
2. 方法过程步骤

（五）基于第二语料库翻译的消歧

1. 相关概念
2. 举例

三、有监督的消歧方法总结
四、无监督的消歧方法

（一）EM算法（Expectation-Maximization）

1. 概念
2. 算法流程

一、相关概念与预备知识

（一）词义消歧

1. 定义

（Word sense disambiguation, WSD）
确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。

2. 词义消歧需要解决的三个问题

词义消歧 python 词义消歧算法_nlp

3. 应用

词义消歧 python 词义消歧算法_人工智能_02

（二）预备知识

1. 有监督学习和无监督学习

词义消歧 python 词义消歧算法_互信息_03

2. 伪词

词义消歧 python 词义消歧算法_nlp_04

3. 算法效能评估 —— 上界和下界

词义消歧 python 词义消歧算法_nlp_05

二、有监督的消歧方法

（一）基于贝叶斯分类的词义消歧

1. 概念介绍及准备工作

词义消歧 python 词义消歧算法_人工智能_06

2. 计算公式推导

词义消歧 python 词义消歧算法_nlp_07

为了防止取值在 (0, 1) 范围内的数连乘趋近于0，加入log函数进行平滑：

词义消歧 python 词义消歧算法_互信息_08

3. 词义排歧算法（Disambiguation）

for all sense s_i of w do:
	score(s_i) = log(P(s_i))
	for all words w_j in the context of w do:
		score(s_i) += log(P(w_j | s_i))
	end
end
choose s' = arg(s_i) max score(s_i)

$词义消歧 python 词义消歧算法_nlp_09$

计算举例

词义消歧 python 词义消歧算法_人工智能_10

（二）基于互信息的词义消歧

1. 核心思想

词义消歧 python 词义消歧算法_互信息_11

2. flip-flop算法

（1）算法描述

词义消歧 python 词义消歧算法_自然语言处理_12

（2）算法应用举例

词义消歧 python 词义消歧算法_自然语言处理_13

词义消歧 python 词义消歧算法_词义消歧 python_14

（一&二）贝叶斯方法和互信息方法的比较

词义消歧 python 词义消歧算法_词义消歧 python_15

（三）基于词典的词义消歧

1. 核心原理

上下文词汇的语义范畴 <—互相决定影响—> 上下文的语义范畴
词典中词条本身的定义就可以作为判断其语义的一个很好的依据条件

2. 算法描述

词义消歧 python 词义消歧算法_互信息_16

3. 算法伪代码

词义消歧 python 词义消歧算法_nlp_17

4. 算法示例

词义消歧 python 词义消歧算法_自然语言处理_18

5. 算法总结

用词典资源进行词义排歧，是利用词典中对多义词的各个义项的描写，而这些描写是在语言学家观察了多义词的不同使用情况后概括归纳，抽象总结的结果。只不过跟实际语料不同的是，它是以一种概括的方式在描写词义，而语料库是以具体可感知的大量重复的实例本身在描写词义。
由于词典释义的概括性，这种方法应用于实际语料中多义词的排歧，效果不理想。