二、语言模型

    语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。因此,统计语言模型出现了,并且得到了广泛的应用,统计语言模型是基于概率的,包括了N元文法模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)。

1.统计语言模型的基本原理

w1,w2,…,wk顺序构成,则句子S的概率为下: 
 
p(s)=p(w1)p(w2|w1)…p(wn|w1,w2,…,wn−1)=∏i=1np(wi|w1,w2,…,wi−1)(1)


且,上式中约定

p(w1|w0)=p(w1).观察上式可以发现,句子S的概率计算是很复杂的,因此,往往采用一些方法来估计语料库中句子的概率。

2.主要的统计语言模型

2.1 上下文无关模型

w1的出现与它所处的环境无关,仅仅是它在语料中出现的概率,即它是n-gram中n=1的情况,但是实际上,这种方法效果并不是很好。

2.2 n-gram模型

w1出现的是依赖于它之前的n-1个词的,即需要计算词表中的每一个n-1元组的概率,此计算量是巨大的,因此实际中,常取n=2 或n=3.

2.3 暂时记录在此

隐马尔科夫模型(Hidden Markov Model,简称HMM)和最大熵模型(Maximum Entropy Model)暂时还没有深入研究,暂时记录下来,以后进行补充。