语言模型在信息检索中的应用

 

背景

聂建云博士是加拿大蒙特利尔大学(University of Montreal, Canada)的教授,主要研究方向是信息检索,自然语言处理等。6日上午,聂博士接受邀请,为计算机学院做了一次报告,主题为Integrating Term Relationships into Language Models for Information Retrieval目前很多学者致力于统计模型的研究。语言模型在信息检索中的应用从1998年开始。我们实验室开始关注语言模型方法在信息检索的应用。这次有机会听到聂博士的报告,对于我们理解语言模型有非常大的帮助。

 

听讲座期间,我做了一些笔记。

 

基于语言模型的信息检索

语言模型

语言模型(Language Model, LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。

语言模型最开始诞生在语音识别领域,识别给定的语音信号对应的词序列。语言模型的基本原理是

 

   其中hi表示历史信息。随着hi

一元模型(Unigram)、二元模型(Bigram)、三元模型(Trigram)

在实际中应用模型的时候,有一个取舍问题:

 

History

Short

Long

Modeling

Corse

Refined

Estimation

Easy

Difficult

 

根据资源规模和模型细致程度选择。

 

参数估计

模型的参数估计一般采用极大似然估计(Maximum Likilihood Estimation, MLE),不过MLE有一个问题,那就是对出现的项估计很好,对于没有出现的项,则认为是概率为0的实践。如果直接采用MLE估计参数,效果可能会很不好。平滑(smoothing)MLE的问题而提出的。Smoothing技术思想就是调整一下概率的分布,给语料中没有出现的项(认为是“事件”)一个小但不为零概率,降低语料中出现次数比较多的项的概率。

 

平滑技术

平滑常用的方法有多种。

 

调整出现概率的平滑方法:

Laplace smoothing( add-one smoothing )

Good-Turing smoothing

 

以低阶模型相结合的方法:

Backoff (Katz)

Interpolation (Jelinek-Mercer)

 

其他方法:

Combined with corpus

Dirichlet

Two-stage

 

语言模型在信息检索中的应用

目前在IR(Information Retrieval)中应用LM(Language Model),基本原理有4

 

原理 1

Document D

Language model P(w|MD)

Query Q

Sequence of words q1,q2,..,qn (uni-grams)

Matching

P(Q|MD)

 

原理2

Document D

Language model P(w|MQ)

Query Q

Sequence of words d1,d2,..,dn

Matching

P(Q|MQ)

 

原理3

Document D

Language model P(w|MD)

Query Q

Language model P(w|MQ)

Matching

Comparison between P(w|MD) and P(w|MQ)

 

原理4(翻译模型)

 

Translate D to Q

 

原理1提出的,为经典的LM中的应用。平滑中可能出现的问题:

文章太短(Short document)

MDMD)

没有出现的词(Unseen words)

 

[Ponte&Croft 1998]原理2的包含信息太少,建立LM原理4P(qi|wj)。

 

语言模型小结

Can a query be generated from adocument model?

Does a document become morelikely when a query is submitted (or reverse)?

Is a query a "translation" of a document?

Smoothing is crucial

Often use uni-grams

 

语言模型对信息检索的贡献

有良好的理论框架(Well founded theoretical framework)

有大量的可用数据(Exploit the mass of data available)

概率估计的参数平滑技术(Techniques of smoothing for probability estimation)

能够通过平滑解释一些经验和启发式方法(Explain some empirical and heuristic methods by smoothing)

令人兴奋的试验结果(Interesting experimental results)

使用LM的IR一些问题

 

目前LM方法在IR,没有其他知识的情况下,系统不能预测到这是和computer和bi-gram[1] 这里应用了一个隐马尔科夫假设。