大语言模型文本摘要语言模型的应用

转载

话不是这么说的 2024-04-01 11:08:47

文章标签 大语言模型文本摘要领域模型 D语言云计算框架 文章分类 copilot AIGC

语言模型在信息检索中的应用

背景

聂建云博士是加拿大蒙特利尔大学(University of Montreal, Canada)的教授，主要研究方向是信息检索，自然语言处理等。6日上午，聂博士接受邀请，为计算机学院做了一次报告，主题为Integrating Term Relationships into Language Models for Information Retrieval目前很多学者致力于统计模型的研究。语言模型在信息检索中的应用从1998年开始。我们实验室开始关注语言模型方法在信息检索的应用。这次有机会听到聂博士的报告，对于我们理解语言模型有非常大的帮助。

听讲座期间，我做了一些笔记。

基于语言模型的信息检索

语言模型

语言模型(Language Model, LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。

语言模型最开始诞生在语音识别领域，识别给定的语音信号对应的词序列。语言模型的基本原理是

其中h_i表示历史信息。随着h_i

一元模型(Unigram)、二元模型(Bigram)、三元模型(Trigram)

在实际中应用模型的时候，有一个取舍问题：

History	Short	Long
Modeling	Corse	Refined
Estimation	Easy	Difficult

根据资源规模和模型细致程度选择。

参数估计

模型的参数估计一般采用极大似然估计(Maximum Likilihood Estimation, MLE)，不过MLE有一个问题，那就是对出现的项估计很好，对于没有出现的项，则认为是概率为0的实践。如果直接采用MLE估计参数，效果可能会很不好。平滑(smoothing)MLE的问题而提出的。Smoothing技术思想就是调整一下概率的分布，给语料中没有出现的项(认为是“事件”)一个小但不为零概率，降低语料中出现次数比较多的项的概率。

平滑技术

平滑常用的方法有多种。

调整出现概率的平滑方法：

Laplace smoothing( add-one smoothing )

Good-Turing smoothing

以低阶模型相结合的方法：

Backoff (Katz)

Interpolation (Jelinek-Mercer)

其他方法：

Combined with corpus

Dirichlet

Two-stage

语言模型在信息检索中的应用

目前在IR(Information Retrieval)中应用LM(Language Model)，基本原理有4

原理 1

Document D	Language model P(w\|M_D)
Query Q	Sequence of words q₁,q₂,..,q_n (uni-grams)
Matching	P(Q\|M_D)

原理2

Document D	Language model P(w\|M_Q)
Query Q	Sequence of words d₁,d₂,..,d_n
Matching	P(Q\|M_Q)

原理3

Document D	Language model P(w\|M_D)
Query Q	Language model P(w\|M_Q)
Matching	Comparison between P(w\|M_D) and P(w\|M_Q)

原理4(翻译模型)

Translate D to Q

原理1提出的，为经典的LM中的应用。平滑中可能出现的问题：

文章太短(Short document)

M_DM_D)

没有出现的词(Unseen words)

[Ponte&Croft 1998]原理2的包含信息太少，建立LM原理4P(q_i|w_j)。

语言模型小结

Can a query be generated from adocument model?

Does a document become morelikely when a query is submitted (or reverse)?

Is a query a "translation" of a document?

Smoothing is crucial

Often use uni-grams

语言模型对信息检索的贡献

有良好的理论框架(Well founded theoretical framework)

有大量的可用数据(Exploit the mass of data available)

概率估计的参数平滑技术(Techniques of smoothing for probability estimation)

能够通过平滑解释一些经验和启发式方法(Explain some empirical and heuristic methods by smoothing)

令人兴奋的试验结果(Interesting experimental results)

使用LM的IR一些问题

目前LM方法在IR，没有其他知识的情况下，系统不能预测到这是和computer和bi-gram[1] 这里应用了一个隐马尔科夫假设。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：TensorFlow pb文件 tensorflow 保存pb文件

下一篇：Spring iocbean配置 spring ioc使用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

大语言模型 文本摘要 语言模型的应用

大语言模型 文本摘要 语言模型的应用

51CTO博客

大语言模型文本摘要语言模型的应用

大语言模型文本摘要语言模型的应用