大语言模型做分类任务语言模型perplexity

转载

mob64ca1413c518 2024-04-26 16:25:00

文章标签 大语言模型做分类任务语言模型交叉熵深度学习 rnn 文章分类 copilot AIGC

说明：自己在看代码的时候，计算Perplexity的时候，都是通过交叉熵损失函数求指数得来的，一直很困惑，交叉熵不是用来衡量两个分布的差异程度，而Perplexity是计算一句话的概率，感觉两者相差很大，直到看到博主写的这篇博客，才恍然大悟，非常感谢博主。

总结：本质上perplexity 就是交叉熵的指数形式

语言模型评估

1.如何评估语言模型

Perplexity

一个语言模型表现更好好就是说它在测试集合表现更好，也就是说使得测试数据能有更高产生概率(assign a higher score to test data)

在这个基础上表征了这一特征，perplextiy越低则表示测试数据产生概率越高。

大语言模型做分类任务语言模型perplexity_语言模型

N起归一作用，在这里避免了长度偏见，较长句子会使得概率较小一些。

考虑

If P(w1,w2) = 1/16 (N = 2)

Then PP(W) = 4

If P(w1w2,w3,w4) = 1/16 (N = 4)

Then PP(W) = 2

如果使用ChainRule来表示

大语言模型做分类任务语言模型perplexity_rnn_02

更进一步如果是bigram的语言模型

大语言模型做分类任务语言模型perplexity_语言模型_03

考虑如果是一个uingram语言模型，词典对应（1,2,3,….10) 每个出现概率是1/10

那么PP(W) = 10

大语言模型做分类任务语言模型perplexity_深度学习_04

大语言模型做分类任务语言模型perplexity_深度学习_05

在一个数据集合（wall street journal）训练unigram,bigram,trigram三种语言模型，在测试集合上对应的Perplexity表现是

大语言模型做分类任务语言模型perplexity_深度学习_06

Perplexity和信息论的关系

考虑一个数据对应可以用8bit编码，那么对应的perplexity是256。

大语言模型做分类任务语言模型perplexity_交叉熵_07

H[x] = 8

类似上面 p(x) = 1/256

大语言模型做分类任务语言模型perplexity_深度学习_08

信息熵

大语言模型做分类任务语言模型perplexity_深度学习_09

Entropy rate (per-word entropy)

大语言模型做分类任务语言模型perplexity_大语言模型做分类任务_10

大语言模型做分类任务语言模型perplexity_rnn_11

根据Shannon-McMillan-Breiman theorem

大语言模型做分类任务语言模型perplexity_交叉熵_12

交叉熵

大语言模型做分类任务语言模型perplexity_语言模型_13

同样根据Shannon-McMillan-Breiman theorem

大语言模型做分类任务语言模型perplexity_交叉熵_14

大语言模型做分类任务语言模型perplexity_深度学习_15

这里本质上就是 perplexity 就是交叉熵的指数形式 exp of cross entropy

大语言模型做分类任务语言模型perplexity_语言模型_16

根据perplexity和交叉熵的关系，更小的perplexity从某种意义表明当前模型是更加接近产生测试数据集合的真实模型。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：springboot 抛异常后更新数据库 springboot的异常处理机制

下一篇：群晖监控套件启动不了群晖监控设置

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯