如何输出网络的权重 wi权重怎么算

关注数据探索家

如何输出网络的权重 wi权重怎么算

转载

数据探索家 2024-03-22 13:43:32

文章标签 如何输出网络的权重互信息权重相似度 文章分类 深度学习人工智能

自然语言处理（NLP）中的很多问题，都需要给文档中的词语一个定量化的权重值，进而可以完后词语重要性的排序，相似度的计算，相关性的排序，等等。本文就目前流行的权重计算方案进行了一个列举。

1. TF-IDF

w_ij=log(f_ij) x log(N/n_j)

wij是词语j在文档i中的权重， fij是词语j在文档i中出现的频率（TF）， N是所有的文档数，文章后面含义同此。

主要思想：如果一个词语在一篇文章中出现的频率TF高，并且在其他文档中很少出现，则认为此词语具有很好的区分能力。对区分文档最有意义的词语应该是那些在文档中出现频率高而在整个文档集合中出现频率低的词语。考虑到每个词语区分不同类别的能力，TF-IDF认为一个词语出现的文档频率越小，它区分不同类别文档的能力就越大。

2. MI （互信息）

如何输出网络的权重 wi权重怎么算_如何输出网络的权重

这里的N是所有文档中所有词语频率的和，而不是文档数。上面公式中，分子表示的是词语j在文档i中出现的概率；分母的前一项词语j在所有文档出现的概率，后一项是文档i出现的概率。

互信息的意义：

在某个特定文档出现频率高，但在其他文档出现频率比较低的词语与该文档的互信息比较大。通常用互信息作为特征词语和文档之间的相关度测量，如果特征词属于该文档，则他们的互信息量最大。

3. ATC

如何输出网络的权重 wi权重怎么算_互信息_02

4. Okapi

如何输出网络的权重 wi权重怎么算_互信息_03

5. LTU

如何输出网络的权重 wi权重怎么算_权重_04

nj是词语j至少出现过一次的文档， nj/N 是词语j的文档频率（DF），那么N/nj 就是逆向文档频率（IDF）， max_f是词语在所有文档中的最大频率， dl是文档长度，avg_dl是所有文档的平均长度。

这三种权重方案都是TF-IDF的变种，是在其的基础上引入了其他的因素。ATC 引入了所有文档中的词语的最大频率，同时使用了欧几里德距离作为文档长度归一化考虑。Okapi和LTU使用了类似的方式

来考虑文档长度（文档越长，那么相对来说，词语的频率也就越高，为了平衡，需要对长文档做出一定的惩罚，但又不能惩罚太厉害，所以引入了dl/avg_dl），但他们采用不同的方式来处理词语的频率。

LTU使用的是log(fij),而Okapi使用的是fij/(fij+2).

一般这几种方案没有绝对的优劣之分，根据具体情况选择合适的方案即可。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：easyeccel springboot导入导出 springboot导出数据并下载

下一篇：unity 数组 unity 数组最大存储个数

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册