nlp中文信息抽取 nlp关键字提取

关注墨色天香

文章目录

第5章关键词提取算法
5.1 关键词提取技术概述
5.2 关键词提取算法TF-IDF算法

nlp中文信息抽取 nlp关键字提取

转载

墨色天香 2024-02-29 11:28:00

文章标签 nlp中文信息抽取词频文本聚类数据 文章分类 NLP 人工智能

第5章关键词提取算法

关键词是代表文章重要内容的一组词，对文本聚类、分类、自动摘要等起重要作用

5.1 关键词提取技术概述

关键词提取算法一般也可以分为有监督和无监督两类
监督式关键词提取

简介：主要通过分类的方式进行
介绍：通过构建一个较为丰富和完善的词表，然后通过判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果
优缺点：有监督的方法能够获取到较高的精度，但缺点是需要大批量的标注数据，人工成本过高

无监督关键词提取

无监督提取对数据的要求比较低
既不需要一张人工生成、维护的词表，也不需要人工标准语料辅助进行训练

5.2 关键词提取算法TF-IDF算法

TF-IDF算法(Term Frequency-Inverse Document Frequency，词频-逆文档频次算法)是一种基于统计的计算方法，常用于评估在一个文档集中一个词对某份文档的重要程度
TF-IDF算法由两部分组成:TF算法以及IDF算法

TF算法

简介：统计一个词在一篇文档中出现的频次
基本思想：一个词在文档中出现的次数越多，则其对文档的表达能力就越强

IDF算法

简介：统计一个词在文档集的多少个文档中出现
基本思想：如果一个词在越少的文档中出现，则其对文档的区分能力也就越强

我们将这两种算法综合起来使用，构成TF-IDF算法，从词频、逆文档频次两个角度对词的重要性进行衡量
TF的计算常用式
也就是 tf(word) = (word在文档中出现的次数)/(文档总词数)
IDF的计算常用式

|D|表示文档集中文档的总数
|Di|为文档集中出现词i的文档数量
分母加1是采用了拉普拉斯平滑

TF-IDF算法计算式

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：centos 启动 vnc linux启动vnc

下一篇：python obj 文件转 fbx python blob类型转换string

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册