hanlp 匹配词相似度字段相似度匹配

关注 mob64ca13ff9303

hanlp 匹配词相似度字段相似度匹配

转载

mob64ca13ff9303 2024-04-26 08:56:39

文章标签 hanlp 匹配词相似度 matlab对相似度进行排序字段数据数据库 文章分类 NLP 人工智能

在我们日常开发过程中有时遇到需要对标题内容进行关键字检索匹配排序，一般我们常用"like"直接做了模糊查询，但是这种模糊查询没有做到关键词匹配度查询。下面我整理两种我在开发中用到两种取巧的做法:

做法一：

利用数据库like关键词进行第一步匹配出包含关键词的数据，然后利用关键词在所在语句长度和关键词长度做对比，得到比重越大的说明关键字在语句中越重要，这里没有考虑一句话里面包含关键词多次的情况，select id,字段,(length(字段)-length('关键字')) as rn from 表名 where 字段 like '%关键字%' order by rn

执行语句:select id,content,(length(content)-length('11')) as rn from msg_sms_history

where content like '%11%' order by rn

hanlp 匹配词相似度字段相似度匹配_数据库

然而数据还是排序没靠前:ID为39的数据排在ID为307的数据前面了,我们可以增加一个排序:select id,content,(length(content)-length('11')) as rn from msg_sms_history

where content like '%11%' order by rn,content;

这样就可以输出我们想要的结果了。

优点:简单粗暴，直接套语句就能用

缺点:此结果不够准确，如果关键词只用了一般不能够匹配出来，如"我们都是好学生" 关键字是"我们是" 这样就匹配不到，其次在数据量大的情况下查询效率有一定影响

做法二：

增加一个关键词表记录标题包含的关键词:每次增加文章我们用分词组件把文章标题记录到关键词表和文章关联。然后查询的时候按关键词匹配多少来排序.

hanlp 匹配词相似度字段相似度匹配_字段_02

hanlp 匹配词相似度字段相似度匹配_字段_03

对上述语句进行分词后，然后查询“我们是乒乓球队队员”进行分词处理得到 keyword="我们" or keyword="我们是" or keyword="乒乓球"or keyword="队员"。

然后去数据库中查询

select id from table2 where keyword="我们" or keyword="我们是" or keyword="乒乓球"or keyword="队员"group by id order by count(*) desc;

这样，相似程度较多的id为1的排在第一，id为2的排在第二，

优点:比做法一准确一些，能做到部分联想搜索

缺点:此结果不够准确，关键词表会很大匹配，对于分词过大时查询较慢

以上两种方法比较简单供大家参考使用，实际中大项目会用到全文检索如Elasticsearch、Lucene，检索的结果更加准确。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：restful 中间缺一层 restful rest

下一篇：网状拓扑结构下的负载均衡方程网状拓扑缺点

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册