hanlp 文本相似性计算文本相似度计算工具

转载

信息流星 2023-07-21 15:13:41

文章标签 hanlp 文本相似性计算计算文本相似度深度学习特征工程机器学习 文章分类 NLP 人工智能

AI项目体验地址 https://loveai.tech

Feature

文本向量表示

字词粒度，通过腾讯AI Lab开源的大规模高质量中文词向量数据(800万中文词)，获取字词的word2vec向量表示。

https://ai.tencent.com/ailab/nlp/embedding.html

句子粒度，通过求句子中所有单词词嵌入的平均值计算得到。
篇章粒度，可以通过gensim库的doc2vec得到，应用较少，本项目不实现。

文本相似度计算

基准方法，估计两句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的平均值，然后计算两句子词嵌入之间的余弦相似性。
词移距离(Word Mover’s Distance)，词移距离使用两文本间的词嵌入，测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离。

query和docs的相似度比较

rank_bm25方法，使用bm25的变种算法，对query和文档之间的相似度打分，得到docs的rank排序。

Result

文本相似度计算

基准方法

尽管文本相似度计算的基准方法很简洁，但用平均词嵌入之间求余弦相似度的表现非常好。实验有以下结论：

hanlp 文本相似性计算文本相似度计算工具_特征工程

词移距离

基于我们的结果，好像没有什么使用词移距离的必要了，因为上述方法表现得已经很好了。只有在STS-TEST数据集上，而且只有在有停止词列表的情况下，词移距离才能和简单基准方法一较高下。

hanlp 文本相似性计算文本相似度计算工具_特征工程_02

Usage:

hanlp 文本相似性计算文本相似度计算工具_计算文本相似度_03

output:

hanlp 文本相似性计算文本相似度计算工具_深度学习_04

hanlp 文本相似性计算文本相似度计算工具_机器学习_05

hanlp 文本相似性计算文本相似度计算工具_机器学习_06

get similarity score between text1 and text2

from text2vec import Similarity

a = '如何更换花呗绑定银行卡'
b = '花呗更改绑定银行卡'

sim = Similarity()
s = sim.get_score(a, b)
print(s)

hanlp 文本相似性计算文本相似度计算工具_深度学习_07

hanlp 文本相似性计算文本相似度计算工具_特征工程_08

get text similarity score between query and docs

hanlp 文本相似性计算文本相似度计算工具_hanlp 文本相似性计算_09

hanlp 文本相似性计算文本相似度计算工具_计算文本相似度_10

hanlp 文本相似性计算文本相似度计算工具_计算文本相似度_11

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：hadoop经典三篇论文关于hadoop集群的论文

下一篇：Java 工具包文本相似内容 java文本相似度对比

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯