hanlp gpu下推理 hanlp原理

关注 ctaxnews

hanlp gpu下推理 hanlp原理

转载

ctaxnews 2023-10-17 10:41:10

文章标签 hanlp gpu下推理人工智能大数据数据结构与算法自然语言处理 文章分类 NLP 人工智能

这段时间一直在接触学习hadoop方面的知识，所以说对自然语言处理技术也是做了一些了解。网络上关于自然语言处理技术的分享文章很多，今天就给大家分享一下HanLP方面的内容。

自然语言处理技术其实是所有与自然语言的计算机处理相关联的技术的统称，自然语言处理技术应用的目的是为了能够让计算机理解和接收我们用自然语言输入的指令，实现从将我们人类的语言翻译成计算机能够理解的并且不会产生歧义的一种语言。接合目前的大数据以及人工智能，自然语言处理技术的快速发展能够很好的助力人工智能的发展。

hanlp gpu下推理 hanlp原理_自然语言处理

（大快DKhadoop大数据一体化框架）

这里要分享的HanLP是我在学习使用大快DKhadoop大数据一体化平台时使用到的自然语言处理技术，使用这个组建可以很高效的进行自然语言的处理工作，比如进行文章摘要，语义判别以及提高内容检索的精确度和有效性等。

本想找个通俗的案例来介绍一下HanLP,一时间也没想到什么好的案例，索性就从HanLp数据结构HE 分词简单介绍下吧。

首先我们来看了解下HanLP的数据结构：

二分tire树：Tire树是一种前缀压缩结构，可以压缩存大量字符串，并提供速度高于Map的get操作。HanLP中的trie树采用有序数组储存子节点，通过二分搜索算法检索，可以提供比TreeMap更快的查询速度。

不同于父节点储存子节点引用的普通trie树，双数组trie树将节点的从属关系转化为字符内码的加法与校验操作

对于一个接收字符c从状态s移动到t的转移，需满足条件是：

base[s] + c = t

check[t] = s比如：base[一号] + 店 = 一号店

check[一号店] = 一号

相较于trie树的前缀压缩（success表），AC自动机还实现了后缀压缩（output表）

在匹配失败时，AC自动机会跳转到最可能成功的状态（fail指针）

关于HanLP分词

1、词典分词

基于双数组trie树或ACDAT的词典最长分词(即从词典中找出所有可能的词，顺序选择最长的词语)

hanlp gpu下推理 hanlp原理_人工智能_02

输出:[HanLP/名词, 是不是/null, 特别/副词, 方便/形容词, ？/null]

2、NGram分词

hanlp gpu下推理 hanlp原理_数据结构与算法_03

统计语料库中的BiGram，根据转移概率，选出最可能的句子，达到排除歧义的目的

3、HMM2分词

hanlp gpu下推理 hanlp原理_自然语言处理_04

这是一种由字构词的生成式模型，由二阶隐马模型提供序列标注

被称为TnT Tagger，特点是利用低阶事件平滑高阶事件，弥补高阶模型的数据稀疏问题

4、CRF分词

hanlp gpu下推理 hanlp原理_数据结构与算法_05

这是一种由字构词的生成式模型，由CRF提供序列标注

相较于HMM，CRF的优点是能够利用更多特征、对OOV分词效果好，缺点是占内存大、解码慢。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python plt grid 尺寸设置 python gui grid

下一篇：java中String的like Java中string的api

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册