HanLP分词器和ik ik分词器分词原理

转载

mob6454cc77db30 2023-08-07 17:51:38

文章标签 HanLP分词器和ik IK分词词元分词器有序集合 文章分类 NLP 人工智能

1、IK分词器也是基于正向匹配的分词算法。

2、IK分词器，基本可分为两种模式，一种为smart模式，一种为非smart模式

3、非smart模式所做的就是将能够分出来的词全部输出；smart模式下，IK分词器则会根据内在方法输出一个认为最合理的分词结果，这就涉及到了歧义判断

4、Lexeme 词元，compareTo(Lexeme other)这个方法决定了词元在链路中的位置

5、LexemePath词元链，分词的一种结果，根据前后顺序组成一个链式结构,其实就是由交叉的Lexeme 组成的有序集合QuickSortSet

。LexemePath也是实现Comparable接口的，用于歧义分析

实例：张三说的确实在理

根据正向匹配可能的词元链：

L1:{张三，张,三}

L2:{说}

L3:{的确,的,确实,确,实在,实,在理,在,理}

LexemePath之间是不交叉的,LexemePath内部的词元间是交叉的

下面是核心代码

public intcompareTo(Lexemeother) {
//起始位置优先
       if(this.begin< other.getBegin()){
            return -1;
       }elseif(this.begin== other.getBegin()){
       //词元长度优先
       if(this.length> other.getLength()){
       return-1;
       }elseif(this.length== other.getLength()){
       return0;
       }else{//this.length< other.getLength()
       return1;
       }
       }else{//this.begin> other.getBegin()
       return1;
       }
}

如果是非smart模式,分词到词结束,把所有的词元全部返回即可

在smart模式下需进行消除岐义.

消除岐义的算法和步骤如下

取LexemePath中不交叉词元组成新的LexemePath

L1对应的词元链如下:

L11:{张三}

L12:{张}

L13:{三}

L3对应的词元链如下

L31:{的,确实,在理}

L32:{的确,实,在理}

L33:{的确,实在,理}

L34:{的确,实在}

L35:{确实,在理}

L36:{确实}

…

smart模式岐义消除算法：

public intcompareTo(LexemePatho) {

规则1:比较有效文本长度

L31:{的,确实,在理}

L32:{的确,实,在理}

L33:{的确,实在,理}

规则2: //比较词元个数，越少越好

规则3: //路径跨度越大越好

规则4: //根据统计学结论，逆向切分概率高于正向切分，因此位置越靠后的优先(从代码中看来

没有发现其具体实际意义)

规则5: //词长越平均越好(词元长度相乘)

规则6: //词元位置权重比较(词元长度积),含义是选取长的词元位置在后的集合

L31:{的,确实,在理}1*1+2*2+3*2=11

L32:{的确,实,在理} 1*2+2*1+3*2=10

L33:{的确,实在,理} 1*2+2*2+3*1=9

最后的分词结果:张三,说,的,确实,在理

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：nlp理解六层次谁创造的 nlp理解六层次视频

下一篇：python 接入抖音直播 python爬取直播

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

HanLP分词器和ik ik分词器 分词原理

HanLP分词器和ik ik分词器 分词原理

51CTO博客

HanLP分词器和ik ik分词器分词原理

HanLP分词器和ik ik分词器分词原理