Ansj与hanlp分词工具对比

转载

adnb34g 2019-06-21 12:00:07 博主文章分类：自然语言处理

文章标签 ansj hanlp 文章分类 NLP 人工智能

一、Ansj

1、利用DicAnalysis可以自定义词库：

Ansj与hanlp分词工具对比_hanlp

2、但是自定义词库存在局限性，导致有些情况无效：

比如：“不好用“的正常分词结果：“不好，用”。

（1）当自定义词库”好用“时，词库无效，分词结果不变。

（2）当自定义词库

“不好用”时，分词结果为：“不好用”，即此时自定义词库有效。

3、由于版本问题，可能DicAnalysis, ToAnalysis等类没有序列化，导致读取hdfs数据出错

此时需要继承序列化接口

1|case class myAnalysis() extends DicAnalysis with Serializable

2|val seg = new myAnalysis()

二、HanLP

同样可以通过CustomDictionary自定义词库：

Ansj与hanlp分词工具对比_hanlp_02

但是在统计分词中，并不保证自定义词典中的词一定被切分出来，因此用户可在理解后果的情况下通过

1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效

并发问题：

CustomDictionary是全局变量，不能在各节点中更改，否则会出现并发错误。

但是HanLP.segment(sentence)，只有一个参数，不能指定CustomDictionary，导致在各个excutors计算的时候全局CustomDictionary无效。

由于CustomDictionary是全局变量，因此我采用一个方式：每个分区都对CustomDictionary加锁并添加一次词库，性能影响较小：

Ansj与hanlp分词工具对比_ansj_03

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客