jieba分词工具 java java结巴分词

转载

mob64ca140b82e3 2023-12-29 18:45:45

文章标签 jieba分词工具 java nlp jieba分词结巴分词分词器 github 文章分类 Java 后端开发

结巴中文分词 http://209.222.69.242:9000/ 中科院分词系统 http://ictclas.org/ictclas_demo.html smallseg https://smallseg.appspot.com/smallseg snailseg https://snailsegdemo.appspot.

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analyzer

哈工大的分词器：主页上给过调用接口，每秒请求的次数有限制。

清华大学THULAC：目前已经有Java、Python和C++版本，并且代码开源。

斯坦福分词器：作为众多斯坦福自然语言处理中的一个包，目前最新版本3.7.0， Java实现的CRF算法。可以直接使用训练好的模型，也提供训练模型接口。

Hanlp分词：求解的是最短路径。优点：开源、有人维护、可以解答。原始模型用的训练语料是人民日报的语料，当然如果你有足够的语料也可以自己训练。

结巴分词工具：基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)；采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法。

字嵌入+Bi-LSTM+CRF分词器：本质上是序列标注，这个分词器用人民日报的80万语料，据说按照字符正确率评估标准能达到97.5%的准确率，各位感兴趣可以去看看。

ZPar分词器：新加坡科技设计大学开发的中文分词器，包括分词、词性标注和Parser，支持多语言，据说效果是公开的分词器中最好的，C++语言编写。

结巴中文分词是免费开源的，中科院分词需要付费，smallseg和snailseg需要翻墙才能用。

二：jieba分词的安装下载：

在Ubuntu16.04中安装：pip install jieba,完成之后可以直接import jieba就可以用了

三：jieba分词的简单实例

# encoding=utf-8
import jieba
seg_list = jieba.cut("我是李洋，我正在学习有趣的自然语言处理", cut_all=True)
print seg_list
print("Full Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut("我我是李洋，我正在学习有趣的自然语言处理", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut("我是李洋，我正在学习有趣的自然语言处理")
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("我是李洋，我正在学习有趣的自然语言处理")
print(", ".join(seg_list))

Full Mode: 我/ 是/ 李/ 洋/ / / 我/ 正在/ 学习/ 有趣/ 的/ 自然/ 自然语言/ 语言/ 处理
Default Mode: 我/ 我/ 是/ 李洋/ ，/ 我/ 正在/ 学习/ 有趣/ 的/ 自然语言/ 处理
我, 是, 李洋, ，, 我, 正在, 学习, 有趣, 的, 自然语言, 处理
我, 是, 李洋, ，, 我, 正在, 学习, 有趣, 的, 自然, 语言, 自然语言, 处理



四：上面实例我们已经明白了，但是还有很多很多小的细节我们需要学习。首先来看一下下面的例子：
import jieba
print('/'.join(jieba.cut('我已经喜欢你很久了。', HMM=False)))
jieba.suggest_freq(('喜','欢'),True)
print('/'.join(jieba.cut('我已经喜欢你很久了。',HMM=False)))我/已经/喜欢/你/很/久/了/。
我/已经/喜/欢/你/很/久/了/。
这里在分词时把喜欢分到了一块，如果我们想让喜欢分开来，这里就需要用到jieba.suggest_freq()这个方法

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。