结巴中文分词 http://209.222.69.242:9000/ 中科院分词系统 http://ictclas.org/ictclas_demo.html smallseg https://smallseg.appspot.com/smallseg snailseg https://snailsegdemo.appspot.

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analyzer

哈工大的分词器:主页上给过调用接口,每秒请求的次数有限制。

清华大学THULAC:目前已经有Java、Python和C++版本,并且代码开源。

斯坦福分词器:作为众多斯坦福自然语言处理中的一个包,目前最新版本3.7.0, Java实现的CRF算法。可以直接使用训练好的模型,也提供训练模型接口。

Hanlp分词:求解的是最短路径。优点:开源、有人维护、可以解答。原始模型用的训练语料是人民日报的语料,当然如果你有足够的语料也可以自己训练。

结巴分词工具:基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。

字嵌入+Bi-LSTM+CRF分词器:本质上是序列标注,这个分词器用人民日报的80万语料,据说按照字符正确率评估标准能达到97.5%的准确率,各位感兴趣可以去看看。

ZPar分词器:新加坡科技设计大学开发的中文分词器,包括分词、词性标注和Parser,支持多语言,据说效果是公开的分词器中最好的,C++语言编写。

结巴中文分词是免费开源的,中科院分词需要付费,smallseg和snailseg需要翻墙才能用。

二:jieba分词的安装下载:

        在Ubuntu16.04中安装:pip install jieba,完成之后可以直接import jieba就可以用了

三:jieba分词的简单实例

# encoding=utf-8
import jieba
seg_list = jieba.cut("我是李洋,我正在学习有趣的自然语言处理", cut_all=True)
print seg_list
print("Full Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut("我我是李洋,我正在学习有趣的自然语言处理", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut("我是李洋,我正在学习有趣的自然语言处理")
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("我是李洋,我正在学习有趣的自然语言处理")
print(", ".join(seg_list))

Full Mode: 我/ 是/ 李/ 洋/ / / 我/ 正在/ 学习/ 有趣/ 的/ 自然/ 自然语言/ 语言/ 处理
Default Mode: 我/ 我/ 是/ 李洋/ ,/ 我/ 正在/ 学习/ 有趣/ 的/ 自然语言/ 处理
我, 是, 李洋, ,, 我, 正在, 学习, 有趣, 的, 自然语言, 处理
我, 是, 李洋, ,, 我, 正在, 学习, 有趣, 的, 自然, 语言, 自然语言, 处理



四:上面实例我们已经明白了,但是还有很多很多小的细节我们需要学习。首先来看一下下面的例子:
import jieba
print('/'.join(jieba.cut('我已经喜欢你很久了。', HMM=False)))
jieba.suggest_freq(('喜','欢'),True)
print('/'.join(jieba.cut('我已经喜欢你很久了。',HMM=False)))我/已经/喜欢/你/很/久/了/。
我/已经/喜/欢/你/很/久/了/。
这里在分词时把喜欢分到了一块,如果我们想让喜欢分开来,这里就需要用到jieba.suggest_freq()这个方法