1.简介
中文分词是指将一个汉字序列切分为一个个单词的操作。在英文中,单词之间以空格作为自然分界符,汉语中的词是没有形式上的分界符的,这是中文分词的一个难点。比如“乒乓球拍卖完了”这个汉字序列,分为“乒乓球拍/卖/完了”和“乒乓球/拍卖/完了”都是合理的。

2.常用的中文分词系统
(1).IK

(2).jieba

(3).HanLP

(4).THULAC