中科院的ICTCLAS工具是目前国内有名的中文分词工具,分词准确率很高且具有词性标注的功能,在ICTCLAS的官方网站上可以下到最新的免费版供研究使用。前段时间搞情感分类时用了一下,效果不错,不过好像分词结果中没有去掉停用词,如果想去掉停用词的话得自己写个过滤程序,不过这也简单。用了一下,给这个工具的评价很高,可以说简单易用,可以处理整个文件的,也可以处理内存里一段话,可以自定义词典,而且具有C++,C#,JINI等接口。
使用的时候,最简单的方法是只需要把Data文件夹、Configure.xml,ictclas30.h,ICTCLAS30.lib,ICTCLAS30.dll和你的调用该接口的源文件放在同一个文件夹下面即可以。
在调用文件中加入头文件include "ictclas30.h"及#pragma comment(lib,"ICTCLAS30.lib")。