概况介绍
中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子”这句话就有好几种切分方法,但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要研究内容是兼类词的识别,兼类词是指具有多种词性的词。分词与词性标注可应用于各个自然语言处理和信息检索系统中。

体系结构
系统包括原子切分、全切分、时间数词识别、人名识别、地名识别等处理过程,系统的核心数据结构是一个切分词图(segment graph)。

 

系统特点
信息检索研究室词法分析系统(IRLAS)具有如下特点:
1.支持多线程,保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性,使您可以最大限度的进行DIY,以满足不同的需求
4.支持大文本输入,无论您一次输入多长的文本它都能处理,不过我不推荐您这样做,因为文本长的话未登录词识别效果稍有下降
5.支持扩展词表,您可以手工加入任意新词或专有词汇
6.灵活的资源加载和释放,一切尽在您掌握之中,不必强行占领您宝贵的memory
7.较快的速度,完全配置的版本速度可达到100K/s(3G CPU,1G memory)

系统功能
1.支持多线程,保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性,可以根据自己的需要选择系统的各个部分
4.支持大文本输入,一次可以处理任意长度的文本
5.支持扩展词表,您可以手工加入任意新词或专有词汇并可以为词指定词性

技术特点
目前系统语言模型主要采用Bigram语言模型,未登录词的识别中时间和数词识别采用规则的方法,人名和地名的识别部分采用的是基于角色标注的方法。词性标注采用基于HMM的词性标注方法。系统的核心数据结构是一个切分词图,最后在这个词图的基础上选择最优路径,把词典词的识别和未登录词的识别统一在一个框架下,大大提高了未登录词识别的性能。

性能指标
性能指标

下面的表格是本系统参加第二届SIGHAN分词评测时开放测试的结果。

测试语料大小:343K字节
R
 P
 F
 
0.961
 0.969
 0.965
 

应用领域
1、自然语言处理:如命名实体识别,句法分析,词义消歧,语义分析等
2、机器翻译
3、自动问答
4、信息检索
5、信息抽取:自动文摘、文本分类等