标准分词 nlp分词索引分词中文分词词性标注系统

转载

话不是这么说的 2024-03-03 21:29:46

文章标签 标准分词 nlp分词索引分词自然语言处理数据结构多线程 windows 文章分类 NLP 人工智能

概况介绍
中文分词与词性标注是自然语言处理的第一个阶段，是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式，如“结合成分子”这句话就有好几种切分方法，但是正确的只有一种，能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别，未登录词指的是在词表中没有收录的词，主要包括时间词、数词、人名、地名、机构名等。词性标注的主要研究内容是兼类词的识别，兼类词是指具有多种词性的词。分词与词性标注可应用于各个自然语言处理和信息检索系统中。

体系结构
系统包括原子切分、全切分、时间数词识别、人名识别、地名识别等处理过程，系统的核心数据结构是一个切分词图（segment graph）。

系统特点
信息检索研究室词法分析系统（IRLAS）具有如下特点：
1.支持多线程，保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性，使您可以最大限度的进行DIY，以满足不同的需求
4.支持大文本输入，无论您一次输入多长的文本它都能处理，不过我不推荐您这样做，因为文本长的话未登录词识别效果稍有下降
5.支持扩展词表，您可以手工加入任意新词或专有词汇
6.灵活的资源加载和释放，一切尽在您掌握之中，不必强行占领您宝贵的memory
7.较快的速度，完全配置的版本速度可达到100K/s（3G CPU，1G memory）

系统功能
1.支持多线程，保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性，可以根据自己的需要选择系统的各个部分
4.支持大文本输入，一次可以处理任意长度的文本
5.支持扩展词表，您可以手工加入任意新词或专有词汇并可以为词指定词性

技术特点
目前系统语言模型主要采用Bigram语言模型，未登录词的识别中时间和数词识别采用规则的方法，人名和地名的识别部分采用的是基于角色标注的方法。词性标注采用基于HMM的词性标注方法。系统的核心数据结构是一个切分词图，最后在这个词图的基础上选择最优路径，把词典词的识别和未登录词的识别统一在一个框架下，大大提高了未登录词识别的性能。

性能指标
性能指标

下面的表格是本系统参加第二届SIGHAN分词评测时开放测试的结果。

测试语料大小：343K字节
R
P
F

0.961
0.969
0.965

应用领域
1、自然语言处理：如命名实体识别，句法分析，词义消歧，语义分析等
2、机器翻译
3、自动问答
4、信息检索
5、信息抽取：自动文摘、文本分类等

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。