学习总结
上次的NLTK是英文工具集,LTP则是中文工具集。同样能用于词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注和语义依存分析)等。
文章目录
一、中文分词
中文词语之间不像英语一样,没有空格进行分割,NLP一般以词为最小处理单位,需要对中文分词处理。
LTP能够获得正确的分词结果,如不会分词为:南京,市长,结果为:
二、分句和词性标注
分词:
词性标注:
三、命名实体识别任务
四、依存句法分析
注意:在依存句法当中,虚节点ROOT占据了0位置,因此节点的下标从1开始。
结果:
(1)上面结果的第1、2行为例:(1, 2, 'SBV')
,(2, 0, 'HED')
,依存句法树会有默认的虚拟root节点,其索引为0,分词后的索引是从1开始的:
他 | 叫 | 汤姆 | 去 | 拿 | 外衣 |
1 | 2 | 3 | 4 | 5 | 6 |
(2)第二行的(2, 0, 'HED')
第二列为0,代表索引为2的结点(叫)的父节点是索引为0的虚拟root节点。
(3)第一行的(1, 2, 'SBV')
的SBV
是表示两个节点的依存关系是主谓关系,即“叫”和“他”是主谓关系。
五、语义依存分析
与依存句法类似的,这里的下标也是从1开始。
5.1 树
5.2 图
Reference
哈工大的LTP语言技术平台:http://ltp.ai/docs/index.html