实体关系抽取方法
wujietao的第1篇CSDN博客
文章目录
- 实体关系抽取方法
- 1 思维导图
- 2 阅读笔记
- 2.1 名词概念
- 2.2 关系抽取常用工具
- 2.3 联合学习
论文链接:
1 思维导图
2 阅读笔记
2.1 名词概念
- 信息抽取:主要包括3项子任务:实体抽取、关系抽取和事件抽取。
2.2 关系抽取常用工具
- NLTK:NLTK是一个基于脚本语言Python开发的自然语言处理工具包,该工具包具有免费、开源等特点,并集成了中文分词、词形还原、文本分类以及语义推理等一系列文本处理技术,并涉及50多种语料库和词汇资源的交互界面。
- DeepDive:它是一种新型数据管理系统,可以在单个系统中解决提取、集成和预测问题.相对于其他关系抽取工具,DeepDive使研究者关注重点在实体关系之间的特征而不是具体的算法,这有效地减轻了研究者的工作负担。
- StandardCoreNLP:该工具包由众多语法分析工具集成,提供多种编程语言的接口,能实现对任意自然语言文本进行分析.该工具包为研究者提供了许多基础性的工具,如词性标记器(POS)、命名实体识别器(NER)、解析器、共参考分辨率系统、情感分析、自举模式学习和开放信息提取等。
- 中文分词工具:结巴分词(jieba)、清华分词(THULAC)、中国科学院计算技术研究所分词(NLPIR)、哈尔滨工业大学分词(LTP)等是国内常见中文分词的工具.这些工具对文本数据进行预处理,将字序列切分成具有语言含义的词序列,便于对中文领域的文本进行关系抽取。
- LTP-Cloud:LTP-Cloud以哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”为基础,为用户提供高效精准的中文自然语言处理云服务.LTP-Cloud支持跨平台、跨语言编程等,并提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块应用程序接口和可视化工具等。
2.3 联合学习
联合学习方法有3种,包括基于参数共享的实体关系抽取方法、基于序列标注的实体关系抽取方法和基于图的实体关系抽取方法.
- 基于共享参数的方法
命名实体识别和关系抽取通过共享编码层在训练过程中产生的共享参数相互依赖,最终训练得到最佳的全局参数.因此,基于共享参数方法有效地改善了流水线方法中存在的错误累积传播问题和忽视2个子任务间关系依赖的问题,提高模型的鲁棒性.
- 基于序列标注的方法
由于基于共性参数的方法容易产生信息冗余,将命名实体识别和实体关系抽取融合成一个序列标注问题,可以同时识别出实体和关系.该方法利用一个端到端的神经网络模型抽取出实体之间的关系三元组,减少了无效实体对模型的影响,提高了关系抽取的召回率和准确率
- 基于图结构的方法
针对前2种方法无法解决的实体重叠、关系重叠问题,基于图结构的方法能有效得解决.