深度学习文字提取深度信息提取

关注 IT智行者

文章目录

DeepIE: Deep Learning for Information Extraction
TOP
Papers
Codes
TODO-list
Reference

深度学习文字提取深度信息提取

转载

IT智行者 2024-08-14 08:08:45

文章标签 深度学习文字提取信息抽取实体关系抽取事件抽取知乎 文章分类 深度学习人工智能

DeepIE: Deep Learning for Information Extraction

DeepIE：基于深度学习的信息抽取技术（预计2020年8月31日前全部更新完毕）

TOP

知乎专栏文章：nlp中的实体关系抽取方法总结
知乎专栏文章：如何有效提升中文NER性能？词汇增强方法总结
知乎专栏文章：如何解决Transformer在NER任务中效果不佳的问题？

Papers

Codes

1. 实体抽取

各主流方法在主要中文NER数据集上的表现情况 具体说明

	lexicon	Ontonotes	MSRA	Resume	Weibo
biLSTM	----	71.81	91.87	94.41	56.75
Lattice LSTM	词表1	73.88	93.18	94.46	58.79
WC-LSTM	词表1	74.43	93.36	94.96	49.86
LR-CNN	词表1	74.45	93.71	95.11	59.92
CGN	词表2	74.79	93.47	94.12	63.09
LGN	词表1	74.85	93.63	95.41	60.15
Simple-Lexicon	词表1	75.54	93.50	95.59	61.24
FLAT	词表1	76.45	94.12	95.45	60.32
FLAT	词表2	75.70	94.35	94.93	63.42
BERT	----	80.14	94.95	95.53	68.20
BERT+FLAT	词表1	81.82	96.09	95.86	68.55

MSRA-NER

方法	f	p	r
char+ lstm-crf	86.18%	88.43%	83.10%
char-bigram + lstm-crf	91.80%	92.60%	90.34%
char-bigram + adTransformer-crf	92.98%	93.25%	92.72%
char-bigram + lexion-augment + lstm-crf	93.33%	94.26%	92.43%
char-bigram-BERT + lstm-crf	94.71%	95.14%	94.27%
char-bigram-BERT + lexion-augment + lstm-crf	95.26%	95.90%	94.63%

CCKS2019-医疗实体抽取

方法	f	p	r
char-bigram + lstm-crf	81.76%	82.91%	80.6
+ domain transfer（from ccks2018 to 2019）	82.54%	83.43%	81.81%
char-bigram + adTransformer-crf	82.83%	82.19%	83.49%
char-bigram + lexion-augment + lstm-crf	82.76%	82.79%	82.72%
BERT-finetune+crf	83.49%	84.11%	82.89%
roBERTa-finetune+crf	83.66%	83.67%	83.66%
char-bigram-BERT + lstm-crf	83.37%	83.51%	83.22%
char-bigram-BERT + lexion-augment + lstm-crf	84.15%	84.29%	84.01%

CCKS2020-医疗实体抽取：

(注：测试集与ccks2019一致，去除ccks2020训练集中已经在2019测试集中的样本，下列指标未做规则处理和模型融合)

方法	f	p	r
char-bigram + lstm-crf	82.68%	83.14%	82.22%
char-bigram + lexion-augment + lstm-crf	83.12%	83.10%	83.14%
char-bigram-BERT + lstm-crf	83.12%	83.04%	83.21%
char-bigram-BERT-RoBerta_wwm + lstm-crf	83.66%	83.76%	83.56%
char-bigram-BERT-XLNet + lstm-crf	84.12%	83.88%	84.36%
char-bigram-BERT + lexion-augment + lstm-crf	84.50%	84.32%	84.67%

CCKS2020-面向试验鉴定的命名实体识别任务：TODO

2. 实体关系联合抽取

具体使用说明

2019语言与智能技术竞赛：关系抽取任务

方法	f(dev)	p(dev)	r(dev)
multi head selection	76.36	79.24	73.69
ETL-BIES	77.07%	77.13%	77.06%
ETL-Span	78.94%	80.11%	77.8%
ETL-Span + word2vec	79.99%	80.62%	79.38%
ETL-Span + word2vec + adversarial training	80.38%	79.95%	80.82%
ETL-Span + BERT	81.88%	82.35%	81.42%

2020语言与智能技术竞赛：关系抽取任务

方法	f(dev)	p(dev)	r(dev)
ETL-Span + BERT	74.58	74.44	74.71

3. 属性抽取

领域数据集：瑞金医院糖尿病信息抽取数据

# 药物-属性
['药品-用药频率','药品-持续时间','药品-用药剂量','药品-用药方法','药品-不良反应']
# 疾病-属性
['疾病-检查方法','疾病-临床表现','疾病-非药治疗','疾病-药品名称','疾病-部位']

主体	方法	f	p	r
疾病	lstm+ multi-label pointer network	76.55	74.36	78.86
疾病	bert + multi-label pointer network	77.59	77.45	77.74
药物	lstm+ multi-label pointer network	81.12	79.15	83.19

4. 实体链接/标准化

5.事件抽取

CCKS2020-医疗事件抽取
CCKS2020：面向金融领域的篇章级事件主体抽取
CCKS2020：面向金融领域的篇章级事件要素抽取

6.信息抽取中的低资源解决方案

TODO-list

医疗
金融
电商
法律

百度-2020语言与智能技术竞赛：关系抽取任务
百度-2020语言与智能技术竞赛：事件抽取任务
百度-2019语言与智能技术竞赛：信息抽取
CCKS 2019 医疗命名实体识别
CHIP 2019 临床术语标准化任务
CCKS 2019 人物关系抽取
CCKS 2019 公众公司公告信息抽取
CCKS 2019 面向金融领域的事件主体抽取

摘要抽取
前沿技术在信息抽取中的应用

Reference

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：Android graphic内存过高 android 显存

下一篇：nfs客户端重新挂在 nfs重新挂载

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册