NASIOCN文献NLP

命名实体识别

实体分类

hanlp 实体关系 标注_hanlp 实体关系 标注

分类实体解释

 

 

hanlp 实体关系 标注_hanlp 实体关系 标注_02

 

 

实体标注

前提

我们针对的是全文的标注,抽出来的自然段,我们要进行逐一的分词分句(单词之间是空格隔开的,句子之间是句点隔开的)并给每个单词打上标签(但我们只需要对文本中的名词打上我们预定义好的8个大类即可,后续的可代码处理)。

准备工作

  1. 标注工具需要上传txt格式的中英文文本文献。
  2. txt格式的文本文献是按传入标注工具的,一行可以有多个句子或是一个段落。
  3. 根据分好的实体类对每一行进行实体的标注(只需要标注出实体即可!)。

注意

  1. 从pdf提取要标注的文本,我们是基于全文做标注,文中有些段落我们并不需要就不用提取出来,但并不意味着我们只一句一句话的抽出来做标注,这会影响我们的数据质与量,甚至使我们花功夫提取出来的文本变得意义不大。
  2. 从pdf文献中提取出来的文本看到乱码的问题应处理一下,比如一个化学式中间的一些元素可能乱码,此时我们尽可能的手动的敲上去,实在无法处理的就将其删掉,以使得我们抽出来文本达到标注的要求(单词之间是空格隔开的,句子之间是句点隔开的)。
  3. 我们在进行标注的时候一定要仔细将我们标注的单词标注全,不要出现单词少标一个字母的情况,也不要出现标注的单词或者短语的前后多标注了一个空格的情况,这会给后续的处理带来很大的麻烦,甚至出错。
  4. 一定要认真对待我们的标注工作,多考虑一句话中的名词是否需要标注。一大段中我们就仅仅标注了两个或者三个名词的情况,会使我们的数据很稀疏,这种情况既花费了时间,而且还达不到标注要求的是会打回去重新标注的,所以大家一定要认真标注。

 

hanlp 实体关系 标注_上传_03

标注工具EasyData的使用

点击https://ai.baidu.com/easydata/进入标注工具首页

点击立即使用

 

hanlp 实体关系 标注_hanlp 实体关系 标注_04

点击创建数据集

hanlp 实体关系 标注_hanlp 实体关系 标注_05

  1. 填写数据集名称
  2. 选择文本
  3. 选择文本实体抽取
  4. 点击完成

hanlp 实体关系 标注_上传_06

 

点击导入数据

hanlp 实体关系 标注_数据集_07

  1. 选择本地数据集
  2. 上传TXT文本
  3. 点击上传

hanlp 实体关系 标注_上传_08

  1. 点击添加文件,选择本地需要标注的TXT文件
  2. 点击开始上传
  3. 确认并返回

hanlp 实体关系 标注_数据集_09

  1. 查看文件的导入状态
  2. 对传入的数据进行操作

hanlp 实体关系 标注_上传_10

  1. 点击标签组管理
  2. 创建标签组

hanlp 实体关系 标注_数据_11

输入标签组名称点击确认即创建成功

hanlp 实体关系 标注_上传_12

点击标签管理

hanlp 实体关系 标注_数据集_13

  1. 点击添加标签
  2. 输入标签的名称点击确认即可

hanlp 实体关系 标注_数据_14

 

hanlp 实体关系 标注_hanlp 实体关系 标注_15

hanlp 实体关系 标注_hanlp 实体关系 标注_16

hanlp 实体关系 标注_数据_17

至此我们的TXT已经标注结束

已标注数据的导出

hanlp 实体关系 标注_数据_18

hanlp 实体关系 标注_上传_19

hanlp 实体关系 标注_数据_20

hanlp 实体关系 标注_hanlp 实体关系 标注_21

hanlp 实体关系 标注_数据集_22

hanlp 实体关系 标注_上传_23

hanlp 实体关系 标注_hanlp 实体关系 标注_24

前往BOS查看

hanlp 实体关系 标注_hanlp 实体关系 标注_25

hanlp 实体关系 标注_上传_26

 

hanlp 实体关系 标注_hanlp 实体关系 标注_27