论文解读:Enriching Pre-trained Language Model with Entity Information for Relation Classification
在自然语言处理领域内,基于语义的关系分类一直是热门研究内容之一。本文运用了最新提出的BERT模型,并添加相关结构构成实体分类模型,该模型实验F1值为89.25,再次成为SemEval 2010 Task 8数据集上的state of the art模型。
论文贡献如下:
(1)利用BERT模型的输出部分构建关系分类模型,并在Task8数据集上获得最好结果;
(2)说明了BERT模型不能够处理像关系分类这种不仅依赖于句子的语义还要依赖于实体信息的任务。
一、全文摘要译文
关系分类是一个非常重要的NLP任务,其任务是根据两个实体抽取其关系。先前的关系分类最优模型通常是基于CNN或RNN。最近,预训练BERT模型在自然语言处理的分类或序列标注的任务上获得最好效果。关系分类不同于其他的任务,其不仅依赖于整个句子,还依赖于两个目标实体。本文我们提出了利用预训练的BERT模型和目标实体信息解决关系分类问题。我们定位目标实体,然后通过预训练结构和两个实体的相关编码转换信息。在SemEval 2010 Task 8任务上我们相比最优模型获得了有效的提升。
二、简要信息
序号 | 属性 | 值 |
1 | 模型名称 | R-BERT |
2 | 所属领域 | 自然语言处理 |
3 | 研究内容 | 实体关系分类 |
4 | 核心内容 | BERT |
5 | GitHub源码 | |
6 | 论文PDF |
三、算法模型详解
3.1 核心步骤
- 为了能够定位两个目标实体,并将其信息转移到BERT中,在将整个问题喂入BERT前,在目标实体前后添加token,亦即符号“$”和“#”;
- 其次通过BERT输出目标实体对应的输出进行定位;
- 最后利用BERT输出的[CLS]隐含向量和两个目标实体的隐含向量进行关系分类。
3.2 预训练的BERT模型
BERT模型是Devlin等基于Transformer模型提出的双向编码器,其可以用来训练NLP的语言模型。
BERT的输入表征向量主要由字符/单词(token)向量、片段(segment)向量和位置(position)表征组成。首个token为[CLS],其在对句子分类时可以用于分类表征。如果输入包含一个句子对,这两个句子之间用[SEP]分割。
BERT预训练算法包括MLM和next sentence prediction。MLM指随机将一个句子中的token抹去(mask),然后基于整个句子来预测这个被mask的内容。next sentence prediction则是预测与目标句子具有前后顺序关系的句子,其通常用于对句子对的预训练。
3.3 分类模型
R-BERT的预训练部分完全采用BERT模型,输入句子为单句,因此不需要添加[SEP],但为每个实体添加了标签。第一个实体则用$表示,第二个实体则用#表示。
BERT模型的输出部分包括三部分,第一部分为[CLS]标签,第二部分为第一个实体的隐含向量,第三部分为第二个实体的隐含向量。作者认为第一部分可以保存整个句子的语义内容,后两部分则是保存实体的信息。
(1)[CLS]表征:该部分为单一向量,因此直接将其喂入前馈神经网络中,公式为:
(2)实体信息:该两部分处理相同,分别将实体的每个向量进行平均和后,喂入前馈神经网络中,公式如下:
其中 分别为第一个实体的首字符位置、第一个实体的末字符位置,第二个实体的首字符位置、第二个实体的末字符位置。同时权重系数为共享参数:,偏向也为共享参数:。
(3)分类:三个部分()进行拼接并喂入全连接层中,最后通过softmax进行分类。
四、实验及分析
实验数据集为 SemEval-2010 Task 8,该数据集包含8000个训练句子,2717个测试句子,一共包含9个关系类和一个Other关系类,若考虑关系双向性则可认为是19个类。实验相关设置如下表:
序号 | 属性 | 值 |
1 | 数据集 | SemEval-2010 Task 8 |
2 | 最优化模型 | Adam |
3 | 学习率rate | 2e-5 |
4 | batch_size | 16 |
5 | 迭代次数epoch | 5 |
6 | dropout | 0.1 |
8 | 最大长度maxlen | 128 |
实验结果如图所示:
五、论文总结与评价
作者给出了能够实现state of the art在结构上的体现。分别作出三种对比:
(1)BERT-NO-SET-NO-NET:在模型基础上,去掉实体标记$和#,同时在BERT输出部分仅用[CLS]进行分类。
(2)BERT-NO-SEP:在模型基础上,去掉实体标记$和#,BERT的输出部分保留。
(3)BERT-NO-ENT:在模型基础上,BERT输出部分去掉两个实体的隐含向量,但是保留标记$和#。
实验比对如图所示,通过比对可知,BERT模型只能够处理语义上的内容,但对于关系分类任务来说,不能够记住实体信息。
博客记录着学习的脚步,分享着最新的技术,非常感谢您的阅读,本博客将不断进行更新,希望能够给您在技术上带来帮助。