搞科研嘛,最近在看论文,其中一篇ACL21年的新文章End-to-End Training of Neural Retrievers for Open-Domain Question Answering,里边又提到了远监督,联想起之前组会的时候有人问什么是远程监督,所提就稍作总结一下。


1 引入distant supervision

说远监督之前需要先看两个常见:Supervised Learning、Unsupervised Learning存在的问题

  • Supervised Learning:监督学习需要人工标注过的数据集,数据标注工作不仅费时费力,而且模型的精确度很大程度受制于数据标注的准确性。在这种方式下,获取大规模的训练集并且要求高准确度非常难以实现。
  • Unsupervised Learning:使用无结构文本即可。举个🌰,在关系抽取中无监督是模型得到的两个实体对之间的关系是数学表示,需要map成我们人类认知的形式,这里的翻译可能不太准确,文章中的原话是paraticular knowledge base。mapping的过程十分复杂,这是无监督方式的缺点。

  • 远程监督(distant supervision),将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据。

In the supervised setting, human-annotated questions, answers, and sometimes context are provided. If the context is not included, then a common approach is to use distant supervision (Mintz et al., 2009) to obtain the context document.

在监督学习中,人工标注问题、答案,有时提供上下文;如果未给出上下文,一个常见方法就是使用远程监督获得上下文文档。

2 远程监督简介

现在说到远程监督绕不开Mintz 09年的一篇文章Distant supervision for relation extraction without labeled data,并非第一篇提出远程监督概念的 paper,但是第一个将远程监督概念应用到关系抽取任务中,并且提出了一个著名的假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。

If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way

这个假设非常的大,其实很多的共现 entities 都没有什么关系,仅仅是出现在同一个句子中;而有的 entities 之间的关系其实并不仅仅只有一种,可能有多种,比如奥巴马和美国的关系,可能是 born in,也可能是 is the president of 的关系。

基于这个假设条件下的关系抽取工作通常都存在两个明显的弱点

  1. 基于文献Mintz给出的假设,训练集会产生大量的 wrong labels,比如两个实体有多种关系或者根本在这句话中没有任何关系,这样的训练数据会对关系抽取器产生影响。
  2. NLP 工具带来的误差,比如 NER,比如 Parsing 等,越多的 feature engineering 就会带来越多的误差,在整个任务的 pipeline 上会产生误差的传播和积累,从而影响后续关系抽取的精度。

这种问题被称为the wrong label problem

出现 the wrong label problem 的根本原因,是远程监督假设一个实体对只对应一种关系,但实际上实体对间可以同时具有多种关系。

3 解决远监督的the wrong label problem

为了减小 the wrong label problem 的影响,学术界陆续提出了多种改进算法,主要包括:

3.1 基于规则的方法

通过对wrong label cases的统计分析,添加规则,将原本获得正例标注的wrong label cases直接标为负例,或通过分值控制,抵消原有的正标注。

3.2 基于图模型的方法

构建因子图(factor graph)等能表征变量间关联的图模型,通过对特征的学习和对特征权重的推算减小wrong label cases对全局的影响。

3.3 基于多示例学习(multi-instance learning)的方法

将所有包含(E1,E2)的句子组成一个bag,从每个bag对句子进行筛选来生成训练样本。此类方法最早提出时假设如果知识图谱中存在R(E1,E2),则语料中含(E1,E2)的所有instance中至少有一个表达了关系R。一般与无向图模型结合,计算出每个包中置信度最高的样例,标为正向训练示例。
该假设比远监督的假设合理,但可能损失很多训练样本,造成有用信息的丢失和训练的不充分。

3.4 基于多示例多标签的学习(multi-instance multi-labels)

该方法是为了能得到更丰富的训练样本。该方法的假设是,同一个包中,一个sentence只能表示(E1,E2)的一种关系,也就是只能给出一个label,但是不同的sentence可以表征(E1,E2)的不同关系,从而得到不同的label。多label标注的label值不是正或负,而是某一种关系。它为同时挖掘一个实体对的多种关系提供了可能的实现途径。另一种改进的方法是从一个包中选取多个valid sentences作为训练集,一般与深度学习方法相结合。


2022Flag:科研狗永不服输