摘要

由于越来越多的研究在低资源领域、新任务和需要大量训练数据的大规模神经网络中,NLP中的数据增强最近引起广泛的兴趣。尽管研究工作剧增,但对这个领域的探索仍然不够,也许是由于NLP本身的挑战带来的。这篇论文中,我们通过结构化的方式总结相关文献,给出了一个全面的、统一的数据增强综述。首先,介绍了NLP中数据增强的动机,从方法论上论述了这些有代表性的方法。其次,我们强调了用在NLP领域和任务上的数据增强技术。推断该领域最近的研究挑战的未来的研究方向。总体来说,我们的研究旨在厘清有关NLP中数据增强文献的观点,并驱动这个领域前沿的研究内容。我们创建了包含相关文献的GitHub库,会持续不断的更新,链接:https://github.com/styfeng/DataAug4NLP

引言

数据增强是指在不显性收集新数据的情况下,增加训练样本多样性的策略。不像在CV中,数据增强通常被优先考虑,由于NLP本身的挑战性,NLP中的数据增强通常是次要的,对于其的研究也不太够。
论文安排如下:
第二章 论述了什么是数据增强,目标和trade-off,及它是如何工作的?
第三章 阐述了NLP领域有代表性的数据增强技术,包括:基于规则的、基于样本插值的和基于模型的;
第四章 讨论了数据增强在NLP领域的应用,包括低资源语言、缓解偏差、解决样本不均衡、小样本学习以及对抗样本的;
第五章 叙述了摘要、问答、序列标注、句法任务以及语法错误修正、机器翻译、数据到文本的自然语言理解、无目标和条件文本生成、对话、多模态任务等通用NLP任务的数据增强方法;
最后,第六章论述了NLP领域数据增强的挑战和未来方向。
通过这些工作,我们希望模仿图像、人脸以及时间序列等类型数据的数据增强综述类文献。希望引起进一步注意、广泛的兴趣,进而驱动数据增强相关的工作。

nlp 数据清洗 nlp数据增强方法_nlp

背景

数据增强的目标和平衡?因为,DA旨在提供一个可以搜集更多数据的方法,一个理想的DA技术应该既容易实现又可以提供模型性能,大多数方法在平衡两者。

Dao等提出:“数据增强通常以一种临时的方式进行的,几乎不了解基本的原理和理论。”

下表从适用性、依赖性以及必备条件等几个方面对比各种DA方法:

Ext.Know, KWE, tok, const, and dep 分别代表:外部知识、关键词抽取、词符化、成分分析、依存分析。

nlp 数据清洗 nlp数据增强方法_深度学习_02

技巧&方法

基于规则的技巧

feather space DA 在模型特征空间而不是输入数据中,生成数据增强样本。许多小样本学习方法利用估计特征空间相似变换,从已知的类别到新颖的类别增强。
wei and zou提出了EDA,字符级别的随机打散操作,包括:随机插值、删除和翻转。

nlp 数据清洗 nlp数据增强方法_nlp_03

样本插值技巧

另一类DA技巧,首先由mixup中提出的,对两个或更多真实样本的输入和label进行插值。这类方法也被称为MSDA(mixed sample data augumentation)。

基于模型的技巧

seq2seq和语言模型也被应用于DA中,著名的 回译 方法将一个序列翻译为其他语言,然后再翻译为原始语言。

应用

低资源语言

低资源语言对于DA是非常重要且有挑战性的应用,尤其是神经网络机器翻译。使用WordNet等外部知识的技巧很难提升效果。有一些利用高资源语言的方法,特别是它们有一些相似的语言特性。

缓解偏差

Zhao et al. (2018) 尝试通过创建和原始数据类似,但偏向于未被充分代表的性别的(例如,在性别实体中,用she 替换he)DA数据集,在指代消歧任务中缓解性别偏差,联合两个数据集进行训练。CDA(counterfacutual DA)用来缓解性别偏差,涉及到人为干涉、打破性别和性别中性词之间的联系。

修复类别不均衡

上采样和下采样。smote(synthetic minority oversampling technique)对少数类别样本上采样。

小样本学习

数据增强方法可以通过在新的类别中加入更多数据缓解少样本学习问题。

对抗样本

生成对抗样本是使用无害标签欺骗nlp模型。

任务

摘要

回译;UDA;混合合成和真实数据。

问答

回译;XLDA,跨语言DA;BERT。

序列标注

DAGA,两步DA;依赖树变形;seqmix。

解析任务

数据重组;同步上下文语法(SCFG),GRAPPA;依赖树同POS任务。

语法纠错

在带噪语料中学习错误模式。

机器翻译

使用增强方法替换两个源中的词。

数据-文本生成

数据到文本NLG是指需要对结构化或半结构化数据输入进行自然语言描述的任务。E2E-NLG和WebNLG是两个流行的方法。

开放域和有条件生成

用一套DA方法在低资源域上对GPT-2进行精细化实验为了提高生成的连续体的质量,他们称之为GENAUG。

对话

大多数对话的DA方法侧重于面向任务的对话;句子级别和词级别的DA方法,lightweight augmentation,seq2seq DA;

多模态任务