AI TIME欢迎每一位AI爱好者的加入!
前言:
在少样本的半监督训练场景下,为避免过拟合现象,数据增强技术显得尤为重要。深度学习视觉领域中,我们对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中,文本数据是离散的,我们很难通过简单的转换来生成大量语义不变的扩充样本。那么,如何攻克文本数据增强这一难题,在标注数据有限的情况下提高模型的泛化能力呢?本期AI TIME PhD直播间,我们有幸邀请到佐治亚理工学院博士生陈佳奥,为大家分享他作为一作在ACL2020中发表的一篇关于MixText 半监督文本分类模型的工作。
陈佳奥,佐治亚理工学院 PhD in CS,导师为Diyi Yang。主要研究方向为自然语言处理和机器学习,已在相关领域的国际顶级会议如ACL, NAACL, AAAI等发表多篇论文。
一、背景
1.
基于少量标记数据的半监督学习
尽管深度学习模型往往表现很好,但通常是基于大量有标签数据的监督学习。当数据只有少量有限的标签时,就会出现过拟合现象,这时需要耗费大量人力和财力来标记数据。实际中,尤其是低资源小语种语言、以及网络社交媒体等场景下,获取大量标注数据的高昂成本让研究者们望而却步。
为了降低监督任务对于标签数据的需求,一种同时有效利用少量已标注数据和大量未标注数据的学习范式——半监督学习技术倍受关注。
2.
现有的半监督文本分类方法
目前半监督文本分类模型主要分为以下四类:
(1)利用变分自编码器(VAEs, variational auto encoders)重构句子,通过重构学习到的隐变量来预测其标签。
(2)利用自监督学习,即用已标注数据训练初始分类器,对未标注数据进行预测,将分类置信度较高的文本加入已标记数据中,重新训练分类器。但该模型存在一些缺点,比如早期的错误标注会在迭代中逐渐被放大、导致错误累积。
(3)添加对抗噪声后进行一致性训练,或使用数据增强。
(4)使用大规模无标签数据进行预训练,然后使用有标签数据进行微调(finetuning)。
然而上述模型仍然存在一大缺陷:有标签数据和无标签数据是分开的,在训练中往往会出现有标签数据已经过多轮迭代、而无标签数据还处于欠拟合状态的局面。因此,大多数半监督模型仍然很容易对极为有限的标记数据过度拟合!
二、TMix文本数据增强方法
为克服这一问题,陈佳奥及其团队提出了一种新的数据增强算法TMix。受到图像分类算法Mixup的启发,TMix通过在隐藏空间(hidden space)中对不同的训练样本做线性插值(linear interpolation),从而生成大量新的训练数据,极大地避免了过拟合的产生。
我们知道Mixup可以很好地处理连续的图像数据,可是如何将这种线性插值的办法运用到离散的文本数据中呢?他们采取了一种巧妙的方式——在文本隐藏空间中进行插值(interpolation)。
给定一个句子,我们经常使用BERT这样的多层模型对句子进行编码,得到语义表示,并在此基础上做出最终的预测。先前的工作表明,可以通过两个隐藏向量的插值解码生成一个新的句子,包含两个原始句子的混合语义。
基于此,团队提出了在隐藏空间中应用插值来实现文本增强的方法。对于包含L层的编码器,首先在底层(1到m层)分开计算两个输入文本的隐藏表示,然后在m层(m∈[0,L])处通过插值的方式融合这两个隐藏表示,将新的隐藏表示传递到上层(m+1到L层),标签也使用同样的方法进行线性插值,得到的数据对可以作为下游应用程序的输入。
线性组合的过程中使用的权重lambda,是从Beta distribution(0~1)中取样得到的。由于组合是连续的,TMix可以创建无限的新样本。
那么问题来了,选择哪些层的隐藏表示进行混合呢?研究表明,多层编码器(例如BERT)能够捕获不同类型和层次的信息,例如3、4层为表面信息,6、7层为句法,7、9、12层为语义。
因此,本实验中使用12层BERT-base作为编码器,每次batch从同时包含句法和语义信息的集合M = {7, 9, 12}中随机选取一个作为插值的层数。
三、MixText半监督文本分类模型
前面介绍的TMix提供了一种通用的数据增强方法,可以应用于各种下游任务。其中,陈佳奥的团队重点研究了文本分类上的应用,进一步提出了基于TMix与consistency training的半监督文本分类模型MixText。
该模型运用一种标签预测方法来为训练过程中未标记的数据生成标签,从而将未标记数据视为额外的标记数据,并执行TMix从而进行训练。此外,模型将TMix与附加的数据增强技术结合,从而有效地扩充了原有的数据集。
图中,Xl表示labeled data;Xu表示unlabeled data;Xa表示augmented data
1.
反向翻译
首先,该方法运用反向翻译技术,将原句翻译从英语翻译成德语或俄语,再翻译回英语从而获得相同语义的不同说法(paraphrase)。这步增强的数据与原始数据区别在于近义词替换、词序更改,但语义相近,因此我们期望它们有相同的预测分布。
2.
标签预测
接着,利用原始数据以及对应的增强数据来训练分类器,从而预测其类别分布,并使用加权平均(为更高质量的句子分配更高权重)进行聚合,生成预测结果。
为了防止预测分布太过均匀,使用锐化函数(sharpening functions)让结果更接近于on-hot向量,作为预测的标签。
3.
TMix数据增强
然后把标注数据、未标注数据和增强的数据随机组合,进行TMix操作,使得训练过程中有标签和无标签数据的监督可以互相传播,减轻过拟合,并利用更多文本信息。
4.
损失函数
最后,模型的损失函数由两部分组成:一项是,模型进行TMix插值之后预测的类别分布和将原始标签进行插值后的分布之间的KL散度;另一项是entropy minimization,使得模型对未标记数据做出置信度更高的预测。
四、模型效果
团队使用5000个未标记数据和四个不同标记量的数据集(每类10到10000个标记数据)来评估模型。
结果表明在四个数据集上,与不同基准模型(BERT和UDA)的表现相比,MixText性能最好。
当每个类别的标签数据极为有限时,模型准确率的提升尤为明显。例如,每类仅需10个labeled sentence就可以在AG News数据集上达到88.4%的准确率。
同时,当未标记数据增多时,模型的训练效果也不断提升,进一步验证了其充分利用未标记数据的能力。
最后,对于Bert来说,在大约10个epoch内损失往往增加很多,这表明该模型在训练集上过度拟合。虽然UDA也可以通过一致性正则化(consistency regularization)来缓解过拟合问题,但是TMix和MixText始终表现出更稳定的趋势和更低的损失。
总结:
为了减轻监督模型对标注数据的依赖性,陈佳奥及其团队提出了一种在隐藏空间执行线性插值的数据增强方法TMix,以及基于TMix、数据增强和一致性训练(comsistency training)的半监督文本分类模型MixText。通过对四个基准文本分类数据集的实验,证明了TMix和MixText模型在标记数据有限时的优质性能,能够显著提升分类准确率、缓解过拟合问题。
原论文:
Chen, J., Yang, Z., & Yang, D. (2020). MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification. ACL 2020.
开源代码:
https: //github.com/GT-SALT/MixText
整理:鸽鸽
审稿:陈佳奥
排版:田雨晴
本周直播预告:
AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你
AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。
更多资讯请扫码关注