Impossible Triangle: What’s Next for Pre-trained Language Models?

不可能的三角:预训练语言模型的下一步是什么?

机构: 微软认知服务研究小组

摘要:

大规模预训练语言模型(PLM)的最新发展极大地提高了模型在各种NLP任务中的能力,即在特定任务微调和零次/少次学习后的性能。然而,许多这样的模型都具有惊人的巨大规模,很少有机构能够承担预培训、微调甚至部署的费用,而中等规模的模型通常缺乏强大的通用性少镜头学习能力。

在本文中,我们首先从不可能三角形的角度阐述了当前使用PLM模型的障碍:1)中等的模型尺寸,2)最先进的少镜头学习能力,以及3)最先进的微调能力。我们认为,所有现有的PLM模型都缺少不可能三角形的一个或多个属性。为了弥补PLMs的这些缺失特性,人们提出了各种技术,如知识提炼、数据扩充和快速学习,这不可避免地为PLMs在实际场景中的应用带来了额外的工作。然后,我们提出了PLMs未来研究方向的见解,以实现不可能的三角形,并将任务分解为几个关键阶段。

1 背景

近年来,大规模预训练语言模型(PLM)显著提高了各种NLP任务的性能。从BERT(Devlin et al.,2018)和GPT-2(Radford et al.,2019)开始,自我监督预训练和监督微调的范式取得了巨大成功,刷新了许多NLP领域的最新成果,如语义相似性(Jiang et al.,2019)、机器阅读理解(Yang et al.,2019)、常识推理(Xu et al.,2021),和文本摘要(Zhang等人,2020年)。此外,中等规模的 PLM允许广泛且快速的模型微调和自适应。

然而,在许多真实的、特别是新颖的NLP场景中,由于预算或时间限制,用于有效微调的标记数据极其有限。这刺激了零炮和少炮NLP模型的发展。从GPT-3(Brown等人,2020)开始,超大型PLMS(SL-PLM)在仅给出任务描述和可能的手动示例时表现出优异的性能在NLP任务上(霍夫曼等人,2022;RAE等人,2021;CoudHely等人,2022)。这种能力以前在中等大小的PLM中没有观察到。然而,这些SL PLM前所未有的规模在很大程度上阻碍了它们的广泛应用。即使加载这样的模型,也很难获得足够的计算资源,更不用说有效的部署和可能的微调了。

因此,我们认为目前还没有一种轻型PLM在监督学习和一般NLP任务的零/少镜头场景中都具有优异性能。这导致了在实际场景中使用这些PLM的大量额外工作,将在下一节详细介绍。

2 不可能的三角形

在本节中,我们总结了PLM在不可能三角形中的当前障碍(图1)。这个三角形描述了PLMs有效使用所需的三个关键特性:P1:中等模型尺寸,P2:最先进的少镜头学习能力,P3:最先进的监督学习能力。这三个属性对应于PLMs实际应用的三个要求:P1用于使用合理数量的计算资源进行高效部署;P2适用于零或非常低的场景标记数据少;P3用于标记数据相对丰富的场景。

Impossible Triangle: What’s Next for Pre-trained Language Models? 论文翻译_nlp

图1:预训练语言模型(PLM)的不可能三角由实际场景中模型部署所需的三个属性组成。P1:中等模型尺寸,即参数小于10亿,P2:最先进的少镜头学习能力,P3:最先进的微调能力。

不可能三角存在的一个潜在原因是,在现阶段,只有当PLM达到了一个巨大的规模,并具有足够的模型容量时,才会出现强大的少数镜头学习能力。尽管iPET(Schick and Schütze,2020)等研究设计了中等规模的PLM,以实现比GPT-3更好的fewshot学习性能(Brown等人,2020年),但它们的表现优于后来的SL PLM,如PaLM(Chowdhery等人,2022年)。此外,还观察到,在模型规模下,零炮/少炮性能会出现不连续的改善(Chowdhery等人,2022年)。例如,与参数为8B和62B的车型相比,参数为540B的PaLM在许多任务中的精度都有大幅提升。因此,在保持良好的监督学习能力的同时,开发一个中等规模的SoTA零/几次学习性能模型仍然是一个巨大的挑战。

虽然没有哪家PLM在“不可能的三角”中实现了所有三项性能,但其中许多PLM已经获得了其中一项或两项功能:

中等尺寸PLM(带有P1+P3)。这些语言模型的模型大小适中,即不到10亿个参数,这可以实现高效的模型调整和部署。他们在一般NLP任务中取得了最先进的成果,如胶水基准测试(Raffel等人,2019年)、文本摘要(Zhang等人,2020年)、开放领域问答(Izacard and Grave,2020年)和常识推理(Xu等人,2021年)。然而,这些模型通常具有相对较弱的零拍/少拍能力,这意味着使用此类模型取决于目标域中足够的标记数据。

超大规模PLM(带P2)。这些语言模型具有巨大的模型大小(10到1000亿个参数),并且是在非常大规模的数据上预先训练的。例如,具有5400亿个参数的PaLM(Chowdhery et al.,2022)在具有7800亿个标记的多样化文本语料库上进行了预训练。当仅使用任务描述和可能的几个示例输入输出对进行提示时,它们在一般零/几次NLP任务中实现了SoTA性能。然而,总的来说,i)SL PLM的零拍/少拍性能低于监督训练模型,ii)经过微调后,许多SL PLM的性能仍然低于最佳微调中等尺寸PLM(Hu等人,2021),可能是因为它们的模型尺寸巨大2。

3 目前的补救办法

由于不可能的三角关系,人们已经采取了许多措施来解决实际使用的PLM的能力缺失问题。我们总结如下:

巨大的模型尺寸(缺少P1)。当SL-PLM显示出极好的少镜头学习能力和微调后的强大性能时,就会发生这种情况。为了获得性能与SL-PLM相似的中等规模模型,通常的做法是知识蒸馏(KD)(Gou等人,2021年)。在模型中,教师/学生的行为是一个较大的分布,而教师/学生的行为是一个较小的分布。知识提炼在创建效率更高的模型方面非常有效,只需在性能上做出一点牺牲。

然而,仍然存在两个问题。首先,有学问的学生很难达到老师的水平。其次,SL PLM的巨大规模阻碍了有效的推理,使其难以作为教师模型。

较差的zero/few-shot 性能(缺少P2)。这在中等尺寸的PLM中最常见,这些PLM在微调后实现SoTA性能,但具有相对较低的 zero/few-shot学习能力。在许多情况下,人们希望在缺少足够的标记数据时部署此类模型。因此,一种补救方法是数据扩充(Feng等人,2021年)。通过从其他模型(Wang et al.,2021)或噪声注入(Feng et al.,2021)生成伪标签和伪数据实例,该模型可以利用这些额外数据进行有效的监督训练。然而,伪数据质量的变化和不同任务中数据类型的多样性对普遍适用的解决方案提出了挑战。

监督培训表现不佳(缺少P3)。这在微调SL-PLM时是典型的,因为计算资源有限或训练数据量不足以微调超大模型。典型的解决方案是快速学习(Liu等人,2021年)。可以利用硬提示(即离散文本模板)或软提示(即连续模板),以便在微调期间仅更新硬提示词或软提示参数。这对于提高SL-PLM在给定标记数据时的性能是非常有效的。然而,这种性能可能对即时选择和训练数据非常敏感(Zhao等人,2021年),并且仍然不如中等规模的有监督学习PLM。

4 未来

虽然NLP模型目前存在不可能三角形,但我们认为它可以用多阶段方法解决。

第一阶段。PLM的开发目标是在三角形中实现一些期望的特性,同时改进其他缺失的特性。例如,一个具有SoTA监督学习能力的中等规模模型可以在其少镜头学习性能上得到改进;或者,将具有少量镜头学习能力的SL-PLM压缩成更小的模型,从而获得更好的监督学习性能。

第二阶段。实现所有三个期望属性的PLM是为几个NLP任务之一开发的,比如NER或文本摘要。为了实现这一点,我们可以利用目标任务的独特特性,例如,性能对训练数据量表的依赖性较小,零次/少量射击与监督学习性能之间的差距较小,等等。

第三阶段。在第一阶段和第二阶段的进展基础上,开发了在一般NLP任务上实现所有三个期望特性的PLM。潜在的方法包括预先训练具有更大数据的中等规模模型、更好的知识提炼、广义数据扩充方法等。

一旦PLM具备了一般NLP任务中不可能三角形的所有三个属性,它将改变NLP研究和应用的整个格局,促进快速、高效和高质量的模型开发和部署。

5 结论

为了适应各种实际场景,预训练语言模型(PLM)需要具有合理的规模,并获得极好的零/少镜头和监督学习能力。然而,目前还没有一个模型可以实现所有这三个期望的属性,我们将其定义为不可能的三角形。为了弥补不可能三角形中缺失的属性,人们在实践中采用了各种技术,如知识提炼、数据扩充和快速学习。然后,我们提出了未来的研究方向,即通过预先训练的语言模型,分三个阶段逐步实现不可能三角。