论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence

原创

AA夏栀?_? 2022-12-22 03:20:36 ©著作权

文章标签 bert 自然语言处理深度学习语言模型二分类 文章分类 NLP 人工智能

©著作权归作者所有：来自51CTO博客作者AA夏栀?_?的原创作品，请联系作者获取转载授权，否则将追究法律责任

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence Prediction

先前的一些基于Prompt的方法都是建立在Masked Language Modeling（MLM）任务上，即将下游任务转换为完形填空型任务。本文则换一种角度，将Prompt用在了被大多数语言模型摒弃掉的Next Sentence Prediction（NSP）上。

简要信息：

序号	属性	值
1	模型名称	NSP-BERT
2	发表位置	ArXiv 2021
3	所属领域	自然语言处理、预训练语言模型
4	研究内容	Prompt-tuning
5	核心内容	NSP, Prompt-tuning, Few-shot
6	GitHub源码	https://github.com/namisan/mt-dnn
7	论文PDF	https://arxiv.org/pdf/2109.03564

一、动机：

现有的工作都关注基于GPT的 left-to-right 或BERT的Masked Language Model（MLM）的prompt方法（即基于token-level的prompt）；本文则使用被RoBERTa等摒弃掉的NSP任务来实现，并应用在Zero-shot场景。

二、贡献：

提出NSP-BERT，基于sentence-level的pre-training任务实现prompt-learning；
提出两个可选择的label/answer映射方法，在sentence-pair上提升效果；

三、Prompt

目前Prompt-tuning可以分为两种类型，分别是：

Token-level Prompt-learning

给定一个句子，添加一个带有[MASK]的prompt模板，设计verbalizer来获得[MASK]预测的词以及对应的标签；因此可以将一些任务转换为完形填空式任务。

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_深度学习

Sentence-level Prompt-learning

将NLP转换为文本蕴含任务，例如：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_二分类_02

换句话说，可以将原始的文本、设计的Template以及候选的答案一起拼接起来后，构造为NSP的任务数据，并让模型来判断候选答案是否符合上下文语义。

四、NSP-BERT

NSP可以用于多种不同的任务，所有任务均可以转换为NSP的格式，具体情况如下图所示：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_深度学习_03

MLM与NSP的对比如下图所示：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_语言模型_04

基于MLM的prompt-tuning旨在添加一个额外的模板，并让模型预测[MASK]对应的预测结果，并映射到相应的类别上，从而只需要利用预训练好的MLM head，避免引入新的参数；
基于NSP的prompt-tuning则是完全利用预训练好的NSP head，将所有任务转换为类似自然语言推理（NLI）的模式，并让模型判断候选的答案是否正确。

具体地说，在预训练过程中，NSP的目标始终是一个二分类任务，即在NSP头部（[CLS]）添加一个分类器：

$论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_深度学习_05$

其中 $论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_语言模型_06$ ， $论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_bert_07$

NSP-BERT可以用于多个任务

single-sentence task

输入原始句子，以及对应的一个模板：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_语言模型_08

预测的概率则为

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_bert_09

sentence pair task

输入两个文本：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_深度学习_10

在NSP头部输出结果：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_bert_11

cloze-style task

$论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_bert_12$ 都对应一个带有[MASK]的模板 $论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_二分类_13$ ：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_二分类_14

输出isNext的概率分布：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_自然语言处理_15

备注：在cloze-style时，[MASK]部分（文本为[BLANK]）与候选文本的位置应该相等，即soft-position：

Word Sense Disambiguation

认为，NLI要提升推理能力，需要避免指代问题，提出two-stage prompt：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_二分类_17

Answer Mapping

如何将预测的答案映射到对应的标签上呢？因为NSP只是一个二分类任务（IsNext）。提出两种方法：

candidates-contrast：如果某个task包含多个候选标签，则为每个标签设计一个prompt模板，然后通过NSP预测这个标签与原文匹配的关系概率；对所有的标签，取概率最大的

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_语言模型_18

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_深度学习_19

samples-contrast
对于一些没有候选标签的数据，则基于样本和排序完成预测对应的标签：

论文解读：NSP-BERT： A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence_自然语言处理_20

上一篇：论文解读：SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis

下一篇：【预训练语言模型】StructBERT: Incorporation Language Structures into Pre-training For Deep Language Understa

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯