对比学习系列

  1. 诸神黄昏时代的对比学习
  2. “军备竞赛”时期的对比学习好。
  3. 对比学习之 Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
  4. SimCSE:NLP中的对比学习

这是一整个系列的文章是接着上面的123继续写的,4也属于这个系列,但是跟这篇文章并没有特别大的关系。所以要看完整的建议还是把123先看了。如果你不看也可以,我下面会简要的介绍一下前面所有的文章。不过只是一句带过,如果想详细了解的话,还是建议仔细看一下。


回顾一下

回忆一下我们前边提到的对比学习。这个学习的一个重点就是设置正样本和负样本进行对比,不同的对比学习之间最大的区别就是正负样本的选择方式。现在回顾一下我们在前边的图像领域提到的一些对比学习的方法:

  • InstDisc:使用个体判别任务进行对比学习。正负样本的选择方法是将整个ImageNet数据集做成一个memory bank。从中抽取一个mini match作为正样本,再从中抽取一定数量的图片作为负样本。
  • InvaSpread:也是使用个体判别任务。正负样本的选择方式是从数据集中抽取一个mini batch的图像,对其进行增强。一张图片和它对应的增强之后的图片作为正样本,剩下的图片及其增强作为负样本。假设一个mini batch有N个样本,那每一次都会有2个正样本和2N-2个负样本。
  • CPC:前面两个工作都是使用的判别式任务,在这篇文章中使用的是生成式任务。用前T时间不能内容作为输入编码出一个结果,用这个结果去预测T时间之后的内容。T时间布之后的输入如果是正确的,那么这些输入编码出来的结果就作为正样本。其他错误输入编码出来的就作为负样本。
  • CMC:在这个工作中研究的是不同视角的特征信息。正样本是一个图片的不同视角。负样本是其他图片的不同视角。
  • SimCLR:这个有点类似于前面的InvaSpread,不过区别在于它是从数据集中抽取一个mini batch的图像,对这一组图像进行两次不同的增强。同一张图片的两个增强作为正样本,其他图片的两个增强作为负样本。在这里也是假设一个mini batch有N个样本,那每一次都会有2个正样本和2N-2个负样本。
  • SwAV:这个工作提出的是与聚类中心进行比较。因为原作者认为从数据集中随机抽取的图像是没有代表性的,可能会出现抽重复的问题,如果负样本选择太多,也可能会造成计算资源的浪费,因此在这篇文章中提出了与聚类中心进行一个比较。
  • SimCSE:这是一个文本领域的对比学习,因为文本领域和图像领域数据增长方式存在差异。直接对文本进行增强的话,会影响对比学习的效果。因此在这篇文章中使用对文本进行dropout。两次drop获得同一个内容的不同表示作为正样本,其他的输入句子作为负样本。

前边我们提到的这些工作都是有正样本和负样本的。但是今天要介绍的这几个文章,他们独出心裁,不使用负样本,也能够做对比学习。


不用负本的对比学习

BYOL

论文简介

论文地址:Bootstrap your own latent: A new approach to self-supervised Learning 代码地址:https://github.com/deepmind/deepmind-research/tree/master/byol

image.png

我们先来看一下模型的效果吧。这张图是不是似曾相识,SwAV的效果图也是这么画的。我们可以看到下边都是SimCLR,上边都是有监督学习。并且也比较了不同模型的大小。但是实际上BYOL的效果不如SwAV,但是为什么没有和SwAV比较呢,因为二者是同时期的工作,所以没有比较也是正常的。

这上面这张图里我们可以看出BYOL的效果是明显好于SimCLR、CMC、Moco、MoCo V2的。既然他取得了这么好的效果那它的模型究竟是什么样子的呢。

image.png

对于一个mini batch的图像对其进行两次增强$t$和$t'$。获得两个视角$v$和$v'$,这二者用过两个编码器$f_θ$和$f_ξ$获得两个不同的表示$y_θ$和$y'_{\xi}$。再经过两个线性层$g_θ$和$g_ξ$获得projection。因为是一个mini batch的不同增强,所以经过编码之后两个向量应该都指向相同的内容。那使用其中一个去预测其中另一个也是成立的。在这个思路的指导下就是将上半部分的网络的projection拿来做预测,预测下半部分网络的内容。让二者尽量相似。因此使用的损失是MSE loss。

两个网络的训练方式是不同的。上半部分使用的是正常的梯度更新,下半部分使用的是动量编码器。

image.png

为什么不用负样本是“别出心裁”

使用对比学习的目的是这个问题是想要 让训练之后的网络遇到相似的物体能编码出来相近的特征。

想象一下这样一个场景:如果在对比学习中只有正样本,没有负样本,因为正样本都是相似的样本,所以你给模型输入,不论你输入什么,他只要给你返回同样的输出,这样的话所有出来的特征都是完全一样的。这个时候用结果去计算对比学习的loss就永远都是0。从loss来看,你以为自己训练了一个完美的对比学习模型,然而实际上是不论你输入什么,他都给出相同的结果,模型又什么都不需要学,loss永远都是0。

因此对比学习中需要负样本。负样本的作用是作为约束,让模型知道噢还有其他的东西需要编码,所以我不能草率的把相近的东西给出相同的编码。这样模型才有动力去继续学,因为如果输出的所有特征都一样,那负样本的loss就无穷大,所以它必须想办法让正样本和负样本的loss都往下降,达到一个最优解。

所以说,负样本在对比学习里是个必须的东西,它能防止模型学到捷径,很多论文里也管这个叫model collapse或者learning collapse ,就是模型坍塌或者学习坍塌,说白了就是什么也没学到,负样本就是为了限制这种情况的发生。

但BYOL之所以神奇就是它没有用负样本,正样本自己跟自己学最后在ImageNet上也达到了74.3的准确率。

围绕BYOL展开论战

Understanding Self-Supervised and Contrastive Learning with "Bootstrap Your Own Latent" (BYOL)

现在不得不提一下下上面这篇博客。

BYOL出来之后很惊奇,嘛所以有人就是复现他这个模型。但是人家复现出来的模型不论怎样都是坍塌的。你出现不出来人家的结果,第一反应是什么?是不是对这个人论文造假了。但是这篇论文是谷歌 DeepMind的工作,所以复现模型的人就在想,谷歌应该不会学术造假,肯定是我们哪里出了问题。然后他们就开始找原因,找呀找:

最后他们找到了原因,问题出在了batch norm上。 这个。 image.png

SimCLR是Hinton的工作,当时给编码器出来的特征再加了一个projection head,也就是一个简单的MLP,效果直接提升了10个点,令研究人员自己都感到震惊。他们当时的模型是: $$ linear - batch normal - ReLu - linear - batch normal $$

MoCo的作者看到了,既然MLP这么好用,那我们也用一下。所以在MoCo v2中也加入了projection head。

image.png

但是他们的线性层是没有batch norm的。

复现这个模型的人呢没有考虑这些细节,复现BYOL时候就直接使用人家MoCo v2之前的代码改吧改吧,改出了BYOL。但是实际上BYOL使用的MLP和MoCo v2是不同的。

我在上面画了一个对比图,大家可以明显的看出来两个MLP是不同的。BYOL中可以看到有三个紫色的模块。前两个是projection head 后边那个是 prediction head。这三个的结构都是相同的。只在第一个线性层后边接一个batch norm。因为多了这一个batch norm,所以BYOL的模型没有坍塌,但是复现这篇论文的人他们的模型坍塌了。

image.png

所以在这篇博客中,这个人总结到BYOL之所以成功,是因为它有一个batch norm。博客的作者认为虽然你没有引入负样本,但是batch norm做的一个归一化是将整个样本的数据都引入了每一个特征向量中,还是隐含的吸收到了整个样本中的信息。

BYOL的反击

上面这篇博客说明了什么。按照上面这篇博客的意思,整个BYOL的成功仅仅是因为batch norm,因为batch norm在暗中还是对整个样本进行了对比。这是相当于否认了整个BYOL论文的创新点。为了保住自己的成果BYOL的作者开始了反击。

因为MoCo v2本来就没有使用BN,所以无法比较BN的作用。因此作者与SimCLR进行比较。作者做了下图充足的消融实验。

作者用 $$ \begin{aligned} &encoder&Projector \quad &predictor \ &\quad— \quad&BN \quad \quad&\quad— \end{aligned} $$ 这组实验说明你看在这里我用了BN,但是最后模型还是坍塌了,所以肯定不是BN在起作用。

还用 $$ \begin{aligned} &encoder&Projector \quad &predictor \ &\quad— &— \quad \quad\quad&\quad 任意 \end{aligned} $$ 因为SimCLR没有predictor,因此最后一项是任意。或者用这组实验说明不用BN的情况下,虽然SimCLR存在负样本,但是SimCLR也模型坍塌了,肯定不是BN在起作用。

image.png

虽然但是。其实我个人觉得这个解释有点牵强,甚至在我眼里,我认为这个实验更加突出了BN的作用。尤其是predictor里BN的作用。(个人观点而已)

到这里这个故事就算是结束了。那个博客的作者也妥协了。

SimSiam

论文地址:http://arxiv.org/abs/2011.10566

image.png

看一下它的模型图。从作图方式上是不是感觉似曾相识,如果你看过MoCo你就应该知道,SimSiam和MoCo的画风完全一致。没猜错SimSiam还是Facebook的工作。

从名字看像SimCLR,模型的做法又像是BYOL,但他还是Facebook的工作。看起来像不像一个拼接怪。

接下来我们来看一下这个模型都在干什么。

还是把图片$x$进行不同的增强,得到$x_1$和$x_2$。从前后到两组图片放入一个孪生网络中。孪生网络的两个编码器是共享参数初始化的。之后将一个编码器编码出来的表示拿来预测另一个。

image.png

这个工作和BYOL的主要区别是他没使用动量编码器。

看一下下面的伪代码,我们就能知道这个算法真的是非常简单。 image.png

并且在本文中进行了大量的实验。最后作者得到一个结论:之所以SimSiam能够成功训练,不会有模型坍塌,主要是因为有stop gradient这个操作的存在。

前面说这个论文是个拼接怪。最终作者自己也说自己像是拼接怪。

image.png

SimCLR:SimCLR因为是端到端的学习,所以说两边都有梯度回传,但是它还是做的一个对比任务

SwAV:做的也是一个对比任务,但它并没有跟负样本去比,而是跟聚类中心去比的,那聚类中心是通过SK算法得到的

BYOL:BYOL就有一个新的贡献(就是predictor,图中已经单独画出来了),它就不是一个对比任务,变成一个预测任务了,要用左边去预测右边,同时还使用了动量编码器

SimSiam: 整体跟BYOL非常像,左边其实就是一模一样,只不过右边没有用动量编码器,所以这个对比还是比较简洁明了的。