别出心裁！不用负样本的对比学习

推荐原创

51Ann 2022-06-04 19:04:23 ©著作权

文章标签 聚类对比学习 CV 文章分类 深度学习人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者51Ann的原创作品，请联系作者获取转载授权，否则将追究法律责任

对比学习系列

这是一整个系列的文章是接着上面的123继续写的，4也属于这个系列，但是跟这篇文章并没有特别大的关系。所以要看完整的建议还是把123先看了。如果你不看也可以，我下面会简要的介绍一下前面所有的文章。不过只是一句带过，如果想详细了解的话，还是建议仔细看一下。

回顾一下

回忆一下我们前边提到的对比学习。这个学习的一个重点就是设置正样本和负样本进行对比，不同的对比学习之间最大的区别就是正负样本的选择方式。现在回顾一下我们在前边的图像领域提到的一些对比学习的方法：

InstDisc：使用个体判别任务进行对比学习。正负样本的选择方法是将整个ImageNet数据集做成一个memory bank。从中抽取一个mini match作为正样本，再从中抽取一定数量的图片作为负样本。
InvaSpread：也是使用个体判别任务。正负样本的选择方式是从数据集中抽取一个mini batch的图像，对其进行增强。一张图片和它对应的增强之后的图片作为正样本，剩下的图片及其增强作为负样本。假设一个mini batch有N个样本，那每一次都会有2个正样本和2N-2个负样本。
CPC：前面两个工作都是使用的判别式任务，在这篇文章中使用的是生成式任务。用前T时间不能内容作为输入编码出一个结果，用这个结果去预测T时间之后的内容。T时间布之后的输入如果是正确的，那么这些输入编码出来的结果就作为正样本。其他错误输入编码出来的就作为负样本。
CMC：在这个工作中研究的是不同视角的特征信息。正样本是一个图片的不同视角。负样本是其他图片的不同视角。
SimCLR：这个有点类似于前面的InvaSpread，不过区别在于它是从数据集中抽取一个mini batch的图像，对这一组图像进行两次不同的增强。同一张图片的两个增强作为正样本，其他图片的两个增强作为负样本。在这里也是假设一个mini batch有N个样本，那每一次都会有2个正样本和2N-2个负样本。
SwAV：这个工作提出的是与聚类中心进行比较。因为原作者认为从数据集中随机抽取的图像是没有代表性的，可能会出现抽重复的问题，如果负样本选择太多，也可能会造成计算资源的浪费，因此在这篇文章中提出了与聚类中心进行一个比较。
SimCSE：这是一个文本领域的对比学习，因为文本领域和图像领域数据增长方式存在差异。直接对文本进行增强的话，会影响对比学习的效果。因此在这篇文章中使用对文本进行dropout。两次drop获得同一个内容的不同表示作为正样本，其他的输入句子作为负样本。

前边我们提到的这些工作都是有正样本和负样本的。但是今天要介绍的这几个文章，他们独出心裁，不使用负样本，也能够做对比学习。

不用负本的对比学习

BYOL

论文简介

论文地址：Bootstrap your own latent: A new approach to self-supervised Learning 代码地址：https://github.com/deepmind/deepmind-research/tree/master/byol

我们先来看一下模型的效果吧。这张图是不是似曾相识，SwAV的效果图也是这么画的。我们可以看到下边都是SimCLR，上边都是有监督学习。并且也比较了不同模型的大小。但是实际上BYOL的效果不如SwAV，但是为什么没有和SwAV比较呢，因为二者是同时期的工作，所以没有比较也是正常的。

这上面这张图里我们可以看出BYOL的效果是明显好于SimCLR、CMC、Moco、MoCo V2的。既然他取得了这么好的效果那它的模型究竟是什么样子的呢。

对于一个mini batch的图像对其进行两次增强$t$和$t'$。获得两个视角$v$和$v'$，这二者用过两个编码器$f_θ$和$f_ξ$获得两个不同的表示$y_θ$和$y'_{\xi}$。再经过两个线性层$g_θ$和$g_ξ$获得projection。因为是一个mini batch的不同增强，所以经过编码之后两个向量应该都指向相同的内容。那使用其中一个去预测其中另一个也是成立的。在这个思路的指导下就是将上半部分的网络的projection拿来做预测，预测下半部分网络的内容。让二者尽量相似。因此使用的损失是MSE loss。

两个网络的训练方式是不同的。上半部分使用的是正常的梯度更新，下半部分使用的是动量编码器。

为什么不用负样本是“别出心裁”

使用对比学习的目的是这个问题是想要让训练之后的网络遇到相似的物体能编码出来相近的特征。

想象一下这样一个场景：如果在对比学习中只有正样本，没有负样本，因为正样本都是相似的样本，所以你给模型输入，不论你输入什么，他只要给你返回同样的输出，这样的话所有出来的特征都是完全一样的。这个时候用结果去计算对比学习的loss就永远都是0。从loss来看，你以为自己训练了一个完美的对比学习模型，然而实际上是不论你输入什么，他都给出相同的结果，模型又什么都不需要学，loss永远都是0。

因此对比学习中需要负样本。负样本的作用是作为约束，让模型知道噢还有其他的东西需要编码，所以我不能草率的把相近的东西给出相同的编码。这样模型才有动力去继续学，因为如果输出的所有特征都一样，那负样本的loss就无穷大，所以它必须想办法让正样本和负样本的loss都往下降，达到一个最优解。

所以说，负样本在对比学习里是个必须的东西，它能防止模型学到捷径，很多论文里也管这个叫model collapse或者learning collapse ，就是模型坍塌或者学习坍塌，说白了就是什么也没学到，负样本就是为了限制这种情况的发生。

但BYOL之所以神奇就是它没有用负样本，正样本自己跟自己学最后在ImageNet上也达到了74.3的准确率。

围绕BYOL展开论战

Understanding Self-Supervised and Contrastive Learning with "Bootstrap Your Own Latent" (BYOL)

现在不得不提一下下上面这篇博客。

BYOL出来之后很惊奇，嘛所以有人就是复现他这个模型。但是人家复现出来的模型不论怎样都是坍塌的。你出现不出来人家的结果，第一反应是什么？是不是对这个人论文造假了。但是这篇论文是谷歌 DeepMind的工作，所以复现模型的人就在想，谷歌应该不会学术造假，肯定是我们哪里出了问题。然后他们就开始找原因，找呀找：

最后他们找到了原因，问题出在了batch norm上。这个。

SimCLR是Hinton的工作，当时给编码器出来的特征再加了一个projection head，也就是一个简单的MLP，效果直接提升了10个点，令研究人员自己都感到震惊。他们当时的模型是： $$ linear - batch normal - ReLu - linear - batch normal $$

MoCo的作者看到了，既然MLP这么好用，那我们也用一下。所以在MoCo v2中也加入了projection head。

但是他们的线性层是没有batch norm的。

复现这个模型的人呢没有考虑这些细节，复现BYOL时候就直接使用人家MoCo v2之前的代码改吧改吧，改出了BYOL。但是实际上BYOL使用的MLP和MoCo v2是不同的。

我在上面画了一个对比图，大家可以明显的看出来两个MLP是不同的。BYOL中可以看到有三个紫色的模块。前两个是projection head 后边那个是 prediction head。这三个的结构都是相同的。只在第一个线性层后边接一个batch norm。因为多了这一个batch norm，所以BYOL的模型没有坍塌，但是复现这篇论文的人他们的模型坍塌了。

所以在这篇博客中，这个人总结到BYOL之所以成功，是因为它有一个batch norm。博客的作者认为虽然你没有引入负样本，但是batch norm做的一个归一化是将整个样本的数据都引入了每一个特征向量中，还是隐含的吸收到了整个样本中的信息。

BYOL的反击

上面这篇博客说明了什么。按照上面这篇博客的意思，整个BYOL的成功仅仅是因为batch norm，因为batch norm在暗中还是对整个样本进行了对比。这是相当于否认了整个BYOL论文的创新点。为了保住自己的成果BYOL的作者开始了反击。

因为MoCo v2本来就没有使用BN，所以无法比较BN的作用。因此作者与SimCLR进行比较。作者做了下图充足的消融实验。

作者用 $$ \begin{aligned} &encoder&Projector \quad &predictor \ &\quad— \quad&BN \quad \quad&\quad— \end{aligned} $$ 这组实验说明你看在这里我用了BN，但是最后模型还是坍塌了，所以肯定不是BN在起作用。

还用 $$ \begin{aligned} &encoder&Projector \quad &predictor \ &\quad— &— \quad \quad\quad&\quad 任意 \end{aligned} $$ 因为SimCLR没有predictor，因此最后一项是任意。或者用这组实验说明不用BN的情况下，虽然SimCLR存在负样本，但是SimCLR也模型坍塌了，肯定不是BN在起作用。

虽然但是。其实我个人觉得这个解释有点牵强，甚至在我眼里，我认为这个实验更加突出了BN的作用。尤其是predictor里BN的作用。（个人观点而已）

到这里这个故事就算是结束了。那个博客的作者也妥协了。

SimSiam

论文地址：http://arxiv.org/abs/2011.10566

看一下它的模型图。从作图方式上是不是感觉似曾相识，如果你看过MoCo你就应该知道，SimSiam和MoCo的画风完全一致。没猜错SimSiam还是Facebook的工作。

从名字看像SimCLR，模型的做法又像是BYOL，但他还是Facebook的工作。看起来像不像一个拼接怪。

接下来我们来看一下这个模型都在干什么。

还是把图片$x$进行不同的增强，得到$x_1$和$x_2$。从前后到两组图片放入一个孪生网络中。孪生网络的两个编码器是共享参数初始化的。之后将一个编码器编码出来的表示拿来预测另一个。

这个工作和BYOL的主要区别是他没使用动量编码器。

看一下下面的伪代码，我们就能知道这个算法真的是非常简单。

并且在本文中进行了大量的实验。最后作者得到一个结论：之所以SimSiam能够成功训练，不会有模型坍塌，主要是因为有stop gradient这个操作的存在。

前面说这个论文是个拼接怪。最终作者自己也说自己像是拼接怪。

SimCLR：SimCLR因为是端到端的学习，所以说两边都有梯度回传，但是它还是做的一个对比任务

SwAV：做的也是一个对比任务，但它并没有跟负样本去比，而是跟聚类中心去比的，那聚类中心是通过SK算法得到的

BYOL：BYOL就有一个新的贡献（就是predictor，图中已经单独画出来了），它就不是一个对比任务，变成一个预测任务了，要用左边去预测右边，同时还使用了动量编码器

SimSiam：整体跟BYOL非常像，左边其实就是一模一样，只不过右边没有用动量编码器，所以这个对比还是比较简洁明了的。

上一篇：对比学习之 Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

下一篇：MapReduce #yyds干货盘点#

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯