弱水三千，只取你标！AL（主动学习）结合GAN如何？

原创

公号机器学习与AI生成创作 2021-07-26 17:57:10 ©著作权

文章标签 其他 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者公号机器学习与AI生成创作的原创作品，请联系作者获取转载授权，否则将追究法律责任

这次简单记录下、GAN和主动学习结合的一些论文，不当处、望指正~

Active Learning 主动学习：背景众所周知，深度学习的崛起和广泛应用是依靠着大量的标注数据的，但在很多场合下，大规模数据的标注成本太高，同时也可能导致训练时间过长。主动学习可挑出所谓高信息的数据去标注，从而降低标注成本、减少训练时间，还可以迭代提升模型表现。定义目的是设计一个选择/查询函数（query function），用它来从大量的、未标注的数据池中选出具有高价值的待标注数据，递送给人工标注（oracle）后，加入训练集，反复迭代训练模型。常见手段

主动方法常见的有基于池、基于合成的方法。

基于池(pool)：根据预设的选择策略选出的数据交给基准分类器预测，错误时再送人工标注。对于查询策略，如何挑选最有信息量的样本，常见地： 1）Random Sampling：随机选择；2）Uncertainty Sampling：选择当前模型最不确定的样本，如分类概率为0.5等。但显然，这种策略受异常点、outlier 样本、冗余的样本影响。

基于合成：使用生成模型生成更具有信息的样本。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他

1. 2017-Generative Adversarial Active Learninghttps://arxiv.xilesou.top/pdf/1702.07956.pdf简介：第一个将GAN结合主动学习的工作，提出GAAL。采用的手段是基于合成的思路。如下图所示，还是一目了然的。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_02

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_03

有趣的是，作者在贡献的声明强调，该工作贡献主要在于：首次将GAN和主动学习相结合，而不是要和各种SOTA方法在什么精确率上一较高下，所以论文的实验部分，作者采用的是SVM做为分类器。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_03

当然，作者也说，我们方法是极具前景的~，并且和基于池的相比，也是competitive的呢，我们的方法也许可以启发后来者、用GAN展开相关的工作（坑已挖好，来跳，哈哈）。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_05

实验：对于训练数据的初始化是，随机筛选50个样本；每次1个batch对应10次queries。进行了以下几种方法的对比实验：

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_06

作者进行的是二分类的实验（多分类类似），MNIST上对数字5和7分类，CIFAR10对automobile 和 horse（也许因为当时GAN生成能力有限，或者也许作者懒得去搞最SOTA的GAN了，反正能够说明问题就行。但是采用的DCGAN实在乏力，在其实验数据上连生成猫和狗都吃力，因此选汽车和马生成效果更好区分些，2333）。作者其实也有提到一些可以改进GAN的方法，但作为未来工作，现在的实验结果先写文发出来，哈哈。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_07

在上图的top子图可以看到，在350个训练样本的时候，GAAL开始超越SVM-active和全监督训练的方法。其他图的具体细节感兴趣可以阅读原文。更多实验结果还有：

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_08

2. 2019-10-28 Variational Adversarial Active Learninghttps://arxiv.xilesou.top/pdf/1904.00370.pdf简介：提出一种基于池的半监督主动学习算法，通过对抗的方式学习采样/选择机制。使用变分自编码器学习潜码空间，训练对抗网络的判别器区分数据是否被标记。进一步地，VAE和判别器之间进行对抗学习：VAE尽可能让判别器预测所有的数据都是来自于标记池，判别器尽可能在隐空间层面区分是否为标记数据。作者认为所提出的方法可以学习有效的、低维的隐空间表征，并提供了一种高效的采样/选择方法。如下图所示，（XL,YL）表示打好标签的标记池中的标记数据，（XU）表示在大量未标记数据池中的数据。目标是训练最label-efficient的模型：通过迭代地查询一个固定的采样预算，从未标记池中挑选出最有“信息价值”的b个样本，提供给oracle（人工）进行标注。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_09

表征学习：Transductive representation learning使用β变分自编码器进行表征学习。编码器在高斯先验基础上，学习一个隐含低维表征空间，解码器可以重建输入的数据。为补全有标记的数据在表征学习过程中丢失的特征，采用的是transductive learing（在训练过程中，已知testing data（unlabelled data））：

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_10

Adversarial representation learning前面说过，大多数的采样策略的根据是模型的不确定性，例如认为：模型对预测越不确定，未标记样本包含的信息越多。但这种方法受限于异常点。相反，此方法对于采样策略的处理是，通过训练对抗网络去学习如何区分在潜在空间的表征。对抗网络中将输入映射到潜码空间，并且给一个标签，若样本是标记数据，则为1，如果是未标记数据，则为0。关键是、使用对抗的方式，VAE将标记和未标记的数据都映射到相似概率分布的空间，去欺骗判别器说所有的输入均是标记的。当然，判别器则尝试避免欺骗：

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_11

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_12

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_13

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_14

采样/选择策略：假如说要挑选b个高质量样本给人工标注，所用依据是鉴别器的预测分数（挑选b个最低的自信度，D判断出来越小的，越可能是未标记池中的数据）。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_15

实验：作者在分类分割等任务都做了许多实验、去验证所提出的方法的有效性，这里就不贴了，详见原论文。3. 2019-12-20 Adversarial Representation Active Learning简介：GAAL严重依赖于生成图像的质量，并且生成器和鉴别器并没有得到迭代式的提升。而VAAL仅使用了标注数据训练分类器。不同之前的方法，该文作者在VAAL基础上，提出不仅使用已标注的数据训练分类器，同时还使用未标注的和生成的数据联合训练整个模型。

弱水三千，只取你标！AL（主动学习）结合GAN如何？_其他_16