这次简单记录下、GAN和主动学习结合的一些论文,不当处、望指正~
Active Learning 主动学习:背景众所周知,深度学习的崛起和广泛应用是依靠着大量的标注数据的,但在很多场合下,大规模数据的标注成本太高,同时也可能导致训练时间过长。主动学习可挑出所谓高信息的数据去标注,从而降低标注成本、减少训练时间,还可以迭代提升模型表现。定义目的是设计一个选择/查询函数(query function),用它来从大量的、未标注的数据池中选出具有高价值的待标注数据,递送给人工标注(oracle)后,加入训练集,反复迭代训练模型。常见手段
主动方法常见的有基于池、基于合成的方法。
-
基于池(pool):根据预设的选择策略选出的数据交给基准分类器预测,错误时再送人工标注。对于查询策略,如何挑选最有信息量的样本,常见地: 1)Random Sampling:随机选择;2)Uncertainty Sampling:选择当前模型最不确定的样本,如 分类概率为0.5等。但显然,这种策略受异常点、outlier 样本、冗余的样本影响。
-
基于合成:使用生成模型生成更具有信息的样本。
2. 2019-10-28 Variational Adversarial Active Learninghttps://arxiv.xilesou.top/pdf/1904.00370.pdf简介:提出一种基于池的半监督主动学习算法,通过对抗的方式学习采样/选择机制。使用变分自编码器学习潜码空间,训练对抗网络的判别器区分数据是否被标记。进一步地,VAE和判别器之间进行对抗学习:VAE尽可能让判别器预测所有的数据都是来自于标记池,判别器尽可能在隐空间层面区分是否为标记数据。作者认为所提出的方法可以学习有效的、低维的隐空间表征,并提供了一种高效的采样/选择方法。如下图所示,(XL,YL)表示打好标签的标记池中的标记数据, (XU)表示在大量未标记数据池中的数据。目标是训练最label-efficient的模型:通过迭代地查询一个固定的采样预算,从未标记池中挑选出最有“信息价值”的b个样本,提供给oracle(人工)进行标注。 表征学习:Transductive representation learning使用β变分自编码器进行表征学习。编码器在高斯先验基础上,学习一个隐含低维表征空间,解码器可以重建输入的数据。为补全有标记的数据在表征学习过程中丢失的特征,采用的是transductive learing(在训练过程中,已知testing data(unlabelled data)): Adversarial representation learning前面说过,大多数的采样策略的根据是模型的不确定性,例如认为:模型对预测越不确定,未标记样本包含的信息越多。但这种方法受限于异常点。相反,此方法对于采样策略的处理是,通过训练对抗网络去学习如何区分在潜在空间的表征。对抗网络中将输入映射到潜码空间,并且给一个标签,若样本是标记数据,则为1,如果是未标记数据,则为0。关键是、使用对抗的方式,VAE将标记和未标记的数据都映射到相似概率分布的空间,去欺骗判别器说所有的输入均是标记的。当然,判别器则尝试避免欺骗:
采样/选择策略:假如说要挑选b个高质量样本给人工标注,所用依据是鉴别器的预测分数(挑选b个最低的自信度,D判断出来越小的,越可能是未标记池中的数据)。 实验:作者在分类分割等任务都做了许多实验、去验证所提出的方法的有效性,这里就不贴了,详见原论文。3. 2019-12-20 Adversarial Representation Active Learning简介:GAAL严重依赖于生成图像的质量,并且生成器和鉴别器并没有得到迭代式的提升。而VAAL仅使用了标注数据训练分类器。不同之前的方法,该文作者在VAAL基础上,提出不仅使用已标注的数据训练分类器,同时还使用未标注的和生成的数据联合训练整个模型。 先暂时写到这吧==
更多分享欢迎关注本公众号: