目录
- 1 对抗样本学习
- 1.1 使用对抗样本学习的利弊
- 1.2 使用对抗样本学习的最新技术
- 2 自监督和对比学习
- 2.1 自我监督和对比学习的利弊
- 2.2 最先进的自我监督和对比学习
1 对抗样本学习
深度学习和计算机视觉系统在各种任务上都取得了成功,但它们也有缺点。最近引起研究界注意的一个问题是这些系统对对抗样本的敏感性。一个对抗性的例子是一个嘈杂的图像,旨在欺骗系统做出错误的预测 [1]。为了在现实世界中部署这些系统,它们必须能够检测到这些示例。为此,最近的工作探索了通过在训练过程中包含对抗性示例来使这些系统更强大对抗对抗性攻击的可能性。
1.1 使用对抗样本学习的利弊
优点:传统的深度学习方法对数据集中的每个训练样本均等地加权,而不管标签的正确性。这可能会使学习过程脱轨,尤其是在标签包含噪声的情况下。通过对抗性学习,当加入不同级别的噪声时,每个样本的可靠性可以根据其预测标签的稳定性来估计。这使模型能够识别和关注对噪声更具弹性的样本,从而降低其对对抗性示例的敏感性。此外,在训练机制中包含对抗性示例已被证明超过了标准任务的基准,例如对象分类和检测。这在半监督设置中很有用,即当标记数据供应有限时。
缺点:对抗性训练涉及设置“epsilon”参数,该参数控制添加到每个样本的噪声量,过高的“epsilon”可能会阻碍学习过程。此外,[2] 中所做的实验表明,随着大型标记数据集的可用,监督学习技术的性能赶上了对抗性训练技术,使得对抗性训练的优势变得不那么深刻。
1.2 使用对抗样本学习的最新技术
SENTRY:此方法在迁移学习的设置中使用对抗性示例。迁移学习是深度学习的领域,其中在源分布上训练的模型在不同的目标分布上进行微调和评估。在目标分布中,SENTRY 解决了分配给所有样本的权重相等的问题。它使用“预测一致性”方法识别可靠的目标实例。在这种方法中,模型的预测置信度在被认为可靠的高度一致的目标实例上增加。更具体地说,一个实例,连同它自身的几个增强版本,被输入到一个模型集合中。评估每个模型的预测的一致性。如果更多模型的预测一致,则目标实例是可靠的,因此应该用于最小化熵损失。如果预测不一致,则目标实例不可靠,因此应忽略。按照这种方法,SENTRY 在 DomainNet [3] 上实现了 SOTA,这是一个标准数据集,用于评估模型的迁移学习能力。
AdvProp:在训练中包含对抗性示例已被证明可以提高模型性能并导致更符合人类解释的特征 [4]。这项工作探索了干净和对抗性图像的联合训练模型。以前的工作探索了对抗样本的预训练模型,然后对干净的图像进行微调。虽然这提高了分类性能,但模型变得容易受到“灾难性遗忘”的影响,其中模型忘记了它在预训练阶段(在域转移的情况下)学习的特征。为了解决这个问题,提出了辅助批量归一化(BN)层来专门对对抗样本进行归一化。另一方面,正常的 BN 层用于标准化干净的图像。这允许归一化层根据干净样本和对抗样本的不同分布而表现不同。在推理过程中,辅助 BN 层被删除,而正常的 BN 层用于预测。这种训练机制与作为主干架构的 EfficientNet 一起在 ImageNet 分类精度上实现了前 1 名的 SOTA 性能。此外,AdvProp 在更难的 ImageNet 版本上实现了 SOTA 性能:ImageNet-a、ImageNet-c 和 Stylized ImageNet。此外,在训练中包括对抗样本也实现了目标检测的 SOTA [5]。
2 自监督和对比学习
深度学习需要干净的标记数据,这对于许多应用程序来说很难获得。注释大量数据需要大量的人力劳动,这是耗时且昂贵的。此外,数据分布在现实世界中一直在变化,这意味着模型必须不断地根据不断变化的数据进行训练。自监督方法通过使用大量原始未标记数据来训练模型来解决其中的一些挑战。在这种情况下,监督是由数据本身(不是人工注释)提供的,目标是完成一个间接任务。间接任务通常是启发式的(例如,旋转预测),其中输入和输出都来自未标记的数据。定义间接任务的目标是使模型能够学习相关特征,这些特征稍后可用于下游任务(通常有一些注释可用)。自监督学习在 2020 年变得更加流行,当时它终于开始赶上全监督方法的性能。有贡献的一项特殊技术是对比学习 (Contrastive Learning)。
CL 的灵感来自一个古老的想法 [6],即相似的项目应该在嵌入空间中保持靠近,而不同的项目应该相距很远。为了实现这一点,CL 形成了样本对。对于给定的样本,使用样本项和它的增强版本创建一个正对。类似地,使用相同的项目和不同的项目创建负对。然后,学习特征使得正对在嵌入空间中很近,而负对相距很远。这允许相似的项目在嵌入空间中聚集在一起。聚类中心可以表示语义或对象类。由于没有使用标签,CL 可以利用大量未标记的原始数据。
2.1 自我监督和对比学习的利弊
优点:自监督学习是一种数据高效的学习范式。监督学习方法教会模型擅长特定任务。另一方面,自监督学习允许学习不专门用于解决特定任务的一般表示,而是为各种下游任务封装更丰富的统计数据。在所有自监督方法中,使用 CL 进一步提高了提取特征的质量。自监督学习的数据效率特性使其有利于迁移学习应用。
缺点:自监督学习的大部分成功都归功于精心选择的图像增强,例如缩放、模糊和裁剪。因此,为特定任务选择正确的增强集和程度可能是一个具有挑战性的过程。此外,CL 可能会误导模型区分包含相同对象的两个图像。例如,对于一匹马的图像,为了创建负对,CL 可能会选择另一个也包含一匹马的图像。在这种情况下,模型认为是负对的实际上是正对。
2.2 最先进的自我监督和对比学习
SimSiam: Exploring Simple Siamese Representation Learning:Siamese 网络框架是一种在自监督学习中广受欢迎的架构。与创建正负对的 CL 不同,该框架仅最大化图像增强之间的相似性,这有助于学习有用的表示。自监督学习中的并行工作使用对比损失,这些工作的成功依赖于 (i) 负对 [7] 的使用,(ii) 批次大小,以及 (iii) 动量编码器 [8]。然而,SimSiam 不依赖于这些因素,使其对超参数的选择更加稳健。此外,SimSiam 使用“stop-gradient”技术来防止特征崩溃。特征崩溃是一种现象,模型在不学习有用表示的情况下学习了最小化目标函数的捷径。因此,学习到的特征是不可泛化的。通过避免特征崩溃,SimSiam 在 ImageNet 和后续下游任务(例如 COCO 对象检测和实例分割)上取得了有竞争力的结果。
DINO:自监督视觉Transformers的新兴特性:DINO 建立在 SwAV [9] 之上,包括无标签的自蒸馏。使用的主干架构是Transformers [10],它已被证明优于卷积网络。使用transformers + DINO框架,改进了图像分类任务的SOTA。DINO 可应用于复制检测和图像检索等应用。给定一个查询图像,尽可能快地检索该图像的所有可能副本。此外,DINO 免费提供分段功能。与监督方法相比,在 DINO 中学习的特征已被证明在显着图生成方面表现更好。最后,通过仔细的阈值设置,DINO 可以开箱即用地应用于每帧视频对象分割,而无需进行时间一致性训练。