参考文献链接:[2204.08610] Image Data Augmentation for Deep Learning: A Survey (arxiv.org)

基本数据增强方法

Image Manipulation(图像处理)

        主要集中在图像变换上,例如旋转、翻转、增大或缩小图像比例、添加噪声、更改颜色通道、改变对比度、更改清晰度、平移和裁剪等,基本操作如table1所示。

        缺点:首先,仅在现有数据服从接近实际数据分布的假设下应用基本图像操作才有意义。其次,一些基本的图像处理方法,如平移和旋转,会受到填充效应的影响,即在操作之后,图像的某些区域会被移出边界而丢失。

医学数据图像分类数据增强 图像 数据增强_Image

Image Erasing(图像擦除)

        通常删除图像中的一个或多个子区域,主要思想是将这些子区域的像素值替换为常量值或随机值。

Cutout(2017):在训练卷积神经网络 (CNN) 期间随机屏蔽输入的正方形区域。

HaS(2018):随机隐藏训练图像中的补丁,这可以迫使网络寻找其他相关内容,而最具辨别力的内容被隐藏起来。

随机擦除(2020):随机选择图像中的矩形区域,并用随机值替换其像素,简单但有可改进之处。

GridMask(2020):它也是基于输入图像中区域的删除,但删除的区域是一组空间均匀分布的方块,可以在密度和大小上进行控制。

FenceMask(2020):为了平衡物体遮挡和信息保留的基于物体遮挡的模拟策略。

Image Mix(图像混合)

        主要是通过将两个或多个图像或图像的子区域混合为一个来完成的。

SamplePairing(2018):通过将每个新图像与训练集中随机选择的两个图像(称为配对样本)合成来扩大数据集,使用的合成方法是对每个像素上的两个图像的强度进行平均。

Mixup(2017):随机两张图像按比例混合,不仅仅是平均两个图像的强度,而是对样本对及其标签进行凸组合。

CutMix(2019):用另一幅图像中的一块代替去除的区域,与Mixup相比可以生成更自然的图像。

FMix(2020):方法使用了从傅里叶空间中采样得到的低频图像的二值模板。采用多种形状的随机掩模,性能超过了MixUp和CutMix。

Augmix(2019):通常是将同一图像在不同增强管道中产生的结果进行混合。

Manifold Mix(2019):把输入数据混合扩展到对中间隐层输出混合来改进神经网络在多层上的隐藏表示和决策边界。

高级数据增强方法

自动增强

AutoAugment(2019):由搜索算法和搜索空间两部分组成。搜索算法旨在找到关于最高验证准确性的最佳策略;搜索空间包含许多策略,这些策略详细说明了各种增强操作和应用这些操作的幅度。其一个关键挑战是从一个大的候选操作搜索空间中选择一个有效的增强策略,搜索算法通常使用强化学习,这带来了很高的时间成本。

Fast AutoAugment(2019):通过基于密度匹配的更有效的搜索策略找到有效的增强策略。与 AutoAugment 相比,这种方法可以加快搜索时间。

Population Based Augmentation (PBA,2019):一边训练一边观察各种不同增广方式的效果,与没有考虑当前训练迭代情况而应用相同的变换方式的固定增强策略,形成了鲜明对比,效率更高。

RandAugment (2020):超越了之前所有的自动增强技术,包括 AutoAugment 和 PBA。 RandAugment 通过删除计算量大的单独搜索,显著减少了数据扩充的搜索空间。此外,RandAugment 还进一步提升了 性能。

KeepAugment(2021): 使用显著性图来检测原始图像上的重要区域,然后在增强过程中保留这些信息区域,减少因引入嘈杂的扩充示例和对推理带来负面影响。

Augmentation-wise Weight Sharing策略(2020): 与 AutoAugment 相比,这项工作显著提高了效率,并且可以负担得起直接在大规模数据集上进行搜索。

OHL-Auto-Aug(2019):将增强策略制定为参数化概率分布,并且参数可以与网络参数联合优化。

特征增强:在学习到的特征空间中执行转换

特征空间的增强(2017):提出一种“领域无关的”数据增强方法,使用在学习的特征空间内通过操作数据的向量表示的各种增强方法,其中包括添加噪声、近邻插值和外推法。

FeatMatch(2020):一种新的基于学习特征的细化和增强方法,可以产生各种复杂的转换集。此外,FeatMatch 可以利用来自类内和跨类原型表示的信息。

Moment Exchange(2021):通过鼓励模型利用潜在特征的矩信息,提出了一种隐式数据增强方法。具体来说,一张训练图像的学习特征的矩信息被另一张图像的学习特征的矩信息所取代。

深度生成模型

        核心思想:生成数据的数据分布不应与原始数据分布不同。本小节中,我们想介绍一些基于 GAN (2014)的图像数据增强技术。

Pix2Pix(2014):基于条件对抗网络,学习从输入图像到输出图像的映射,但需要大量的配对数据。

CycleGAN (2017):由两个生成器和两个鉴别器组成,必须分别为每个配对域训练模型。例如,如果任务是在 n 个域之间进行转换,共需要训练 n×(n−1) 个模型。

StarGAN (2018):只构建一个模型来执行多个域之间的图像到图像的转换。在生成阶段,只需要为生成器提供源图像和指示目标域的属性标签。但其将域标签作为附加输入,并为每个域学习确定性映射,这可能会在给定输入图像的情况下为每个域产生相同的输出。

StarGANv2(2020):这是一种可扩展的方法,可以跨多个域生成不同的图像。在这项工作中,研究人员分别将图像的领域和风格定义为视觉上不同的类别组和每幅图像的特定外观。通过这种方式,StarGANv2 可以将一个域的图像转换为目标域的不同图像,并支持多个域。

未来研究方向的讨论

数据增强的理论研究

数据增强方法的评估常用的有由人眼进行评估,Amazon Mechanical Turk (AMT) 通常用于评估输出的真实性、一些研究将评估与特定任务结合起来,即根据数据增强方法对有无数据增强的任务指标的影响来评估数据增强方法。

类不平衡:类不平衡或数据很少会严重扭曲数据分布。Synthetic minority of oversampling technique (SMOTE,2002)是对少数类进行过采样,,过采样是从当前数据集中重复绘制,这可能会使少数类饱和并导致过度拟合。最终,我们期望生成的数据可以模拟与训练数据相似的分布,而多样性永远不会丢失。

生成数据的数量:数据增强训练数据量的增加与性能的增加并不完全成正比。

数据扩充的选择与组合:组合方法的结果通常优于单一方法(2017)。