#高效微调统一新范式

仅微调0.02%参数,性能接近全量微调!

来自上海交通大学的研究者们在对各种PEFT方法进行全面数学分析后,提出了一种新的框架——子空间微调,旨在将所有已知的PEFT方法统一在一个理论下。

Scaling Laws当道,但随着大模型应用的发展,基础模型不断扩大的参数也成了令开发者们头疼的问题。

为了减轻训练负担,Adapter、Prompt-Tuning以及LoRA等高效微调(Parameter Efficient Fine-Tuning, PEFT)算法越来越受到大家伙的青睐。

那么,问题来了——

尽管近年来高效微调领域发展迅速,涌现了多种方法,但不同PEFT方法背后的数学基础几乎没有得到深入研究。

此外,不同PEFT方法之间的性能差异及其原因尚未系统地探讨。这种理论深度的缺乏限制了研究者对这些方法潜在优势和局限性的理解,阻碍了它们在实际应用中的优化和创新。

为了解决这一问题,来自上海交通大学的研究者们在对各种PEFT方法进行全面数学分析后,提出了一种新的框架——子空间微调,旨在将所有已知的PEFT方法统一在一个理论下,

具体来说,子空间微调方法主要集中于调整原始参数的子空间,涉及子空间的重构和扩展。研究者深入探讨了不同方法如何操作子空间,并从分解理论的角度阐明了每种方法的数学原理。此外,研究者分析了为什么这些方法会导致性能差异,提供了理解不同PEFT策略内在动态的全面理论基础。

他们基于此提出了两种新的PEFT方法,新方法在仅微调0.02%参数的情况下,性能接近于全面微调

研究者还介绍了一个有效的框架,在不引入额外训练参数的情况下,提升了LoRA等方法的性能。通过在三种不同模型上测试超过十种方法,广泛的实验验证了其理论的稳健性,同时展示了提出的方法和框架的有效性。

51c视觉~合集4_正则化

来看论文细节。

子空间微调理论

考虑任何给定主干网络层的冻结权重矩阵 , 其中 , 并用权重矩阵  的性能  来量化模型的性能, 值越高表示性能越好。

假设存在最优权重矩阵 , 且  对所有  成立。PEFT的目标公式化为:

其中  衡量两个矩阵之间的差异。函数  被视为增量调优, 表示对矩阵  的每个元素的修改, 但这种表征过于笼统。

从分解理论的角度看, 调整矩阵涉及修改其对应的子空间, 因此, 所有PEFT方法可视为子空间微调。

如此, 优化的目标是找到  在  基所生成的子空间内的最大投影, 然后将  与其对齐。

有两种方法实现这一目标:通过调整  来逼近 , 或操作  的子空间以接近或包含  。

研究者将函数  分配给两个主要角色:直接重构对应  的子空间, 以更好地对齐 , 或引入一个新子空间并与原始子空间结合。这些过程数学表示为:

其中,  概括了  的子空间重构过程,  描述了子空间的联合。研究者将这些操作分别称为 “子空间重构”和“子空间扩展”, 并将现有方法分类为三类:

  1. 基于子空间重构的方法,将复杂空间分解为易理解的子空间,并调整这些派生子空间的基
  2. 基于子空间扩展的方法, 引入一个新子空间, 在新子空间和原始权重矩阵 对应的子空间基所生成的空间内找到最优权重  的最大投影;
  3. 基于子空间组合的方法,同时采用上述子空间调整。

51c视觉~合集4_数据集_02

子空间重构

基于先前概述的框架,子空间重构方法首先将的空间分割为可解释的子空间,然后细化这些子空间以提高模型效率。许多PEFT策略集中于直接重构与原始权重矩阵相关的子空间,著名例子包括SAM-PARSER、Diff Pruning、(IA)3、BitFit、Prefix-tuning和Prompt-tuning等。

研究者从奇异值分解 (SVD) 开始探索, 原始权重矩阵  被分解为正交子空间,涵盖了原始矩阵空间的全部。分解表示为 , 这种分解将  分成左奇异向量  列空间的正交基)、奇异值  (调整维度和缩放)和右奇异向量  (  行空间的正交基)。通过调整分解获得的子空间, 可以重构原始空间, 分为三种模式:

  1. 奇异值调整:调整中的奇异值,修改每个主成分的权重,而不影响子空间方向。
  2. 简单奇异向量调整:通过缩放生成的子空间来调整 和 中的奇异向量,保留方向特性,同时调整幅度。
  3. 复杂奇异向量调整:对奇异向量进行更复杂的变换,重新定向或重塑子空间,全面调整矩阵结构。

51c视觉~合集4_权重_03

基于这一理论,研究者提出了两种新的微调方法:SSL(Scaling the Subspace of the Left singular vectors)和SSB(Scaling the Subspace of Both left and right singular vectors)。

从下图中可以看出,SSL最少只需要微调0.02%的参数,SSB最少只需要微调0.06%的参数,就能实现全量微调99%的性能

51c视觉~合集4_数据集_04

关于每种模式的具体操作、每种方法的具体内容、其背后的数学原理,以及研究者如何基于这一理论提出两种新方法的详细信息,请参阅原论文。

子空间扩

基于扩展的方法引入新子空间,结合该新子空间和原始权重矩阵  的基生成扩展空间。

这些方法旨在找到最优权重  在新空间内的最接近投影, 通过引入额外的权重矩阵来扩大原始子空间的基以覆盖更大维度区域。通常, 这些方法的转换函数定义为 , 其中 s 代表缩放因子,  对应于新子空间,也称为附加项。

考虑权重矩阵 , 假设  。理想情况下, 有 , 即  和  占据相同的行和列空间, 使它们定位在同一超平面内。

如果  的秩为 n , 其列空间的维度等于 n , 生成  子空间。若  的秩小于 n , 它只能在  内生成一个子空间。假设  和  的列空间基可以生成整个  空间, 在最优情况下,  的列基向量应补充  的列基, 意味着 的列空间代表这些空间的直和。

一些研究表明, 最优权重  会放大原始权重矩阵中某些特定任务的方向, 这些方向对于预训练并不关键。此外, 最优权重还会调整  的主要方向。这些见解表明  可能与  的子空间共享大量共同基。因此,  可能只需考虑  中缺少但  中存在的一小部分基, 使  成为低秩矩阵。

实证研究表明,预训练模型的全参数微调通常可重新参数化为在低维子空间内优化,表明最优权重在这个受限的低秩子空间内变化。的低秩特性突出了基于扩展方法的参数效率基础。

另一个关键方面是缩放因子 s 。基于扩展的方法目标是确定  在  和  形成的超平面内的最大投影, 确保  尽可能与  方向对齐。给定固定的  和 , 只有一个s值能使  的方向与  方向对齐, 因此 s 值对性能的影响可能非常显著。

在参数高效微调中,有两大系列基于扩展的方法。第一系列是LoRA衍生,包括LoRA、AdaLoRA、TriLoRA、FLoRA、VeRA等。第二系列是适配器衍生,包括Adapter(H),Adapter(P),Parallel Adapter等。

在此基础之上,研究者提出了MPC框架,以进一步提升现有算法的性能。

从下图中可以看出,在不引入额外参数的情况下,MPC框架显著增强了各种PEFT方法的性能。

另外,MPC可以帮助PEFT方法实现更稳定的训练。与不使用MPC的方法相比,结合MPC的方法通常表现出更小的标准偏差。

51c视觉~合集4_数据集_05

关于这些方法的具体分析,LoRA和Adapter系列算法性能差异的原因,以及MPC框架的详细设计思路,请参阅原论文。

子空间组合

基于组合的方法同时执行子空间重构和扩展,结合了这两种方法的原理。

此外,对于某些方法,它们既可以分类为基于重构的方法,也可以分类为基于扩展的方法,研究者也将它们分类为基于组合的方法。研究者分析介绍几种代表性的基于组合的方法,如DoRA,Spectral Adapter和SVDiff等。

关于这些方法的具体细节请参阅原论文。

论文:https://arxiv.org/pdf/2407.05417

代码:https://github.com/Chongjie-Si/Subspace-Tuning



#DGR-MIL

革新病理学:DGR-MIL多样性学习如何助力癌症诊断

本文提出了一种基于多元全局表示(DGR-MIL)的新型MIL聚合方法,所提出的模型在 CAMELYON-16 和 TCGA-肺癌数据集上大大优于最先进的 MIL 聚合模型。

Paper Link: https://arxiv.org/pdf/2407.03575

Github: https://github.com/ChongQingNoSubway/DGR-MIL

引言

在现代医学中,精确诊断癌症已成为提高患者生存率的关键。全片图像(WSI)技术因其能详细展现组织的微观结构而成为病理学诊断的重要工具。然而,WSI的高分辨率和庞大数据量给自动化处理带来了巨大挑战。多实例学习(MIL)作为一种弱监督学习方法,在处理此类图像数据中显示出独特优势。传统的MIL方法虽然在某些领域表现出色,但在处理WSI时常常忽视了实例之间的多样性。在开发DGR-MIL模型的过程中,主要的动机之一是解决传统多实例学习(MIL)方法在处理全片图像(WSI)中观察到的明显多样性问题。这种多样性主要体现在病变组织的异质性以及正常与病变组织间的显著区别上。以下是详细探讨这些动机和观察到的多样性:

1.组织的异质性

在全片图像中,即使是同一病变类型的组织,其表现形式也可能因人而异,甚至在同一患者的不同区域中也会有所不同。例如,肿瘤组织在形态、大小、颜色和纹理上都可能表现出高度的多样性。这种异质性使得传统的基于单一或少数特征的分类方法难以准确识别和分类所有相关实例。

2.实例间的多样性

在MIL的背景下,每个“实例”(即WSI中的图像块)可能代表了不同的组织类型,包括健康组织和各种程度的病变组织。这些实例之间的多样性不仅体现在它们的视觉特征上,还体现在它们对最终诊断结果的贡献度上。传统MIL方法往往忽略了实例间这种内在的差异性,从而可能导致信息的丢失或过度简化。

3.正负实例的界限模糊

在WSI中,正实例(包含病变的图像块)和负实例(正常组织图像块)之间的界限可能并不总是明显。肿瘤边缘区域的图像块可能同时包含肿瘤细胞和正常细胞,这为MIL方法的实例分类增加了复杂度。有效地处理这种边界上的模糊性是提高诊断准确性的关键。

51c视觉~合集4_正则化_06

如图所示,我们使用率失真定理去量化不同类包的多样性还有他们直接的差异。

DGR-MIL模型介绍

DGR-MIL(Diverse Global Representation in Multiple Instance Learning)模型是一种先进的多实例学习方法,专为全片图像(WSI)的分类任务设计,特别是在病理学中用于癌症检测。该模型的核心创新在于其对实例间多样性的强调和全局向量的使用,以改善传统MIL方法在处理具有高度异质性特征的医学图像时的性能限制。

51c视觉~合集4_正则化_07

DGR-MIL方法的关键组件

1. 全局向量的引入

在DGR-MIL中,全局向量充当整个图像包(WSI中的所有块)的代表,捕捉关键的信息和特征。这些向量是可学习的,意味着它们会在训练过程中不断更新,以更好地代表和总结WSI中的关键特征。全局向量的主要作用是为模型提供一种机制,通过与实例(即图像块)的相互作用来识别哪些实例最具有代表性和信息性。

2. 跨注意力机制

DGR-MIL模型采用了跨注意力机制,这是一种修改版的自注意力机制,允许模型不仅考虑实例内的特征,而且还可以评估实例与全局向量之间的关系。在这种设置中,全局向量作为查询(query),实例特征作为键(key)和值(value),模型通过计算它们之间的相互作用来确定每个实例的重要性。这种机制特别适用于处理WSI,因为它允许模型在巨大的实例空间中有效地捕捉关键区域,而不必牺牲计算效率。

3. 正向实例对齐和多样性学习

为了进一步提升全局向量的效用和精确性,DGR-MIL实施了正向实例对齐机制。这一机制鼓励全局向量向正实例(例如,包含肿瘤的图像块)靠拢,从而使得模型在进行分类决策时更加关注于这些关键实例。此外,多样性学习是通过引入一个基于确定性点过程(DPP)的多样性损失来实现的,这有助于确保全局向量之间保持足够的区分度,从而覆盖更广泛的实例特征空间。

51c视觉~合集4_数据集_08

51c视觉~合集4_数据集_09

行列式点过程(DPP, Determinantal Point Process)是一种概率模型,用于模拟具有排斥性(即元素间倾向于互相排斥而不是聚集在一起)的随机点集的分布。在机器学习和数据分析中,DPP常用于确保从数据集中选出的样本或特征集合具有高度的多样性。DPP在DGR-MIL模型中的应用主要是用来增强全局向量的多样性,以更好地捕捉和表示数据中的复杂和多变特征。

51c视觉~合集4_数据集_10

51c视觉~合集4_正则化_11

在DGR-MIL模型中,DPP用于确保学习到的全局向量尽可能地多样化。具体来说,模型通过最大化全局向量间相似度矩阵的行列式来实现这一点。这种方法可以形象地理解为通过推动全局向量在向量空间中尽可能地“分开”来减少它们之间的冗余,从而能够覆盖更广泛的特征空间,提高模型对各种病理特征的捕捉能力。

在DGR-MIL中实现DPP的一个关键步骤是定义一个多样性损失函数,该函数基于全局向量的Gram矩阵(即向量之间的内积矩阵)。多样性损失可以表达为Gram矩阵行列式的负对数。优化这个损失函数将导致模型倾向于选择彼此尽可能正交(即无关)的全局向量。这样不仅增加了向量间的多样性,还有助于模型捕捉和区分数据中的不同模式和结构。同时这个loss只拥有线性复杂度。

51c视觉~合集4_数据集_12

目标函数

51c视觉~合集4_权重_13

研究成果与实验验证

在CAMELYON-16和TCGA肺癌数据集上的实验结果表明,DGR-MIL在癌症组织分类任务中的性能超过了多个现有的先进模型。模型的成功部分得益于其能够有效利用WSI中实例的多样性,提高了对复杂病理图像的诊断准确率。实验中,DGR-MIL展示了其优越的特征提取能力和更高的分类精度。

51c视觉~合集4_数据集_14

案例研究

通过具体的病例分析,可以看到DGR-MIL如何在实际的病理图像中定位并识别癌症组织。图像分析结果清晰地展示了模型如何区分正常组织和癌变组织,尤其是在边界区域处理上的优势。这对于早期发现和诊断癌症至关重要。

51c视觉~合集4_权重_15

结论与展望

DGR-MIL模型的提出为WSI的自动化分析开辟了新的可能性,特别是在处理高异质性的癌症组织时。未来的研究将进一步优化模型结构,提高其在更广泛数据集上的泛化能力。此外,我们也期待该技术能够在临床应用中发挥更大的作用,助力医生做出更准确的诊断。



#25种正则化方法

训练中的一个关键因素是网络的正则化,它可以防止模型在训练的过程中出现过拟合的现象。本文分析了过去几年发展起来的几种正则化方法,显示了不同CNN模型的显著改进。

一些图像处理任务,如图像分类和目标检测,已经通过使用卷积神经网络(CNN)性能得到了显著的改进。像ResNet和EfficientNet一样,许多架构在创建时已经在至少一个数据集上取得了出色的结果。训练中的一个关键因素是网络的正则化,它可以防止模型在训练的过程中出现过拟合的现象。这项工作分析了过去几年发展起来的几种正则化方法,显示了不同CNN模型的显著改进。这些工作分为3个主要领域:

  • 第一:是“数据正则化”,其中所有的方法都专注于对于输入数据的更改
  • 第二:是“结构正则化”,主要是修改神经网络或核函数生成特征映射的过程
  • 最后:是“标签正则化”,主要是对给定输入的标签进行转换和修正

1 简介1.1 背景说明

卷积神经网络已经在一些与计算机视觉相关的任务上取得了相当不错的结果,如图像分类和目标检测。这种成功可以用卷积神经元的工作原理来解释:它根据图像的空间属性来突出给定的特征。浅层网络注意是归纳一些形状或者纹理特征;然而,更深层次的网络可以检测出更复杂更抽象的特征,比如整个物体或人脸。如今,从生物识别到疾病检测,很难找到其他没有CNN的计算机视觉技术。

关于CNN的一个关键问题是如何对卷积核进行堆叠?以在给定的任务上实现最佳的结果。在几个不同的任务上使用相同的基本架构是很普遍的,只需要改变输出。例如,EfficientNet是一种用于图像分类的神经网络,它也被用于EfficientDet体系结构来处理目标检测任务。

该体系结构可能是计算机视觉模型的核心部分;然而,在开始训练之前还有其他相关的要点。例如,优化技术可能会影响最终的性能。即使是kernel的初始化方法都有可能会影响模型最终的性能。

本研究集中讨论在这些可能影响最终性能因素的一个方面:正则化

根据所使用的正则化策略,一些架构可以在最终结果上获得相关的增益。使用良好的正则化方法的一个重要方面是,它不会影响最终模型的性能。这意味着,独立于使用或不使用一个正则化方法,模型的推理计算成本是相同的。然而,在某些情况下,它可以影响训练阶段的性能,使用少量的计算开销或训练周期。无论如何,产出的结果通常是可以补偿这一成本的。

1.2 为什么正则化方法有效?

CNN通常用于计算机视觉任务,如图像分类和目标检测,以创建像人类视觉一样强大的视觉模型。如果考虑到可用的信息数量,很明显,训练任务需要更多数据可变性。考虑到一个健康的大脑和眼睛正常的人,不考虑睡觉的时间,平均每天保留大约16个小时的新信息。

即使考虑到像ImageNet这样的巨大数据集,与人类大脑通过眼睛接收到的数据数量相比,可用的图像数量也是最小的。这种新数据的不可用性可能会导致一种称为过拟合的情况,即模型学习如何很好地表示训练数据,但它不能有效地处理新信息,即测试数据。这种情况通常发生在模型在可用的训练信息中进行了详尽的训练时,而它不能很好地扩展到其他新信息中。

作为一个人工神经网络,神经网络的训练步骤可以描述为一个优化问题,目标是训练得到一个合适的权值;假定给一个输入和损失函数,可以转换期望的信息输出最低可能的误差。实现这一目标的一种方法是最小化以下功能:

51c视觉~合集4_权重_16

其中|.  为Frobenius norm,  为输入数据,  和  分别表示权重 矩阵和目标标签。Frobenius norm增加了  和  之间的相似性。

这种解释有一个主要优点:这个公式可以通过矩阵分解进行优化,产生X的结构化分解。然而,只有当W或  固定在优化两个矩阵时,将原始方程转换为非凸公式时,才能实现全局最小值。如果矩阵分解为矩阵近似,可以解决这个问题:

51c视觉~合集4_正则化_17

其中,目标是估计矩阵A,最终得到一个凸优化,这意味着它有一个全局最小值,通过梯度下降算法可以找到。当使用正则化时,这个方程变为:

51c视觉~合集4_正则化_18

其中,描述了基于A的正则化函数,而λ是设置正则化函数对目标函数的影响程度的标量因子。正则化方法的一个关键方面,独立于训练阶段的工作,是为了防止模型过拟合。它通过增加CNN不同阶段的数据的可变性来操作。当处理图像时,最直接的方法是随机改变图像,比如旋转和翻转。虽然这种类型的正则化工作得很好,但应该考虑到一些问题。例如,一些转换可能会将图像扭曲成分类中的另一个现有类。更直接的例子是MNIST数据集上的基线图像分类:如果旋转太多,输入“6”可能会转换为“9”,导致模型学习错误的信息。

1.3 正则化和标准化

机器学习中的一个普遍问题是调整给定模型的参数,使其对训练数据和新的数据能够有更好的鲁棒性。旨在减少不属于训练集的数据上的误差的算法的集合被称为正则化技术。

标准化和正则化技术的一个主要区别是,正则化在训练期后不再使用,而标准化保留在模型之中。例如,Cutout和MaxDropout在推理期间没有被执行,但是Batch Normalization在推理时需要执行。

1.4 正则化主要用在哪里?

尽管大多数作品都应用于输入,但也有很多研究致力于内部结构和标签层。图1描述了本次调查中科学工作的比例。

51c视觉~合集4_正则化_19

图1

大约44%的工作依赖于对输入的正则,其中最著名的是数据增强策略。CNN输入中参数和结构的容易改变可以解释如此多的工作量。图像处理和计算机视觉驱动的应用程序在处理深度学习时仍然发挥着重要的作用。

第二种最常见的正则化方法是那些对模型的内部结构进行正则的方法。Dropout为这一研究领域的进展做出了很大的贡献。一些作品主要是基于Dropout进行的改进,当然其中也有一些是全新的方法。

1.5 正则化方法的缺点

第一个是标签不随输入或在神经网络的中层直观地改变。在这2个级别中执行变化是更自然的,因为在视觉上更容易理解在训练和推理过程中发生了什么。然而,要解释执行标签更改时会发生什么就比较困难了。尽管最初的研究认为它防止了过拟合问题,但它未能解释为什么会避免这种情况。

另一种解释是对大多数方法缺乏数学解释。幸运的是,一些技术,如Dropout和Mixup,对它们的内部机制提供了有趣的见解。

最后,最好要记住,开发机器学习领域最关键的步骤之一是创建标签可靠的数据集。虽然本文关注的是正则化策略,但值得记住,最终,与标签的组合方式上的突破可能会促进更强大的系统。因此,强调更多与标签正则化相关的工作值得研究。

2 正则化方法大集结

2.1 Cutout

Cutout是一种直接而强大的数据增强的技术。在训练过程中,它在输入神经网络之前随机去除图像的区域。Cutout作者详尽地分析了CIFAR-10和CIFAR-100数据集中被移除区域的理想大小。

51c视觉~合集4_数据集_20

图3 Cutout

理想的大小根据每个类的实例的数量和给定数据集的类的数量而变化。例如,在CIFAR-10数据集上的最佳结果是通过删除一个大小为16×16的patch来完成的,而对于CIFAR-100,关于最佳结果的区域大小是8×8。对于SVHN数据集,通过使用网格搜索找到了最佳的crop大小为20×20。对于STL-10数据集,最佳结果的crop大小为32×32。

2.2 RandomErasing

RandomErasing是在Cutout技术的基础上进一步的发展。Cutout是对图像的随机裁剪,而RandomErasing关注的是在空白空间中去除并随机添加信息,例如噪声。与Cutout不同,RadomErasing并不是每次都删除图像的一部分。在这项工作中,作者在3种不同的分类数据集(CIFAR-10,CIFAR-100和Fashion-MNIST)上评估了该方法,用于目标检测的VOC2007数据集,以及用于ReID的三种不同的CNN架构(IDE, TriNet和SVDNet)。

51c视觉~合集4_权重_21

图4 RandomErasing

对于分类任务,4种不同的架构被用于评估目的:ResNet、ResNet with pre-activation、Wide Residual Networks和ResNeXt。在所有情况下,RandomErasing方法完成了相关的误差减少(至少0.3%)。

对于目标检测任务,当只使用该数据集中的可用数据训练模型时,平均精度(mAP)提高了0.5,当训练数据与VOC2012训练数据集结合时,平均精度(mAP)提高了0.4。图4显示了随机擦除是如何工作的。

2.3 AutoAugment

AutoAugment试图找出给定数据集上的哪些transformations可以提高模型的准确性。它使用5个不同的transformations为给定策略创建一个搜索空间,这些transformations由2个附加参数控制:给定更改概率(Cutout,SamplePairing,Shear X/Y,Translate X/Y,Rotate,AutoContrast,Invert,Equalize,Solarize,Posterize,Contrast,Color,Brightness以及Sharpness)和变化幅度。

51c视觉~合集4_正则化_22

图5 AutoAugment

然后将这些策略输入一个“child”模型,该模型是一个用部分训练数据集训练的CNN。这个CNN的准确性被告知一个“控制器”模型,它是一个循环神经网络(RNN)。这个RNN输出一个给定策略在未来被使用的概率。在控制器训练过程的最后,使用5个最佳策略(每个策略有5个子策略)来训练最终的模型,用于评估数据集。使用这些生成的策略和子策略使得AutoAugment在CIFAR-10、CIFAR-100、SVHN和ImageNet数据集上达到了最先进的结果。

这种方法的一个巨大优势是这些策略在不同数据集之间的可迁移性:在最初的工作中,为ImageNet找到的策略被用来训练其他5个不同的数据集,即使没有在这些数据集上训练AutoAugment,也能显著改善结果。这种方法的一个缺点是用来训练控制器模型的时间:例如,对于ImageNet数据集,它需要大约15000个小时的处理,这在一些情况下可能是不切实际的。Fast AutoAugment的目标就是通过一种新的算法来克服这一瓶颈,在产生相似结果的同时,显著减少搜索过程所需的时间。

2.4 PBA

Population Based Augmentation(PBA)不仅展示了一种新的增强算法,而且展示了调度策略而不是固定策略,改进了以往研究的结果。

51c视觉~合集4_数据集_23

图6 PBA

在每3步中,它改变了一半的策略,即1/4的权重变化,另外1/4的超参数变化。虽然自动增强意味着在CIFAR-10数据集上的训练开销为5000个小时,但PBA只增加了5个小时。

2.5 RandAugment

如前所述,寻找最佳数据增强的方法的一个巨大瓶颈涉及到它们的计算负担,因为它可能比自己的神经网络训练需要更长的时间。另一个问题与在搜索过程中发现的策略有关,这可能会导致次优策略,即它确实改善了局部的结果;然而,它并不会带来最好的全局结果,因为它使用了一个较浅的神经网络,并假设这个规则可以应用于任何其他的,更深的架构。

51c视觉~合集4_数据集_24

图7 RandAugment

51c视觉~合集4_数据集_25

14个最常见的策略

RandAugment使用了在之前的工作中发现的14个最常见的策略,并在训练期间对每个策略的大小进行搜索,从而消除了初步探索步骤的需要,并根据当前的训练CNN定制数据放大。结果表明,该方法不仅比以往的方法更快,而且显著改善了结果。

2.6 Mixup

训练CNN的一种可能性是,Mixup来自训练数据集中的2幅图像,并迫使模型可靠地确定这种Mixup图像属于哪一类。然而,如何为这种Mixup生成编码标签并不普遍。提供这个新的输入/输出训练对可以让模型从损坏的输入中学习更多的特征。最初的工作表明,使用这种方法的模型不仅可以改善图像分类任务的结果,而且可以改善语音识别、生成对抗网络的稳定、表格数据集等问题的结果。图5演示了Mixup的工作原理。

51c视觉~合集4_数据集_26

图5 Mixup

2.7 CutMix

另一种混合输入和标签以改善结果的策略是CutMix。与Mixup不同,CutMix会替换给定输入中的整个区域,并通过给予与每个类使用的区域相同的权重来更改标签。例如,如果一只猫的图像被30%的图像替换为一个飞机的图像,则该标签被设置为70%的猫和30%的飞机。这一策略的结果有了显著的改善。通过使用绘制Grad-CAM可以观察到生成的Heatmap更好地突出了更准确地定义感兴趣目标的区域。

51c视觉~合集4_数据集_27

图6 CutMix

2.8 CutBlur

一些针对图像处理的深度学习任务,如图像分类或目标检测,可以通过使用数据增强来提升模型性能。一些工作,如AutoAugment、Cutout和RandomErasing可以通过对训练图像应用一些transformations来显著改善结果。然而,对于超分辨率(SR)任务,文献中缺乏提出正则化技术来明确地处理这个问题的工作。

51c视觉~合集4_正则化_28

图7 CutBlur

尽管可以使用上述技术并可能改善结果,但它们并不是通过手工设计来处理SR问题的。到目前为止,唯一发现的方法是CutBlur,它的工作原理是用来自类似区域的低分辨率(LR)版本替换高分辨率图像(HR)上的给定区域。作者表明,CutBlur有助于模型在SR问题上更好的推广,但同样的技术可以用于重建被高斯噪声退化的图像。

2.9 BatchAugment

训练cnn的一个重要超参数与mini-batch size有关,mini-batch size用于计算反向传播中使用的梯度。该超参数通常采用GPU的上限,这对于提高训练收敛速度至关重要。BatchAugment工作巧妙地利用了这个限制。它不只是使用来自数据集的不同实例来满足整个内存,而是使用默认的数据扩展设置来考虑内存限制的一半,然后复制具有不同数据扩展可能性的所有实例。这听起来像是一个简单的技巧;然而,结果表明,使用这种方法的神经网络在最终结果上有显著的改善。另一点是,通过复制增强图像,分析表明需要更少的时间点来实现收敛。

2.10 FixRes

图像分辨率可能会影响训练周期效率和最终的分类精度。例如,对EfficientNet的研究通过将输入大小作为影响最终结果的参数之一,从而强调了这一想法。然而,如果一个模型被训练,例如,分辨率为224×224,测试集的推理应该使用一样的图像分辨率。

51c视觉~合集4_权重_29

图8 FixRes

FixRes提出的工作强调了测试集的分辨率应该高于用于训练的分辨率。这种变化不仅产生了一个更可靠的神经网络,而且比传统方法训练得更快,因为它需要更少的计算量,因为用于这种目的的图像比用于推理的图像要小。该方法表明,在使用迁移学习时,它可以改善在其他数据集上的结果。

2.11 Bag-of-Tricks

这里分析的工作的一个关键点是,它们经常没有将任何其他正则化方法与它们当前的研究结合起来。因此,很难知道两个正则化器是如何相互影响的。Bag-of-Tricks研究通过结合几种已知的正则化方法,如Mixup、Label Smoothing和Knowledge Destilation。消融研究表明,如果应用一定的方法,最终结果可以显著改善。例如,使用这种方法组合的MobileNet在ImageNet数据集中提高了近1.5%的结果,这是一个显著的收益。然而,该研究缺乏对层间正则化方法的深入评价,如Dropout。

3 结构正规化

正则化方法可以以不同的方式工作。在本文中,将结构正则化定义为在训练过程中改变权值而不改变输入kernel值的方法。本节分为两个主要部分:第一部分介绍了Dropout如何工作和它的一些变体的更深入的描述,如SpatialDropout和DropBlock。在第二部分中,描述了其他旨在执行其他张量操作的方法,如Shake-shake Regularization。

3.1 Dropout and variants

Dropout被认为是一种简单但功能强大的正则化器,旨在去除一些神经元,从而迫使整个系统学习更多的特征。最初的工作表明,它不仅可以应用于cnn,还可以应用于多层感知器(MLPs)和受限玻尔兹曼机(rbm)。

51c视觉~合集4_权重_30

图9 Dropout

在训练阶段的每一步,通过伯努利分布来估计每个神经元的dropping out概率,从而在训练过程中增加了一些随机性。最初的研究表明,被dropping out的神经网络可以比标准的神经网络更好地进行推广。

3.2 MaxDropout

Dropout随机去除训练阶段的神经元,Maxdropout则根据神经元的激活情况去激活神经元。它首先将张量s值归一化,然后将每一个大于给定阈值p的输出设置为0,因此这个值越高,它就越有可能被禁用。

51c视觉~合集4_正则化_31

图10 MaxDropOut

最初的工作表明,它可以改进在CIFAR-10和CIFAR-100数据集上的ResNet18结果,而且它在WideResNet-28-10模型上的性能也优于Dropout。

3.3 DropBlock

DropBlock表明,去除给定张量(即特征图)的整个区域可以帮助模型更好地泛化。通过使用ResNet-50和AmoebaNet-B模型对图像进行分类任务,使用retinanet模型对物体进行检测,使用ResNet-101模型对图像进行分割,结果表明该模型比Dropout等内部正则化算法对结果有更好的改善。

51c视觉~合集4_数据集_32

图11 DropBlock

DropBlock应用在CNN的每个feature map上,从一个小的比例开始训练,然后慢慢的增加它的值。它的实验显示了ImageNet数据集上的相关结果,当使用ResNet-50时,Baseline精度提高了近2%,打败了其他正则化方法,如Cutout和AutoAugment,使用AmoebaNetB时,基线精度提高了约0.3%。在目标检测任务中,retavanet模型在AP度量上改进了1.5%以上。

3.4 TargetDrop

注意机制可以被整合到一个给定的正则化器中,这样它就可以在适当的区域发挥作用。例如,TargetDrop将这种机制与DropBlock结合在一起。在训练过程中,它允许整个系统去除给定通道上的大多数有区别的区域。结果表明,这种方法不仅比DropBlock获得了更好的结果,而且,通过使用grade-cam,在决定给定输入属于哪个类的区域中显示了更多的一致性。

51c视觉~合集4_权重_33

图12 Dropout,DropBlock,TargetDrop

3.5 AutoDrop

虽然有效,但Dropout缺乏选择掉哪个神经元的空间信息。DropBlock的策略是将整个随机区域放在隐藏层上,而不是单一的神经元,从而迫使CNN学习更好的空间信息。然而,Drop方法是手动设计和固定的,如果这些模式可以在训练中学习,这可能会得到改进。

51c视觉~合集4_正则化_34

图13 AutoDrop

AutoDrop迫使CNN根据训练信息学习最佳设计,使用控制器逐层学习最佳滴模式。CIFAR-10和ImageNet的结果表明,这些模式改善了结果,并可以在数据集之间传输。

3.6 LocalDrop

Rademacher复杂性被用来重新定义Dropout和DropBlock。通过对该问题进行广泛的数学分析,提出了一种新的两阶段正则化算法。该方法虽然耗时,但针对图像分类的不同CNN架构取得了相应的改进。CIFAR-10的结果表明,LocalDrop方法至少可以改善结果0.15%,比最佳结果提高了近0.6%。CIFAR-100的结果改善了0.4%;然而,在这种特定的情况下,在反向传播时删除权重的变化最终会得到略微更好的结果,提高了0.5%。除了改进之外,该方法只适用于3分支ResNet,很难直接比较其他方法。

3.7 Shake-Shake

在这些体系结构上强制正则化的一种方法是在训练期间为残差连接的每个分支赋予不同的权重。最初的ResNets的工作原理是在每个分支上添加权重,没有任何区别。在训练过程中,Shake-shake作用于3个分支的ResNets,在前传时改变每个分支的乘因子,在后传时乘以不同的值,从而改变每个分支对最终结果的影响。对于推理,它将每个分支乘以0.5倍。

3.8 ShakeDrop

解决Shake-shake问题的一个改进是ShakeDrop。它不仅适用于ResNeXt架构,也适用于ResNet、Wide ResNet和PyramidNet。为了实现这样的结果,ShakeDrop改变了由Shake-shake提出的配置。这些分支上的Shake组合显示,ShakeDrop有更好的性能,不会被困在局部极小值上。结果表明,该方法可以比前面提到的每一种体系结构获得的原始结果更好。

3.9 Manifold Mixup

神经网络通常被概括为一个函数,给定输入数据和一组可学习参数,输出相应的目标值。Manifold Mixup的作用类似于Mixup,然而,它在CNN的任何内部层中运行,而不仅仅是在输入层。深度神经网络可以被认为是一组较小的神经网络,每一个都输出一些期望的特征;因此,如果所有的子网都运行良好,则可以认为最终的结果是良好的。

Yang等提出了一种新的损失函数设计策略:首先通过前馈过程计算传统的小批量损失。然后,它从原始网络生成子网络,然后通过使用不同的图像变换提供相同的小批处理,为每个模型计算一个损失。最后,将传统损失与各个子网络的损失相加,计算出最终损失。该技术在不同的数据集和CNN架构中显示了巨大的潜力改进。

3.10 其他方法

在过去的几年里,残差连接的使用,首先在众所周知的神经架构ResNet中引入,并对其进行了进一步的改进,在几个任务上取得了相关的成果。后来的研究表明,这种成功是由于创建了一种名为“identity mapping”的结构,它是对原始输入的重建。残差连接迫使模型学习如何构造这些结构。

4 标签正则化

有方法使用Label Smoothing作为其正则化策略的一部分。例如,Mixup根据2个不同图像之间的插值来平均标签的值。同样的规则也适用于Manifold Mixup技术;然而,数据插值是在层之间计算的,并使用相同的微积分来重置标签值。

另一个使用标签转换的正则化器是Cutblur。在本例中,使用了反式格式,在训练期间,可以将标签与输入倒置,使输入作为标签,模型将按照预期收敛。这一预期结果的原因是由于低分辨率和高分辨率图像的切割尺寸,这是没有预先定义的。这意味着输入可以是高分辨率图像中的低分辨率图像,标签可以是高分辨率图像中的低分辨率图像。因此,将标签和输入倒排仍然是有意义的。

其他方法也可以通过使用Manifold Mixup来改进它们的结果。例如,Cutout从输入中删除部分,所以根据crop size“remove”部分标签也是有意义的。假设crop size是图像的25%,因此活动类可以从1下降到0.75。同样的策略也适用于RandomErasing。在训练过程中丢弃神经元的方法,如Dropout,可以在训练过程中将热标签的值降低到相同的范围。

4.1 Label Smoothing

在一般的分类任务中,使用热编码标签是普遍存在的。从2015年开始,Label Smoothing提出了一种在标签编码过程中的正则化技术,通过修改hone-hot表示的每个位置上的值。

Label Smoothing的工作原理是防止了2个主要问题。

  • 首先,过拟合问题
  • 其次,对于不确定结果的过度自信问题

根据作者论述,通过使用编码标签上的平滑因子,应用在向量上的Softmax函数产生更接近平滑编码向量的值,限制了反向传播算法中使用的值,并根据类产生更真实的值。

4.2 TSLA

使用标签平滑的一个困难是找出ϵ的什么值(即平滑因子)是理想的,无论是对于一般的还是对于特定的数据集。最初的工作表明,ϵ=0.1是极好的条件;然而,两阶段标签平滑(TSLA)表明,一般来说,梯度下降结合Label Smoothing技术只能提高结果,直到一定的训练点,之后最好将活动类的所有值设置为0和1。例如,当在CIFAR-100数据集中对ResNet18进行200个Epoch的训练时,结果表明,当使用Label Smoothing时仅仅到160个Epoch便可以获得最好的性能。

4.3 SLS

通常,很难为Label Smoothing因子定义适当的值。结构标签平滑(SLS)提出通过估计贝叶斯估计误差来计算这样的值,根据作者,这有助于定义每个实例的标签边界。实验表明,该方法在不同场合都可以克服传统的标签平滑方法。

虽然这项工作在MobileNetV2上得到了充分的评估,但它没有考虑到其他的神经网络架构。尽管一些流行的数据集被用于比较目的,例如,CIFAR和SVHN,但这项工作仅限于MobileNet-V2。

4.4 JoCor

本文提出了一种避免噪声标签对神经网络的影响的新方法。JoCoR在同一数据集上训练2个相似的神经网络,并试图关联2个不同的标签。该方法通过将2个网络的交叉熵损失加上它们之间的对比损失来计算损失,然后只使用批处理上最可忽略的损失来更新架构的参数。

作者认为,通过使用最小的值来更新参数,这2种网络都与预测结果一致,而且标签的噪声往往更小。虽然该方法是针对弱监督问题开发的,但它可以很容易地适应传统的监督问题,如数据分类,以改善结果。这种方法的缺点是使用2个神经网络进行训练,这需要更多的处理和内存。



#红外弱小目标检测算法技术研究综述

红外探测技术具有视觉探测所不具有的独特优势,在预警领域有广泛应用。本文以单帧红外弱小目标检测算法为主体,从技术方向入手,阐述了基于滤波等四类单帧弱小目标检测算法的原理与典型应用,希望对大家有所帮助。

摘要: 红外探测技术具有探测距离远、抗干扰能力强、隐蔽性强和全天候等优势在天基预警、末敏弹制导等领域得到了广泛应用。通过红外成像技术能够得到目标图像从而对目标进行预警、识别和跟踪。在实际场景中,目标图像往往所占像素比例小,信号强度低,容易湮没在背景图像中;背景图像变化剧烈,存在较强的结构信息、边缘和噪声,红外图像信噪比低,目标检测难度较大,一直是目标检测领域的研究难点和热门话题。为提高红外图像弱小目标检测能力,大量的弱小目标检测算法被提出。现有的主流的检测手段根据图像数据检测方式分为单帧检测和多帧检测两大类,多帧算法依赖大量的图像数据支撑,响应周期长,应用潜力低,而单帧检测算法凭借复杂度低、时效性强、便于硬件实现等特点,被广泛应用在高速运动目标检测、预警等领域。

因此本文以单帧红外弱小目标检测算法为主体,从技术方向入手,着重阐述了基于滤波、基于对比度与显著性分析、基于数据优化和深度学习四类单帧弱小目标检测算法的原理与近年来的典型应用,通过仿真试验和算法复杂度对比了不同算法的性能、优势和不足,总结了弱小目标检测算法的研究现状并对本领域的发展趋势进行了展望。本文的工作能帮助读者快速了解本领域的研究现状,为研究人员提供参考。

01 引言

红外搜索与跟踪(Infrared Search And Track, IRST)系统的探测依据是前景目标和背景物体的温度不同,产生的红外辐射强度不同。依赖于材料和光电技术的发展,从最初的热电偶探测器到热成像仪,红外探测器的灵敏度、波长响应范围、分辨率和工作范围等性能都得到了显著提升。红外探测系统常用于与国防安防等领域,所针对的多为非合作目标,由于无法提前获取目标意图,IRST系统有必要尽可能早、尽可能远地对其进行预警。

由于红外探测系统的广泛应用,大量的无人机、浮空器等“低小慢”航空器目标出现在红外探测视野,这些目标在采集的图像中往往具备如下特点:

(1)目标能量弱:目标信号经过长距离衰减,探测器能够接收到的信号强度低,与强干扰背景信号强度的对比度较小,常常容易湮没在背景信号中;

(2)目标形态小:由于成像距离远,目标在图像中仅占据少量像素点,无纹理结构信息;

(3)图像背景复杂:通常来说,目标所处环境中存在大量的干扰物体,在图像中容易产生边缘、角点等干扰信息,增加弱小目标的检测难度。因此如何快速、鲁棒地对红外图像中的弱小目标进行检测是目前IRST系统的核心问题。

红外弱小目标检测根据单次检测数据数量可以分为多帧检测和单帧检测。多帧检测的主要依据是序列图像中弱小目标的运动连续性以及噪声的运动随机性,通过对疑似运动路径的识别从而达到弱小目标检测与随机噪声剔除目的。单帧检测的主要依据是弱小目标在图像中的数据特征信息。在实际应用场景中,目标往往处于动态背景当中,相较于静态背景,多帧算法的检测性能会下降,尤其是时效性会大大降低,而单帧检测算法不需要考虑背景的运动,时效性远强于多帧检测,在天基预警、空空对抗等需快速响应的领域具有重要意义,加之单帧检测算法通常设计简单,其检测结果也可以作为多帧检测的基础模块,近年来单帧检测受到了大量的关注与研究,因此本文以单帧检测的不同技术手段作为着手点,阐述了不同技术手段的检测实现原理与固有优缺点,仿真了部分代表算法,比较了不同算法的检测性能,总结了目前基于单帧检测的发展现状并对发展趋势进行了展望。

02 单帧红外弱小目标检测算法

按照处理技术手段的不同,目前所使用的单帧红外弱小目标检测算法大致可以分为如下三类:

(1)基于滤波的检测方法:其中根据滤波处理域的不同又可以分为空域滤波、变频域滤波和形态学滤波三类;

(2)基于人类视觉对比度机制与显著性分析的检测方法:目前主要包括局部对比度分析和显著性分析两种;

(3)基于数据优化的检测方法:根据背景来源以及复杂程度可以采取单子空间和多子空间两种处理方式,如图1所示。

图1 单帧检测技术

滤波法主要以目标与背景在空域或变换域的数据特征不同为依据选择性的去除非目标像素,从而实现目标检测。对红外图像中的目标进行检测可分为空域滤波、变换域滤波以及形态学滤波三类方法,滤波过程如图2所示。

图2 滤波法流程图,(a)空域滤波,(b)变换域滤波,(c)形态学滤波

2.1.1 基于空域滤波的红外弱小目标检测算法

空域滤波主要是利用弱小目标与背景在红外图像中局部灰度值特征差异,直接在原始图像上进行滤波运算对背景进行估计,然后通过背景图像与原始图像的差分得到弱小目标图像。如式(1)所示:

51c视觉~合集4_正则化_35

其中I、It分别为原始图像、预估背景图像和目标图像,*为滤波操作,K为滤波器,[i,j]为像素的坐标。

早期的空域滤波算法为基于一些经典滤波器设计窗口去遍历原始图像进行背景估计。例如中值滤波[1]以及最大均值滤波算法[2],这两种算法通过使用邻域内像素计算中心像素预估背景,可以在不破坏图像的结构信息情况下去除图像中的噪声与干扰,对于简单场景下的弱小目标可以得到较好的检测效果,后者相较于前者能保证背景边缘信息情况下优化计算量,且提高了信杂比,但两者泛化能力较差且检测效果受窗口大小影响,对于弱小目标的检测效果不理想。文献[3]考虑到弱小目标的各向同性,将高斯差分滤波器(Difference Of Gaussian Filter, DOG)表示为极坐标形式,设计了对方向敏感的扇形滤波模板,然后取8个方向上的最小值作为输出,有效地去除了边缘对弱小目标检测的影响。文献[4]发现滤波器方向的不同会导致不同的预测误差,于是通过增加左向滤波器去除边缘的影响。文献[5]使用相同的模板预测图像块的8邻域块中心像素点的像素值,然后使用得到的8邻域块的中心预测值预测当前图像块中心值。文献[6]加入预测像素块8邻域块的边缘信息,降低了云边缘弱小目标检测的影响,同时通过邻域图像块的预测值自适应地调整迭代步长,提升了算法速度。

考虑到传统的维纳滤波主要适用于均匀灰度背景,鲁棒性差,文献[7]提出了一种通过迭代自适应估计背景的二维最小均方(Two Dimensional Least Mean Square, TDLMS)滤波器。文献[8]将TDLMS滤波器应用到弱小目标检测,该算法通过邻域内的像素点估计当前点像素值,计算估计图像与期望图像之间的偏差更新权重矩阵,自适应迭代进行目标增强,达到检测目的。但自适应因子的选取会影响算法的性能,适当的值会产生少量边缘失真的图像,在处理高亮噪声、强边缘结构干扰效果较差。

随着研究的深入,研究人员将更多的图像信息引入到弱小目标检测当中,文献[9]发现仅以像素的差异作为可分性特征会在前景图像中保留大量的边缘噪声,因此,作者同时考虑像素点的空间距离和像素值差异,提出了双边滤波,尽可能将边缘信息保留在背景图像中,但单一的滤波窗口限制了其场景适应性。于是文献[10]在其基础上,在使用双边滤波器时增加了一个内外层的滤波器模板,并且结合巴氏高通滤波器去除图像中的低频部分,具有较好的弱小目标检测效果。文献[11]考虑到目标中心邻域像素的灰度值与中心像素的灰度值相近,传统双边滤波可能会造成目标漏检的问题,提出了一种背景相关因子调节权重的改进双边滤波算法,通过降低目标背景相关性、抑制目标灰度值来获得更真实的背景图像,降低了算法漏检率。文献[12]分别在时间和空间两个维度上使用双边滤波器,利用空间邻域图像块的方差以及时间序列上的方差构建映射函数,自适应地生成不同图像区域的标准差从而达到保留边缘的效果。文献[13]使用全变分模型对图像序列背景进行预测,然后在相应的序列图像中减去预测的背景,得到减法图像。最后,利用时间对比度滤波器与减影图像的乘积,对目标进行检测。文献[14]考虑到目标中心邻域像素的灰度值与中心像素的灰度值相近,传统双边滤波可能会造成目标漏检的问题,提出了一种背景相关因子调节权重的改进双边滤波算法,通过降低目标背景相关性、抑制目标灰度值来获得更真实的背景图像,提高了算法检测性能。

2.1.2 基于变换域滤波的红外弱小目标检测算法

变换域的主要思想是将待检测图像通过映射变换投影到变换域上,利用弱小目标和背景在变换域上呈现出的特性不同实现弱小目标检测。基于变换域滤波算法可以表示为:

51c视觉~合集4_权重_36

f为原图,表示为一种映射到变换域的数学方法及其逆运算,为检测出的弱小目标图像,H为变换域上的滤波器,*为变换域滤波操作。

TANG等人[15]将原始图像映射到频域中后,发现弱小目标占高频部分,平滑灰暗背景占低频部分,基于此提出了一种基于频域滤波的目标检测算法,通过原始图像与低通滤波器预估背景图像差分后可获得目标图像。但此算法对一些边缘结构,拐点也很敏感,低通阈值的选择限制了算法的检测效果。文献[16]发现利用傅里叶变换的相位谱可以在突出类高斯弱小目标的同时抑制条带噪声,然后将四元数傅里叶变换引入到弱小目标检测当中,利用facet模型求取四个方向上的二阶导数构建四元数,最后重建目标图像。文献[17]首先使用基于平稳小波变换的方向检测提取目标的潜在位置,然后潜在目标位置采用自交叉验证和预测校正算法确定目标的精确位置。文献[18]通过傅里叶变换,将图像序列在时间轴上进行1D傅里叶变换,在图像平面进行2D傅里叶变换,然后通过硬阈值保留图中的背景结构,使用差分方法得到目标图像,再将得到的运用能量积累确定目标位置。文献[19]首先使用低通滤波器对图像进行平滑处理,然后将图像分为多个子图块,对每个子图块搜寻最大值作为种子点使用区域生长方法,最后使用阈值分割确定目标位置。

2.1.3 基于形态学的红外弱小目标检测算法

形态学滤波是一种建立在格论和拓扑学基础之上的非线性滤波方法。通过以结构元素为内核在内核区域集合运算获得中心像素的方式进行目标检测和背景抑制。主要包括膨胀、腐蚀、开运算和闭运算等基本运算。选择合适的结构元素利用基本运算或运算组合可以有选择性的去除图像中某些区域,提取弱小目标。

Top-Hat滤波器[20]是形态学滤波最具代表性的,其主要思想是通过开运算消除图像较亮的部分,将原图与开运算处理后结果进行差分可以获得目标图像。但此算法无法处理缘杂波,因此文献[21]提出了一种新型的Top-Hat滤波器,通过构建环形新的结构元,在进行开闭运算时分别使用半径不同的结构元,降低了对边缘杂波的敏感性。文献[22]在环形结构元Top-Hat滤波的基础上,利用局部信息熵以及M估计方法确定结构元尺寸,增强了算法对多尺度目标的鲁棒性。文献[23]通过分析海平面红外弱小目标的特点,定义了8个方向不同的结构元素,然后根据弱小目标的时域连续性以及空域紧致性,构建了三个不同的特征图,通过特征图的融合对弱小目标进行检测,降低了对图像中边缘干扰的敏感性。文献[24]则将击中击不中变换应用到红外弱小目标检测当中,使用前景和背景两个结构元,利用前景结构元收缩亮点区域,然后使用背景结构元平滑图像,利用二者的差值对红外目标进行增强。文献[25]使用Top-Hat对图像进行预处理,然后使用网格划分法将图像分成多个子图像,对每个子图像进行峰值搜寻,然后使用灰度面积增长法检测候选弱小目标区域,通过阈值分割对弱小目标进行检测。

2.1.4 基于滤波算法对比

如图3为测试了中值滤波(Median Filter)、最大值滤波(Max-Mean)、低通滤法(Low-Pass Filter, LPF)、双边滤波(Bilateral Filter)和Top-Hat五种算法的目标检测性能。滤波法直接根据目标与背景的空域或变换域特征差异,利用卷积或相关手段实现对目标增强与背景抑制。但通常背景边缘在空域、变换域与目标具有相似的特征,可以从中看出,传统滤波算法都无法很好的抑制边缘杂波干扰。图中中值滤波法在处理背景复杂的图像时,大量轮廓信息无法滤除检测效果差;Max-Mean背景的纹理信息的抑制效果相较中值滤波法有很明显的提升。双边滤波考虑了灰度特征和分布特征的共同影响,更好保留了背景的边缘信息,边缘抑制能力加强。空域滤波算法受限于窗口的尺寸形状选择,尺寸过大拟合出的背景模糊失去边缘信息,窗口过小无法覆盖目标像素。变换域滤波通过映射思想检测目标,相较空域更加突显目标与背景的特征差异,提升了检测性能。但变换域滤波比较依赖阈值的选择,频域滤波在处理单一背景图像时,滤波效果明显,在处理树林、云层等复杂背景图像阈值选择难度大,检测效果不理想。形态学滤波算法可以有选择性的抑制图像的某些特征信息,但检测效果依赖于结构元素的构造,鲁棒性差。

图3 基于滤波算法仿真

2.2 基于视觉对比度分析与显著性分析的红外弱小目标检测算法

人类视觉系统(human visual systems,HVS)特有的对视觉显著性区域快速反应的选择性机制在进行弱小目标检测时具有较好的鲁棒性,因此一些视觉系统的理论机制被引入到弱小目标检测,大量的红外弱小目标检测算法被提出。此类算法主要是通过分析目标像素与邻域像素之间的灰度值、梯度等特征的差异,实现目标增强和背景抑制的目的,流程如图4所示。

图4 视觉理论算法流程图

2.2.1 基于显著性分析的红外弱小目标检测算法

文献[26]使用三层窗口遍历图像,通过计算内层窗口与外层窗口的方差差值构建空间著性图,然后使用时域灰度映射构建时域显著性图,最终融合两张显著图对目标进行检测,能够有效地提取低空慢速弱小目标。文献[27]为避免多尺度运算导致算法复杂度提升和图像区域交叠使目标漏检,提出基于三层模板的局部差异度量算法(tri-layer template local difference measure, TTLDM)。使用单一尺寸的三层模板遍历原始图像就能获得显著性图,提高了复杂背景弱小目标检测的实时性。WANG等人[28]发现现有算法在处理信杂比低,目标所占像素少,缺乏纹理信息,背景纹理丰富的问题时会出现虚警、适应性差和鲁棒性弱等问题。为改良不足,提出了一种基于模板滤波和显著性提取的弱小目标鲁棒检测算法。首先通过空域滤波以后对目标进行增强,得到加权灰度图,对加权灰度图进行目标检测同时使用傅里叶相位谱生成频率显著图对图像中的弱小目标进行检测,对两种方法得到的检测图进行融合后使用自适应分割得到目标,进行目标像素之间的位置分析后去除虚警点。文献[29]提出了一种红外弱小目标快速显著性检测方法,该方法使用Facet模型构建卷积核对图像进行高通滤波处理,然后对处理以后的图像进行平方增强,最后通过平滑消除图像噪声后使用自适应分割检测目标。文献[30]首先使用高斯滤波器在空域对图像进行平滑然后进行差分处理去除均匀背景干扰,然后再利用二维傅里叶变换提取视觉显著性区域对变换后的图像的振幅谱进行抑制去除高亮背景对检测的影响,然后通过快速傅里叶逆变换(Inverse Fast Fourier Transform, IFFT)得到目标位置,最后根据自适应局部对比度(Adaptive Local Contrast Method, ALCM)方法进一步去除虚警目标。文献[31]对于处理以后的图像使用Facet核进行滤波处理,然后根据跨窗口标准差计算局部异质性,再结合低秩表示的结果构建目标的显著性图,通过自适应阈值分割能够很好地得到海平面弱小目标检测效果。文献[32]通过分析图像的相位残差谱提取显著性图像,然后根据显著性图提取兴趣区域,生成掩膜图像,最后根据形态学重建以及背景减除方法检测弱小目标。文献[33]首先通过局部灰度差异值以及全局梯度值通过非线性变换生成图像的空间显著性图,然后根据帧间的差分信息建立时间显著性图,提出了一种自适应的显著性图融合方法对时域跟空域显著性图进行融合实现对目标的检测。

2.2.2 基于局部对比度分析的红外弱小目标检测算法

局部对比度是直接应用于图像的灰度,通过分析目标区域在局部区域中很明显,文献[34]首先提出了一种基于局部对比度(Local Contrast Measure, LCM)的红外弱小目标检测算法,算法计算中心图像块最大灰度值的二次方与8邻域图像块的均值对弱小目标进行增强如图5所示。

图5 局部对比度分析示意图

其中a为待处理图像,w为滑动窗口,t为目标可能所在区域,b为w窗口等分进行邻域划分。局部对比度求解过程如算法1所示。

算法1 求解局部对比度

局部对比度越大出现弱小目标的概率越大,此算法在噪声干扰较低的情况下具备较好的检测效果,但是对于高亮噪声、云边缘的干扰抑制效果较差。文献[35]考虑到差分定义局部对比度能有效抑制高亮背景,但无法增强目标;比值定义局部对比度能增强目标,但无法抑制高亮背景,提出了一种基于局部对比度(Relative Local Contrast Measure, RLCM)利用中心块与邻域块的均值比值构建中心块增强因子,降低了对边缘的敏感性。文献[36]使用一种比值差值结合的局部对比度计算方式,然后根据目标、背景以及两者之间的差异特性构建权重函数,能够很好的抑制随机噪声。文献[37]利用高斯下采样表示局部窗口的灰度特性,且提前根据弱小目标的局部极大值特性消除大量背景干扰,提高了计算效率,最后结合高斯多尺度对比度结果检测目标。为通过简单的自适应滤波准确快速的分割目标,文献[38]提出了一种多尺度的局部对比度方法(Multiscale Patch-Based Contrast Measure, MPCM),MPCM表示像素属于目标区域的概率,通过计算不同尺度下局部对比度的值,通过自适应阈值增强目标和抑制背景。此算法增强了算法对于目标大小变化的鲁棒性,且削弱了正负高斯拉普拉斯滤波(Laplacian Of Gaussian, LOG)的边缘响应,但是检测精度受限于阈值的选择,计算过程中相关参数的估计需要一定的先验信息。文献[39]使用改进后的局部熵对多尺度局部差异对比度进行加权,消除了云边缘对目标检测的影响。文献[40]仿照空间局部灰度值差对比度建立的方法在像素时间轴上构建时间局部像素值对比度机制,综合时间对比度和空间对比度建立时空对比度来实现对弱小目标的检测。文献[41]根据弱小目标的成像特性,对中心图像块采用高斯滤波对目标进行增强,对于邻域图像块,则使用均值滤波器以及标准差滤波器处理尽可能平滑噪声,对处理后的图像使用局部对比度机制处理检测图像中的弱小目标。文献[42]首先在高斯空间确定每个像素点的局部窗口大小,然后计算差值对比度与比值对比度检测弱小目标。文献[43]使用多个滤波器对图像进行预处理,然后使用随机游走算法(Random Walker, RW)对去除预处理图像的部分背景杂波并提取不规则目标,然后根据RW算法标记的概率值计算对比度,获取低对比度目标。文献[44]通过正负高斯拉普拉斯滤波(Laplacian Of Gaussian, LOG)检测疑似目标区域,然后根据多尺度下的灰度差值对比度去除疑似目标区域。文献[45]利用图像的高频信息与局部最大值获取候选目标点,然后根据目标的灰度下降和局部梯度分水岭特征,计算每个候选目标点的对比度提取目标。

单层对比度机制在面对背景与目标对比度不高或背景复杂时,特别是海天背景下,存在大量的噪声和杂波影响,现有算法检测结果虚警率偏高,同时为降低目标检测在复杂背景边缘和拐点误检率,文献[46]提出了一种基于双层窗口的局部对比度算法(Double Window LCM, DLCM)。通过两个背景系数获得背景子窗所在的区域信息,再利用滑窗定义拐点惩罚系数,两个窗口共同构成图像的局部先验信息,降低了目标检测的误检率。文献[47]提出了一种改进的双层对比度机制方法,同时采用汉宁窗对第一层进行加权,同时融合8方向梯度图对目标进行增强,最后通过奇异值分解去除高亮噪声的影响。韩等人[48]为针对复杂背景和低信杂比条件下的红外弱小目标检测提出了一种三层的局部对比度方法。该方法设计单一尺寸的三层嵌套窗口,中间层用于捕获目标主要元素,最外层用于捕获背景元素,中间层用于目标和背景的隔离和过渡,只要目标尺寸不超过中间层大小,即可利用单一尺寸窗口实现对不同尺寸大小目标的检测。该方法相较于多尺度对比方法算法计算量小、实时性强。但由于最外层采用最接近原则,当目标和边缘另一侧亮度相当时目标会被抑制,因此该算法在处理目标靠近高亮背景的图像时效果不理想。鲁等人[49]为解决传统算法在处理复杂背景弱小目标检测低检测率和高虚警率的问题提出了一种改进的加权增强局部对比度(Improved Weighted Enhancement Of Local Contrast Measure, IWELCM)算法。首先,构建嵌套窗口,通过计算中心块和八方向背景块的局部对比度来抑制背景那个边缘;其次,基于弱小目标特征和目标与背景之间的统计差异提出块灰度比概念,计算像素的加权函数;最后,通过多尺度和最大池化操作得到最终的IWELCM达到检测目的。此算法在明亮的云层边缘背景和灰暗目标背景效果显著,但当背景存在强干扰时一些强干扰会无法得到很好的抑制。

2.2.3 基于视觉显著性算法对比

图6为LCM、MPCM、RLCM和DLCM四种算法仿真结果对比,基于视觉显著性检测算法能够在目标纹理特征不明显时较好地提取出目标所在区域,再通过阈值分割等方法结合进行弱小目标检测。LCM法主要利用目标灰度值较邻域灰度值大的特点进行目标增强,同时噪声也会过增强,降低检测效果。MPCM法优点在于能够容易把弱小目标从背景中抽离出来,对于较暗的目标仍有良好的检测能力,但是受到云层、树林等杂波影响较大,鲁棒性差。RLCM法不需要预处理消除高亮背景和边缘杂波干扰,能够实现复杂背景下不同目标的检测,鲁棒性好。DLCM法可实现对不同尺寸弱小目标的检测,杂波抑制能力强,鲁棒性强,检测效果最好。现有的方法大多从算法层面糅合加以改进,并不能从原理层面更好的有机结合图像信息。同时也不用仅限于局部对比度可以通过引入更多信息(局部信息熵[50]等)作为加权函数或融合等手段改进提高算法性能。

图6 基于视觉显著性算法仿真

2.3 基于数据优化的红外弱小目标检测方法

由前面的分析可知,红外弱小目标往往向周围空间辐射大量的能量,在图像上呈现为突兀的光点,在图像中具有稀疏特性而背景像素之间差异一般较小,像素之间的关联性较强,具有低秩性。因此基于数据优化的方法从背景与目标的两种不同特性入手,构建相应的优化模型并解,对背景与目标图像进行分离,从而达到检测弱小目标的目的,如图7所示。

图7 数据优化检测流程图

2.3.1 基于单子空间数据优化的红外弱小目标检测算法

GAO等人[51]考虑到在IRST系统中传感器常处于运动状态,这种场景下生成的红外图像背景不会一成不变,目标也会因运动存在不连续性。目标的类型,环境的干扰都可能造成目标的灰度不满足二维正态分布,同时目标的尺寸也会影响算法的检测性能。为解决传统算法的不足提出了一种(Infrared Patch-Image, IPI)模型:

51c视觉~合集4_数据集_37

其中  是原始图像,  是目标图像,  是背景图像,  是噪声图像。通过分析背景的灰度强度变化平稳, 在灰度空间分布具有较大的相关性可将背景图视为低秩矩阵, 目标所占像素比例小可将目标图视为稀疏矩阵, 目标检测工作转化为从原始图像中最优的分解出一个低秩矩阵和一个稀疏矩阵:

51c视觉~合集4_权重_38

 为矩阵所有元素平方和再开方,  。.为矩阵的奇异值之和,  为矩阵所有元素的绝对值之和, 为了更好的估计背景将模型转化为:

51c视觉~合集4_数据集_39

是非负权重,取值不定。该模型通过遍历图像,将每次取得的图像块向量化构建原始矩阵,最后通过加速近端梯度算法(Accelerated Proximal Gradient, APG)求解矩阵的奇异值,该方法能较好地提取图像中的弱小目标,但对边缘、角点敏感,使用矩阵求逆耗时较长。文献[52]利用局部结构知识,使用转向核和协方差对每一个Patch构建权重。文献[53]首先使用引导滤波方法对原始图像进行处理,使用处理的得到的图像构建Patch模型,然后使用奇异值部分求解背景图像达到分离目标的目的。考虑到背景的不均匀性、非平滑性,文献[54]引入全变分正则化项对背景中的边缘结构进行保留,该算法能够在各种场景下都有良好的性能,能够较好的估计背景,这种估计还能进一步应用到运动检测、图像配准等方面。文献[55]对图像进行度多尺度分解,构建多尺度Patch池,计算池中的每Patch的自适应权重,实现多尺度下的目标—背景分离,最后,通过模板匹配相似性度量的阈值分割实现红外弱小目标的检测。文献[56]使用背景张量的核范数代替张量的秩,同时使用原始图像的结构张量特征值构建自适应权重。Sun等人[57]分析了图像块的形状、大小和数量的最优参数原理,提出了一种高效的多尺度低秩红外弱小目标检测方法,经系统地分析,采用三种最优尺度对弱小目标进行检测,充分保留了弱小目标的信息,并提高了运行效率。Zhang等人[58]考虑到IPI模型会在目标图像中留下背景残差和稀疏强边不能完全抑制的问题提出了一种基于非凸秩逼近最小化联合范数(Non-Convex Rank Approximation Minimization, NRAM)的检测算法,该算法通过采用非凸、加权范数来抑制背景,引入结构化范数消除强残差,抑制稀疏强边缘。在此基础上,文献[59]使用背景张量奇异值的拉普拉斯函数值代替张量的秩,对于结构化的稀疏边缘使用范数进行正则化约束。SUN等人[60]针对普通核范数和低秩分量会引起过缩问题提出了一种基于加权Schatten p-范数的时空张量模型(Weighted Schatten p-norm Minimization Spatial-Temporal Infrared Patch-Tensor,WSNM-STIPT),通过对背景部分利用非局部张量全变分约束背景中的边缘结构,计算像素点结构张量矩阵的特征值,构造能自适应区分角点与边缘的目标项自适应权重,使用截断奇异值方法检测弱小目标,该算法在复杂背景和中噪声条件下具有较好的检测性能。文献[61]分析目标往往存在于奇异值最大衰减之前,通过提取最大衰减前的图像层次,然后使用霍夫直线检测去除目标图像中的直线干扰得到弱小目标位置。DAI等人[62]发现IPI模型会出现过度缩小目标或强边缘信息难以滤除的情况提出了一种新的背景抑制模型(Non-negative Infrared Patch-image Partial Sum, NIPPS),考虑目标的非负性,同时提出了一种基于奇异值部分和极小化方法估计背景张量,避免了缺陷样本被误认异常值的可能性,提高了算法的检测性能。文献[63]将IPI模型拓展到张量域,使用奇异值分解(Singular Value Decomposition, SVD)求解背景张量的核范数实现对弱小目标的检测。文献[64]在IPT模型的基础上考虑背景图像贴片与目标图像贴片稀疏性的相关性。文献[65]提出了一种非重叠时空Patch张量构建法,然后使用张量限制核范数估计背景张量块。文献[66]通过环形Top-Hat算法对得到的目标张量进行处理,有效地降低了目标张量中的边缘干扰。文献[67]通过局部对比度方法构建目标张量的自适应权重,然后对S矩阵进行处理,而得到 , 根据 和t-SVD构建新的核范数。考虑到大多数低秩方法对不同的奇异值赋予相同的权重,使背景估计不准确,文献[68]使用Log算子计算背景张量三个维度上纤维核范数代替张量的秩,使用结构张量的特征值构造自适应目标张量权重,提升了算法的各项指标。文献[69]认为时空域上目标变化具有不对称性,提出了非对称时空正则化项保留背景分量中的稀疏结构。Yan等人[70]考虑到当目标被湮没在背景杂波和边缘结构中时,目标检测和背景估计难度更高,提出了一种基于核低秩张量主成分分析的检测方法,使用核低秩逼近方法来估计背景分量,同时利用图拉普拉斯正则化作为稀疏约束约束均匀目标区域。算法在强边缘和强杂波干扰情况下仍能鲁棒的检测目标。文献[71]通过引入了一种新的红外序列张量分解方法,能够结合本征张量秩和空间结构来提高背景恢复。文献[72]针对矩阵分解的残留过优化问题,引入Pareto边界优化策略以及Huber惩罚项,然后使用随机SVD方法加快求解速度。

2.3.2 基于多子空间数据优化的红外弱小目标检测算法

由于真实红外图像中往往存在大量杂波(如云边缘、道路边缘以及地面复杂背景等),许多学者认为使用背景来自单一子空间的数据优化方法会导致结果中存在大量虚警点,因此基于多子空间数据优化方法相继被提出。文献[73]通过红外序列构建时空张量,使用背景的张量的核范数将多子空间性质推广到张量域。文献[74]在多子空间理论的基础上,利用二维高斯模型生成原子,生成过完备目标字典;然后通过低秩稀疏表示模型对重置后的图像数据矩阵进行分解,得到图像的背景分量、噪声分量和目标分量。文献[75]使用重叠边缘信息构建目标图像的加权系数矩阵,然后使用自正则化项挖掘背景中的潜在信息,从多子空间中提取杂波信息实现对图像中的弱小目标检测。文献[76]利用多子空间恢复理论和子空间学习策略,构造了标准正交子空间和范数下包含群稀疏性的优化模型。文献[77]利用稀疏表示模型将目标图像分解为背景分量、目标分量和噪声分量,使用双稀疏模型构造了一个背景字典,并提出了一种改进的在线学习算法来训练字典,同时提出了一种边缘杂波抑制策略提高鲁棒性。ZHANG等人[78]发现在异构场景下仍然很难从背景的稀疏残差中恢复出目标图像,因此提出了一种新的基于边角感知的时空张量(Edge and Corner Awareness-based Spatial-Temporal Tensor, ECA-STT)模型。通过一个可调的边缘和角的权重来突显目标,将背景分离问题等效成一个张量鲁棒主成分分析问题,大大提升了算法的目标增强和背景抑制能力,但总体算法复杂度较大需要引入更加高效的张量秩替代项和TV正则化项优化计算量。

2.3.3 基于数据优化算法对比

如图8为IPI、ECA-STT、NIPPS、WSNM-STIPT和NRAM算法的仿真结果。从目标图可直观看出,基于数据优化法相较传统算法的背景抑制能力更强,检测效果更好,但都存在一些无法消除的噪点,主要是因为数据优化法使原始图像中一些强边缘或角结构在背景恢复过程不准确,被当作孤立稀疏的点被误判定为目标图像。IPI法在每个图像块向量化时,会破坏图像间的结构信息,目标图像估计不准确,导致目标图像会留边缘残差和角残差,检测效果不佳。此法适合背景均匀的场景,输出目标图像噪点少。ECA-STT法为针对IPI法产生残差问题,引入了边缘和角的权重指标,从仿真结果看出目标图像噪点较少,能更好的从稀疏残差中区分真目标,提高了算法的鲁棒性。NIPPS法在背景杂波、强边缘和非目标干扰情况下检测效率不高。WSNM-STIPT法解决了背景估计的过缩问题,目标图杂波少,背景图像恢复更加准确,提高了对厚重杂波和大噪声的抑制能力,目标检测的能力和鲁棒性更强。NRAM法降低了运算复杂度,有较好的鲁棒性,但同样存在将非目标噪声或非目标突出像素误判为目标的问题,强边缘无法完全抑制。

图8 基于数据优化算法仿真

2.4 基于深度学习算法的红外弱小目标检测算法

目标检测算法特征提取主要分为底层特征、中层特征和高层特征。传统算法主要的特征提取方式就是提取纹理、形状、亮度等底层特征或以底层特征为基础通过机器学习或其手段挖掘出的中层特征。中底层特征的提取会受到窗口设计、光照变换等因素干扰从而增加特征提取难度。而深度学习算法能够对图像数据多层次分析挖掘深层次特征避免了上述问题。深度学习网络模拟大脑对信息的处理方式拥有自主学习和分析功能,提取图像的多层语义特征,提高检测能力。目前根据检测原理不同,深度学习算法可大致分为基于回归神经网络模型One-stage 模型和基于区域候选的神经网络模型Two-stage模型。两种模型的检测流程如图9和图10所示。

图10 Two-stage模型流程图

2.4.1 基于One-stage 模型的红外弱小目标检测算法

One-stage 模型是基于回归的范式,直接对物体分类和候选框预测,不生成候选区,特点是相对速度快一步到位。文献[79]最先提出了一种新的目标检测算法(You Only Look Once, YOLO),首先将待处理图像分为N×N个网格,每个网格只负责中心点落在网格内的目标进行检测,能够一次性预测所有网格内的目标边界框和置信度,大大增加了算法的实时性,同时也提出了一种速度更快的微型框架,算法速度更快,但是准确率有所下降。文献[80]为提高YOLO算法的准确性提出了YOLOv3算法,文章把特征提取骨干网络换成Darhenr53网络,通过53个卷积层可以提取大、中、小三个尺度的目标的特征。在提升算法的检测性能的同时响应速度也得到了保证。冯等人[81]在YOLOv3的基础上,采用更大尺寸的检测头,提高了弱小目标的检测概率,提取各通道之间的信息交互供网络学习进一步提高网络训练准确率,但同时降低了网络的训练速度,在成像条件恶劣时甚至出现误检的问题。文献[82]考虑到噪声和背景干扰的影响,引入SimAMC3注意力模块利用空间关联信息,设计目标检测头,改进预测窗筛选模式,提高了YOLOv5网络的区分目标和噪点的能力,并利用帧间信息降低了虚警率。文献[83]采用VGG16网络做特征提取,用卷积层替换后面的全连接层,并添加自定义卷积层,通过设置不同缩放比和尺寸的先验框融合检测多尺度特征,利用大尺寸特征和小尺寸特征图互补,从而提高检测和定位的准确性。但均匀密集采样会增加训练难度,并且随着网络层数的增加容易丢失弱小目标信息。文献[84]提出了一种基于Anchor-free算法,算法去掉了耗时较长的Anchros后处理操作,直接在heatmap图上面进行过滤,提高了算法的运行速度,便于实现在低性能嵌入式设备中。

2.4.2 基于Two-stage模型的红外弱小目标检测算法

Two-stage模型先通过区域选择方法生成备选区域,再和卷积神经网络结合对备选区域进行分类和回归,大大提高了算法的准确率。文献[85]首先找出可能包含目标的边界框,采用卷积神经网络(Convolutional Neural Network, CNN)进行特征提取,再利用支持向量机(Support Vector Machine, SVM)进行分类,并利用边界框回归的方式对目标位置进行修正,算法提高了检测的准确率,但是边界框的重叠需要重复卷积计算,大大增加了算法的运行时长,文献[86]考虑到上述不足提出了一种快速区域建议的卷积神经网络检测算法(Fast R-CNN),首先选择性搜索生成备选区域,通过CNN对整个图像进行特征提取,利用Rol Pooling层把所有的特征转化为相同大小的特征图,采用softmax进行分类,缩短了训练周期,提高了算法的效率,但依旧没有克服备选区域选择耗时长的问题。文献[87]提出了一种将Faster R-CNN和全卷积网络(Fully Convolutional Network, FCN)结合的检测算法,该算法既有Faster R-CNN的检测精度和速度,又具有FCN的高语义分割精度。

2.4.3 基于深度学习算法对

以YOLO系列为代表的One-stage 模型把目标检测看为单一的回归问题,直接生成备选区域,再对边界框进行分类和边界框回归,该类算法计算成本低,响应速度快,但在针对弱小目标检测中容易生成密集备选区域,降低检测准确率,还容易出现过拟合情况,以R-CNN系列为代表的Two-stage模型包含两个网络,生成备选框的建议网络和边框分类、边框回归网络,两个网络的好处就是增加了算法的检测性能,也增加了算法成本,延长了响应时间,能够更好地应对复杂场景。相较于传统算法具有更高的鲁棒性和综合性能,能够通过修改网络架构来适应不同场景,但是深度学习算法需要大量的数据集训练学习,对于小样本数据算法性能受限,实时性不强。

03 算法性能对比

为了进一步评估各类算法的检测性能,本文选取了公开数据集对典型算法进行仿真,所用图像场景如表1所示、红外照相机基本参数如表2所示、目标(无人机)基本参数如表3所示。

表3 无人机基本参数

本文为了定量分析算法性能,选取Median Filter、Max-Mean、Bilateral Filter、Top-Hat、LPF、LCM、RLCM、MPCM、DLCM、IPI、ECA-STT、NIPPS、WSNM-STIPT、NRAM算法并使用算法复杂度、运行时间、信杂比增益(Signal-to-noise Ratio Gain, SCRG)和背景抑制因子(Background Suppress Factor, BSF)四个客观指标进行分析,其中SCRG、BSF定义如下:式中SCR为图像的信噪比,C为背景杂波标准差。SCRG越大表示从原始图像中提取了更多的目标信息,证明检测算法性能越好。BSF用来表征算法对背景的抑制效果,一般来说也是越大算法性能越好。客观指标对比如表4所示:其中M、N、S、I、L、m、n、 n1、n2、n3分别表示为图像行、列、窗口尺寸、结构元尺寸、局部窗口尺寸、图像块行、列、时空张量尺寸。

表4 14种算法客观指标对比

从算法复杂度分析在三类算法中滤波类算法结构简单、算法复杂度低、响应速度最快。其中中值滤波加入了排序过程提高了算法复杂度,双边滤波算法复杂度受窗口尺寸限制,可以通过拟合函数降低复杂度。视觉显著性算法加入了HVS理论机制增加了算法的复杂程度,增加了响应时长,数据优化类算法涉及到大量的矩阵运算响应速度最慢。一般来讲算法引入的图像信息越多算法复杂度越高;从背景抑制因子和信杂比增益分析,滤波类算法效果平均最低,其中以Top-Hat为代表的形态学滤波算法通过结构元素抑制背景的效果最好。视觉显著性算法指标平均居中,LCM法因存在块效应导致两个指标效果最差,DLCM法引入双层对比度分析机在这些算法中平均指标最好。数据优化类算法平均指标表现最好,IPI法在将块图像向量化的时候会破坏图形结构信息,输出的目标图会存有大量残差,使两个指标并不高。ECA-STT法和NIPPS法考虑到IPI法存在问题加以改进,两个指标有所提升,两算法效果接近。滤波类算法对复杂背景中的轮廓和角等高亮像素抑制效果差,导致背景抑制因子偏低,检测效果不理想,更适合处理均质背景或图像预处理。视觉显著性算法引入对比度、信息熵、局部梯度等理论机制能够快速的在原始图像找到目标所在区域,目标增强和背景抑制能力有所提升。数据优化类方法通过构建图像模型引入优化方法,提高了对复杂背景下的目标检测能力,但算法较为复杂,处理数据量大,缺少实时性。

传统算法与深度学习算法相比,传统算法提取目标的中低层特征,算法复杂度低、占用计算资源少、硬件实施简单,工作原理直观便于理解、应对小样本数据更加适用,但总体在应对复杂场景或目标被遮挡等情况检测结果不理想。深度学习算法提取目标的高层甚至更深层次的特征,自主性强,能够通过训练集学习目标特征,即使目标存在姿态变化或遮挡等情况依旧有较好检测效果,在应对不同场景的检测,也能准确鲁棒的进行目标识别。但深度学习算法复杂度高,可解释性不强,需要大量的数据集训练,在实际应用场景中实时性低,不利于实现。

04 结论与展望

在过去的几十年里不断有新的理论被引入到目标检测领域中从而产生新的算法。研究人员针对某一问题提出改进算法使这项技术得到显著进步。本文依据算法的检测手段,主要从滤波算法、视觉对比度分析与显著性分析、数据优化和深度学习四个方面对现有的单帧红外图像弱小目标检测算法简要分析,目前的红外弱小目标检测算法仍受限于以下几个方面:

(1)红外目标“弱”: 为保证系统的隐蔽性,当目标探测距离超过十公里甚至几十公里时,加上大气的散射、探测器镜头损坏或者污染、电子元件和外界产生的噪声产生的影响,IRST系统接收到的目标的信号十分微弱,在图像中会呈现信杂比、对比度低甚至湮没在背景中。

(2)红外目标小: 指的是目标在红外图像中所占像素比例小,缺乏纹理信息,使传统可见光目标检测算法无法直接用于红外弱小目标检测。

(3)成像背景复杂: 这是由IRST系统工作环境所致,成像过程中往往伴随着复杂场景包括树林、云层、海波等,在红外图像中会产生大量的边缘杂波和角点,这对算法的鲁棒性要求很高。

未来的发展趋势或解决现有算法问题的途径可以从以下几个方面思考:

(1)多特征融合: 单一特征处理的问题往往是有限的,多特征融合算法的趋势已经十分明显。例如把多方向线重构、残谱差和DOG尺度滤波三种方法提取的显著性图融合后对目标进行检测大大减少了虚警目标,增加了算法的准确性[88]。研究了多种基于图像不同特征融合的显著性目标检测,来提取图像中显著特征取得了不错的检测效果[89]。

(2)经典算法的改进: 现有的算法大多是在成像后,对图像中存在的边缘杂波、噪点进行滤除和抑制。可以从目标的成像前考虑这些杂波的成因入手,增强目标信杂比,利于目标检测。有研究通过对典型地物目标的红外偏振辐射场景模拟仿真发现,与红外辐射强度图像相比,红外偏振特征图像能够提高目标与背景的对比度及轮廓信息[90],这是一个值得关注的方向。

(3)新方法: 深度学习算法通常需要大量的样本对模型进行训练,由于红外弱小目标检测领域比较敏感数据集采集受到限制,可以通过改变骨干网络架构去提高小样本[91]的学习能力,或者引入GAN网络生成虚拟数据扩大数据集,增强网络的场景适应能力。引入因果推理等新理论提高网络检测精度和模型可解释性。

(4)新体制: 红外探测器受自身制作工艺和自身的金属性影响,探测弱小目标能力有限,辐射精度低,对目标特征的描述不充分。可以通过不同波段如可见光[92]、雷达波段和运动特征之间特征互补,提高目标的检测准确性。