Super-Resolution for Remote Sensing Images via Local–Global Combined Network

  • 摘要
  • I. 引言
  • II. 方法
  • A. 用于超分辨率的卷积神经网络
  • B. 局部-全局组合网络
  • 1) 表征:
  • 2) 局部-全局组合:
  • 3) 重建:
  • III. 实验结果和分析
  • A. 数据集和相似性指标
  • B. 实施细节
  • C. 局部-全局组合分析
  • D. 结果比较和分析
  • E. 深度评估
  • IV. 结论


摘要

超分辨率是一种图像处理技术,它从单一或连续的低分辨率图像中恢复出高分辨率的图像。最近,深度卷积神经网络(CNN)在包括超级分辨率在内的许多任务中取得了巨大的突破。在这封信中,我们提出了一种新的单幅图像超分辨率算法,即基于深度CNN的遥感图像的局部-全球组合网络(LGCNet)。我们的LGCNet精心设计了 "多叉 "结构,以学习遥感图像的多层次表征,包括局部细节和全局环境先验。在公共遥感数据集(UC Merced)上的实验结果表明,与几个最先进的算法相比,准确性和视觉性能都有全面的提高。
关键词:卷积神经网络(CNN),局部-全局组合网络(LGCNet),遥感图像,超分辨率。

I. 引言

具有丰富细节的高分辨率图像对于许多遥感应用(如目标探测和识别)是必不可少的。许多研究人员不是致力于物理成像技术,而是旨在使用一种称为超分辨率的图像处理技术从低分辨率的图像中恢复高分辨率的图像[1]。

早期有很多关于图像超分辨率的研究,其中大部分是针对多幅图像设计的,即用一系列低分辨率的图像(同一场景的不同采集时间)来恢复高分辨率的图像[2]。最近的一些研究旨在通过学习从低分辨率到高分辨率图像的映射函数,从大量的训练数据中利用图像先验,从单一的低分辨率图像中恢复高分辨率的图像[3]。

在遥感图像处理领域,近年来提出了单图像和多图像的超分辨率方法。Li等人[4]提出了一种多图像的超分辨率方法,名为具有最大后验的隐马尔可夫树。对于单幅远程图像的超分辨率,通常使用自然图像统计学的稀疏性先验。Pan等人[5]基于压缩感应和结构自相似性,从单一低分辨率图像中恢复了高分辨率遥感图像。Chavez-Roman和Ponomaryov[6]结合离散小波变换和稀疏表示,从单一低分辨率图像中生成高分辨率图像。Li等人[7]探索了光谱和空间领域的稀疏特性,用于高光谱图像的超分辨率。尽管上述方法在遥感图像超分辨率领域起到了促进作用,但其缺陷也是显而易见的。

首先,它们都是基于低级别的特征设计的,如图像边缘和轮廓的字典[8],[9],甚至是原始像素[5]。机器学习算法的成功通常取决于如何表示图像特征的正确方式[10]。目前,深度卷积神经网络(CNN)已经成为从数据中自动学习高水平特征表示的流行方式,并在图像分类[11]和物体检测[12]等任务中显示出巨大潜力。遥感图像高度复杂的空间分布表明,更高层次的抽象和更好的数据表示对于遥感目标检测和图像超分辨率等应用是必不可少的[13]。在自然图像超分辨率等相关领域,一些研究者提出了基于CNN的单幅图像超分辨率方法[14],[15],[22],以学习低/高分辨率图像之间的端到端映射,并取得了最先进的性能。

其次,遥感图像中的地面物体通常具有较宽的尺度范围,即物体本身(如飞机)和周围环境(如机场)在其图像模式的联合分布中是相互耦合的,这与自然图像的分布有很大区别。上述方法大多只在单一物体尺度上构建字典或学习数据先验,而忽略了环境信息。在这封信中,我们利用深度学习在遥感图像中的多级数据表示能力,提出了一种新的图像超分辨率方法,即局部-全局组合网络(LGCNET)。在一个典型的CNN模型中,低层卷积层的神经元共享小尺寸的感受野,并更多地关注局部细节,而在高层,更大的感受野被积累起来,覆盖更大的数据区域。我们的LGCNet精心设计了 "多叉 "结构,以学习遥感数据的多尺度表征,包括局部细节(如物体的边缘和轮廓)和全球先验(如环境类型)。

本信的其余部分组织如下。第二节给出了拟议方法的实施细节。实验结果在第三节中描述。第四节中得出一些结论。

II. 方法

A. 用于超分辨率的卷积神经网络

卷积、非线性映射和池化是CNN的三个主要组成部分。通过这些操作,CNN可以通过有监督的训练,自适应地将输入的图像空间转化为特定任务的有效特征空间。考虑到在图像超分辨率任务中,低分辨率的图像在汇集后会进一步失去细节信息,导致重建结果更差,在我们的模型中,只使用卷积和非线性映射操作。

让我们把输入X的大小表示为H×W×C,其中C表示遥感图像的通道数。对于由L个卷积层组成的网络,卷积和非线性映射后的输出可以计算为

Android NCNN超分放大_Android NCNN超分放大


其中Wl, bl, l∈(1, …, L)分别是待学习的网络权重和偏差。

Wl是一个大小为kl×kl×nl-1×nl的张量,其中kl表示第l层的核大小,nl表示同一层的特征图数量(n0=C)。

bl是一个大小等于nl的向量。

非线性函数σ是一个元素明智的操作,现在多采用整流线性函数(max(0, x)),这使得CNN的收敛速度比传统的饱和非线性快得多[11]。

B. 局部-全局组合网络

所提方法的流程图如图1所示,其中由粗体虚线框围起来的部分说明了我们提出的LGCNet。当网络深入时,学习残差可以使网络更快地收敛,获得更好的最小值和性能[15]-[17]。因此,我们设计LGCNet来重构高频信息(残差)

Android NCNN超分放大_Android NCNN超分放大_02


Android NCNN超分放大_遥感图像_03


图1:拟议的遥感图像超分辨率方法的流程图。

多层次信息在图像超分辨率任务中显示出巨大的潜力,特别是在遥感图像中。具有众多卷积层的深度CNN是分层模型,自然会给出输入图像的多级表征,在低层的表征侧重于局部细节(如物体的边缘和轮廓),在高层的表征涉及更多的全局性先验(如环境类型)。LGCNet充分利用了局部和全局表征,由三个主要部分组成,详细描述如下:

1) 表征:

第一部分利用L个卷积层,每层后面都有非线性映射,将输入自适应地转化为有效的特征空间,获得不同层次的表示。由于大的卷积滤波器尺寸会使网络变得冗余和缓慢,我们将滤波器尺寸kl和每层的特征图数量nl设置得相对较小:kl=3,nl=32。

2) 局部-全局组合:

这一部分是多尺度学习的核心。局部-全局组合主要通过 "多叉 "结构实现,将不同层的卷积结果连接起来。一个卷积层被进一步应用于合并这些合并后的表征以进行最终的重建。为了获得更丰富的合并层表示,我们将滤波器的大小和特征图的数量设置得相对较大,其中k=5和n=64。这样,合并后的表示fc被定义为

Android NCNN超分放大_遥感图像_04


其中fi, f j, fk是不同层次的表示。那么,整体的局部-全局联合表征flgc可以计算如下:

Android NCNN超分放大_Android NCNN超分放大_05

3) 重建:

在LGCNet的最后部分,我们直接利用一个卷积层来恢复上述局部-全球组合表示的残差(高频成分)

Android NCNN超分放大_卷积_06


最后的高分辨率图像Yˆ可以通过添加其低分辨率成分进一步得到。

Android NCNN超分放大_卷积_07


对于LGCNet,我们设置L = 5,以便对所提出的想法进行快速调查和验证。对于每个卷积层,为了保证输出的特征图与输入的大小相同,在k=3的情况下使用了1的填充,在k=3的情况下使用了2的填充。表一列出了详细的配置,其中局部-全局组合部分由第三节C的实验决定。我们使用均方误差作为损失函数来训练提议的网络

Android NCNN超分放大_遥感图像_08


其中N是训练样本的总数。

III. 实验结果和分析

A. 数据集和相似性指标

由于没有公开的遥感图像超分辨率数据集,我们选择了UC Merced数据集[18],这是一个经典的场景分类数据集,具有相当高的空间分辨率(0.3米/像素),来评估我们的方法。UC Merced数据集共包含21类地面特征,每类有100张图像。我们将一半的图像(每类50幅)用于训练,其他的用于测试。此外,我们随机选择20%的训练样本作为模型选择的验证集,其他80%用于训练。所有的图像首先被降频为低分辨率的图像,原始图像作为高分辨率的参考图像。在这封信中,选择了两个经典的评价标准,峰值信噪比(PSNR)[dB]和结构相似性指数测量(SSIM)[19]来衡量几种不同的超分辨率方法的性能。由于这组数据中的图像是RGB图像,PSNR和SSIM是通过平均这三个通道的相似度来计算的。

此外,真实数据被用来测试我们提出的方法的稳健性。GaoFen-2(GF-2)多光谱图像(3.2米/像素)的三个可见光波段被提取并堆叠成一个伪RGB图像用于实验。由于没有相应的高分辨率图像作为参考,结果显示并与其他方法进行定性比较。

B. 实施细节

在训练阶段,我们从低分辨率图像X和其相应的参考图像Y中提取41×41的子图像,形成训练样本对。这些样本对的总数约为14万个,训练使用迷你批次图2。不同训练历时的验证集的实验结果(平均PSNR)。所有的模型都是在相同的训练配置下以3的比例系数进行训练。学习率最初被设置为0.1,以获得快速收敛。LGCNet的训练总共迭代了80个历时,在第40个历时之后,学习率下降了10倍。同时,为了防止梯度爆炸,我们用它的L2准则来剪辑梯度,这在训练递归网络时经常使用[20]。具体来说,当||g||2高于阈值t时,在参数更新之前,梯度g被替换为(g×t/||g||2)。动量和权重衰减被设置为0.9和0.0001,正如大多数深度学习任务一样。所有这些实验都是在Inter i7 CPU 4.0 GHz、34 GB内存和Nvida Titan Z上进行的,并利用Caffe软件包[21]来实现我们提出的方法。

Android NCNN超分放大_卷积_09


图2:不同训练历时的验证集的实验结果(平均PSNR)。所有的模型都是在相同的训练配置下以3的比例系数进行训练的。

C. 局部-全局组合分析

LGCNet最重要的特性是它结合了深度CNNs模型的不同层次表示,其中涉及相对的局部细节和全局环境的先验,以获得更好的超分辨率后果。为了验证它是否真的对这个任务有帮助,我们设计了一组实验。首先,我们用一个由7个卷积层组成的网络(CNN-7)作为基准,它只利用全局和高层表示来学习残差。然后,我们将第五个卷积层和不同的低层结合起来,导入到下面的串联层中,其中选择一个或两个层。为了公平起见,所有这些模型都是为了在相同的训练配置下恢复放大系数为3的遥感图像。

图2显示了随着训练历时的增加,以验证集的平均PSNR衡量的实验结果。用不同策略设计的模型用相应的名称表示。以LGCNet-345为例,它表示该模型结合了第三、第四和第五层的表示。正如我们所期望的,层的结合给遥感图像带来了更好的超分辨率结果,更多的层结合在一起,更多的局部和全局表征被纳入其中。LGCNet-345的性能略好于其他三层组合模型,因此我们将该模型作为最终的LGCNet架构,表一为其详细配置

Android NCNN超分放大_遥感图像_10

D. 结果比较和分析

在这里,我们进一步评估了LGCNet在测试集上的性能,与其他一些方法相比,包括经典的双三次插值、稀疏编码(SC)[8]、基于CNN的SRCNN[14]和FSRCNN[22](艺术状态),以及我们的基线模型CNN-7。由于测试图像有三个通道,在遥感的背景下,把原始通道变成YCbCr是没有意义的,就像在SC、SRCNN和FSRCNN中那样,我们略微调整这三种方法,把三个通道的图像作为输入,以进行公平和令人信服的比较。SRCNN和FSRCNN在我们的实验数据集下被重新训练,以获得它们的最佳性能进行公平的比较。

表二列出了这六种方法在三个放大系数(2-4)下的所有测试图像的最终平均PSNR和SSIM。在这些方法中,LGCNet的性能最好,具有最高的PSNR和SSIM。

Android NCNN超分放大_卷积_11


图3显示了这些方法的一些超分辨率结果。由LGCNet恢复的高分辨率遥感图像具有更清晰的边缘和更明显的轮廓。

Android NCNN超分放大_遥感图像_12


图3:超分辨率结果。(a) 飞机图像(放大系数=3)。(b) 跑道图像(放大系数=4)。表三给出了每一类地面特征的详细重建结果(放大系数=3),这表明我们的模型对所有21类图像2的平均PSNR(dB)都比其他方法(包括目前的技术水平)有了全面的提高。在这些类别中,港口图像(类别11)的PSNR最低,为23.63 dB(仍优于其他方法)。需要注意的是,一些类如Baseballdiamond(类3)、Beach(类4)和Golfcourse(类10)可能共享一个相对较高的PSNR,因为这些类的图像比其他类的图像要平滑得多,因此基本上可能不适合评估超分辨率任务,可以排除。尽管如此,我们仍然把这个完整的数据集作为一个公平的判断。由于局部细节和环境先验在所有的地面特征中都是必不可少的,我们的LGCNet与局部-全局组合在每个类别中都优于其他方法。

Android NCNN超分放大_Android NCNN超分放大_13

图4说明了GF-2卫星数据的一些超分辨率结果。尽管这些图像的分辨率(3.2米/像素)与训练集不同,训练集的放大系数3和4分别为0.9米/像素(0.3×3)和1.2米/像素(0.3×4),但LGCNet仍然获得了更好的结果,锯齿和环形伪影更少。这些结果表明我们的模型比其他方法更稳健。

Android NCNN超分放大_卷积_14


图4:真实数据的超分辨率结果。(a)放大系数=3。(b)放大系数=4。

E. 深度评估

为了探索架构深度的影响,我们将我们的模型再扩展了5层(表示部分共10层),将第四层、第七层和第十层结合起来,称为LGCNet+。此外,我们实现了VDSR[15](技术水平)作为比较,它是一个具有20层的端到端深度模型。表四显示了在UC Merced测试数据上的结果,推理时间是用Nvida Titan Z(GPU模式)测试的。可以发现,LGCNet+比LGCNet获得了更好的超分辨率结果,因为有更深的表示。虽然VDSR更深,拥有更多的参数,但LGCNet+仍比VDSR获得更好的质量,而且速度有很大的提高,这证明了局部-全局组合的有效性。LGCNet是一个更轻的模型,具有更快的超分辨率速度。

Android NCNN超分放大_遥感图像_15

IV. 结论

我们设计了一个名为LGCNet的新型网络,充分利用深度CNN的表征来实现遥感图像的超分辨率。LGCNet侧重于通过学习地面物体和环境先验的多级表征来重建低分辨率和相应高分辨率图像对之间的残差。实验结果表明,不同层次的融合可以得到更准确的重建结果。我们的方法在准确性和视觉性能的整体改进上(对所有21个类别)都比几个最先进的算法获得了全面的提高。此外,在真实数据上的实验验证了我们的LGCNet的鲁棒性,在表示部分采用的更多的层有助于以较低的速度提高质量。