本文提出的概率退化模型 (PDM) 可以更好地将退化作用与图像内容解耦。与之前的退化模型相比,PDM 可以生成具有更大退化多样性的 HR-LR 训练样本,这可以生成更多种类的退化作用,并有助于提高 SR 模型在测试图像上的性能。

论文名称:Learning the Degradation Distribution for Blind Image Super-Resolution (CVPR 2022)

论文地址:

https://arxiv.org/pdf/2203.04962.pdf

盲超分任务介绍

作为基本的 low-level 视觉问题,单图像超分辨率 (SISR) 越来越受到人们的关注。SISR 的目标是从其低分辨率观测中重建高分辨率图像。目前已经提出了基于深度学习的方法的多种网络架构和超分网络的训练策略来改善 SISR 的性能。顾名思义,SISR 任务需要两张图片,一张高分辨率的 HR 图和一张低分辨率的 LR 图。超分模型的目的是根据后者生成前者,而退化模型的目的是根据前者生成后者。经典超分任务 SISR 认为:低分辨率的 LR 图是由高分辨率的 HR 图经过某种退化作用得到的,这种退化核预设为一个双三次下采样的模糊核 (downsampling blur kernel)。 也就是说,这个下采样的模糊核是预先定义好的。但是,在实际应用中,这种退化作用十分复杂,不但表达式未知,而且难以简单建模。双三次下采样的训练样本和真实图像之间存在一个域差。以双三次下采样为模糊核训练得到的网络在实际应用时,这种域差距将导致比较糟糕的性能。这种退化核未知的超分任务我们称之为盲超分任务 (Blind Super Resolution)

PDM~~_建模

 

PDM~~_数据集_02

为什么要学习图像盲超分的退化分布

在盲超分辨率超详细解读 (一):模糊核迭代校正方法 IKC 中,我们介绍了一种模糊核迭代校正的盲超分方法 IKC。IKC 发现只有当我们预设的模糊核与图片真实的模糊核相差不大的时候,超分的结果才显得自然,没有伪影和模糊。因此,IKC 提出了一种退化核的迭代校正方法。它的每次迭代都可以分成2步:


PDM~~_数据集_03

但是,IKC 和 DAN 两个方法都预设退化完全取决于图像的内容,所以都是通过一个判别模型 (IKC 的 Predictor 或者 DAN 的 Estimator) 借助图片内容来估计模糊核 (退化作用)。但是真实世界图片的退化作用随机且与图片的内容无关。这些判别模型无法建模不确定的退化作用,以及与图片的内容无关的退化作用,限制了超分模型的性能。

所以,一种更好的解决方案是:我们不通过模型来得到退化作用,而是通过概率模型来建模退化作用。因此,本文作者提出了概率退化模型 (Probabilistic Degradation Model,PDM),可以学习盲图像超分辨率的退化分布。

具体而言,作者把退化模型建模成:

PDM~~_数据集_04

这样一来,PDM 就可以建模退化作用中的随机变量,并把退化作用与图片的内容进行解耦。学习好了 PDM 之后,PDM 可能更容易涵盖所有测试图像的各种退化,并防止 SR 模型过度拟合特定图像。PDM 可以作为一个数据生成器,并可以很容易地与现有的 SR 模型集成,以帮助它们提高应用程序的性能。

模糊分布建模

上式2中的退化过程包含线性的2步:

 

PDM~~_数据_05

PDM~~_建模_06

 

噪声分布建模

PDM~~_数据集_07

在 CMOS 图像传感器中,以 OV5640 为例,其感光阵列如下图1所示:

可以看到,感光阵列由红、绿、蓝三种感光点组成,B只识别蓝色光,R只识别红色光,Gb只识别绿色光,假如将这种每个感光像素点转换成数字信号后直接输出,就得到了 RAW 格式的图像数据。

而 RGB 是 RAW 格式数据经过一系列处理后得到的图像格式,当然,使用 CMOS 图像传感器话,传感器内部集成了处理电路,只需要配置寄存器就可以选择输出 RAW 格式还是 RGB 格式数据。

人眼能感知的色彩其实是红色、绿色、蓝色三种原色的各种组合,红绿蓝三种颜色的按照不同比例组合最终会呈现出不同的颜色。这种以三原色组合的图像格式是 RGB 格式,是目前应用最广的图像格式。RGB 有很多种格式,常用的有 RGB565,一共用 16bit 就可以表示三种分量;还有 RGB888,这一种格式需要 24bit 的数据来表示,正因为需要的 bit 数多,所以 RGB888 能表示的颜色比 RGB565 要多很多。如果对颜色精细度要求不是很高可以使用 RGB565,在很多计算过程中需要使用 RGB888。

PDM~~_建模_08

图1:CMOS 图像传感器 OV5640 的感光阵列

PDM~~_数据_09

概率退化模型

上面两节介绍的模糊模块和噪声模块可以构造概率退化模型,用来生成训练所需的 HR-LR 图像对。

PDM~~_人工智能_10

PDM 的优势是:

PDM~~_数据_11

利用概率退化模型构建盲超分框架

PDM 的框架如下图2所示,它可以和 SR 模型一起训练, 这样,PDM 就可以与任何 SR 模型集成,形成 Blind SR 的统一框架,称为 PDM-SR (或者 PDM-SRGAN,如果在 SR 模型的训练中也采用了对抗性损失和 perceptual loss)。

PDM~~_建模_12

PDM 训练过程

实验数据集: NTIRE2017 track2,NTIRE2018 track2 和 track4,NTIRE2020 track1 和 track2。

前三个数据集分别提供了用于训练的 800,800 和 3200对 HR-LR 图像和用于验证的 100 对 HR-LR 图像。因此,对于每个数据集,作者只使用前半部分 HR 图像,后半部分 LR 图像进行训练。对于 NTIRE2020 的 track1 和 track2,由于他们提供的训练样本已经不成对,所以我们直接使用所有图像进行训练。

PDM~~_数据集_13

PDM~~_人工智能_14

训练时将 HR 图片 crop 成128×128大小,将 LR 图片 crop 成32×32大小,batch size 设置为32,所有模型训练 2 × 105 steps。优化器为 Adam,学习率 2e-4,每隔 5000 steps,减小一半。

由于参考的 SR 模型包括 PSNR-oriented (即 SR 模型由 L1/L2 损失监督) 和 perceptual-oriented (即 SR 模型由 perceptual loss 监督)的方法,作者还提供了我们的方法的两个版本,即 PDM-SR 和 PDM-SRGAN。如下图4所示, 就 LPIPS 而言,PDM-SRGAN 的性能远远优于其他方法。就 PSNR 和 SSIM 而言,PDM-SR 也取得了最佳的整体性能。特别是在 SSIM 上,PDM-SR 远远优于其他所有方法。

PDM~~_数据_15

下图5是 2017 Track2 的 0827x4 图片和 2018 Track2 的 0860x4m 图片的视觉比较结果。2017 Track2 的 0827x4 是一张非常模糊的图片,它的 SR 结果将可能具有不期望的伪像。可以看到,通过其他方法超分辨率的结果仍然模糊,而 PDM-SR 成功地消除了模糊。2018 Track2 的 0860x4m 受到复杂噪声的影响。如图所示,PDM-SR 的结果比其他方法更清晰,表明 PDM 也能更好地模拟随机噪声。

PDM~~_数据_16

作者进一步与 Real-ESRGAN 和 BSRGAN 等预训练模型进行了比较,这些方法都是 perceptual-oriented 的,因此作者这里使用 PDM-SRGAN 进行比较。超分模型和其他基线方法一样,都是 RRDB。如下图6所示,PDM-SRGAN 在 2020 Track1 实现了最高的 SSIM 和 LPIPS,在 2020 Track2 实现了最好的 NIQE。下图7是 2020 Track2 的图片 0010 和 0097 的视觉比较结果。可以看出,Real-ESRGAN 和 BSRGAN 等的方法产生的 SR 结果更可能过于平滑,而这些细节在 PDM-SRGAN 中得到更好的保留。

PDM~~_建模_17

 下图8所示 2017 Track2 数据集合成的 LR 图和模糊核,可以看出它与高斯核有很大不同。学习到的模糊核是分散而非紧凑的。图9是 2018 Track4 数据集合成的 LR 图和模糊核,它呈现出对称的形态,且噪声是彩色的,与图片内容有关。

PDM~~_数据集_18

PDM~~_数据集_19