CVPR2018 阿里巴巴 Poster 论文：基于尺度空间变换的本征图像分解

转载

mb63816ca2ee95f 2023-04-28 08:31:48

CVPR2018 阿里巴巴 Poster 论文：基于尺度空间变换的本征图像分解

摘要我们引入了一种新的网络结构，用于将图像分解为其本征的反射图像和光照图像。我们把它
看作是一个图像到图像的转换问题，并且将输入和输出在尺度空间进行分解。通过将输出图像
（反射图像和光照图像）扩展到它们的拉普拉斯金字塔的各个成分，我们开发了一种多通道网络
结构，可以在每个通道内并行地学习到一个图像到图像转换函数，这个函数通过一个具有跳过连
接的卷积神经网络来表示。该网络结构是通用的和可扩展的，并且已经在本征图像分解问题上表
现出优异的性能。我们在两个基准数据集上评估了网络： MPI-Sintel 数据集和 MIT Intrinsic
Images 数据集。定量和定性结果都表明，我们的模型在比之前最先进的技术上有了明显的进步。1. 引言最近在表示学习中出现了一种新兴的趋势，即学习从图像中分解出各个成分来解释输入的各
个维度，例如照明，姿态和属性。然而，这个问题的初步形式之一，也就是分解图像为其本征的

CVPR-2018 阿里巴巴收录论文反射图像和光照图像，并没有引起足够的重视。本征图像分解问题的解决方案将能够进行材料编
辑，为深度估计提供线索，并为人类感知中长期存在的亮度恒定问题提供计算解释。然而，即使
目前已经有了激动人心的进展，这个问题仍然是我们需要继续努力的一项艰巨任务。
部分难题来自这个问题的不确定性。基于反射图像和光照图像的先验知识， Retinex 算法将分
解限制为梯度域中的阈值问题。这个模型有实用的效果，但不能处理复杂的材质或几何形状的锋
利边缘，或是在强点光源下投射的阴影。另一部分难题在于图像渲染过程的复杂性，这是一个通
过复杂的光学过程，将场景材质，几何和照明转换为二维图像的过程。本征图像分解的目的是试
图部分地实现这个过程的逆向过程。
我们的工作中，我们使用深度神经网络作为函数逼近器来学习映射关系，从而在图像到图像
的转换框架中处理本征图像分解过程。尽管已经提出了类似想法的模型（例如[37,32]），但我们
的模型探讨了网络输入和输出的尺度空间，并且通过将函数逼近管线水平扩展为并行集的子带转
换。
我们的工作的贡献主要在于，提出了一个用于本征图像分解的，基于尺度空间分解的生成网
络。我们通过使用可学习的上/下采样器来建立经典的高斯和拉普拉斯金字塔结构来实现这个目
的。我们最终的模型是一个复合网络，可以生成输出反射图像和光照图像的各个尺度下的分解;每
个尺度下的分解由一个子网络预测，这些子网络的结果组合在一起成为我们的最终结果。
我们还提出了一个新的损失函数，它可以有效地保留图像的细节，保证反射图像的平滑和和
光照的独特性质。我们进一步提出了一种数据增强的方式，以对抗标记数据的稀缺性 - 我们受到
Breeder 学习的启发，使用了一个预训练的网络给没有标签的图片生成标签，然后再对图片施加一
定的扰动来生成新的数据集，最后用生成的数据集来提升我们网络的性能。
我们已经在 MPI-Sintel 数据集和 MIT 本征图像数据集上评估了我们的模型。实验结果证明了
所提出的模型的有效性。我们的最终模型在各种评估指标上，与先前方法相比具有着显著的优
势。2. 相关工作（略）
3. 我们的方法让我们首先考虑将输入图像 I 转换为输出图像 A，作为一个复杂的，高度非线性的和像素级的
非局部映射函数 I→f（ I）。已经很好地证明，深卷积神经网络是用于各种映射关系（从图像分类
到图像到语言翻译）的通用和实用的参数化和优化框架。现在，让我们考虑如何使网络体系结构
适应图像到图像转换问题，其中输入和输出都是具有自然细节层次（ LOD）金字塔结构的图像，并
且映射函数将输入链接到输出可能也会根据金字塔层次结构进行多通道分解。在下一节（ 3.1）

CVPR-2018 阿里巴巴收录论文中，我们将描述从 ResNet 体系结构开始的模型改革过程，该体系结构将该属性用于我们的最终多
通道分层网络体系结构。
我们将图像 I 的高斯金字塔写为[I0， I1， ...， IK]，其中 I0 = I， K 是层的总数。我们用
Lk(I)= Ik – u(k + 1)表示第 k 个拉普拉斯金字塔层，其中 u 是上采样算子。根据定义，图像的
拉普拉斯金字塔展开为 I = [L0(I), L1(I), ..., Lk-1(I), IK ]，其中 L0(I)尺度和 IK 是高斯
金字塔中定义的最低尺度层。
3.1 网络结构的演化
首先，让我们使用两个块（ L 和 H）的简化网络来为低频带的映射建模映射 I→f（ I）： L，并
且 H 处理高频带中的映射以及任何残差这些网络由 L 省略。通过将 L 的输出与 H 的输出进行跳跃
连接和求和，该网络是 ResNet 架构的实例。
接下来，通过在输出上应用拉普拉斯金字塔展开式，我们可以将（ a）的损失分成两个分量：
L 的输出被限制以适合低频高斯分量，而 H 的输出分别适合拉普拉斯细节分量（图 2-b）。这个改
革后的网络等同于（ a）但具有更严格的限制。
一个关键的过渡是从（ b）到（ c） - 因为通过将 L 的输出和 H 的输出连接起来，可以将两个
堆叠的块重新连接成两个并联的分支，并且调整损失在 H 上相应地。所得到的网络结构（ c）等价
于（ b） - 它们表示拉普拉斯分解方程的两种等价形式，即通过将剩余分量从左手边移到右手边
并改变符号。（ c）中 L 的损失与正规化形式保持相同，我们的实验发现它是可选的。网络结构
（ d）是我们最终扩展模型的基础。
d，为此类似于拉普拉斯金字塔分解结构，我们为高频带引入多个子网络块 H0， H1， ......
HK-1 和低频率的一个子网络块 LK：网络输入块级联下采样，并且网络块的输出被上采样并从左到
右聚合以形成目标输出。在网络中学习下采样和上采样算子的所有参数（图 2 中的灰色阴影梯

CVPR-2018 阿里巴巴收录论文形）。所有的网络块共享相同的架构拓扑结构，我们称之为“残差块”，并在第 3.2 节详细描
述。
3.2 残差块
残余块是端到端卷积子网络，它们共享相同的拓扑结构，并将不同比例的输入变换为相应的
拉普拉斯金字塔组件。每个残差块由 6 个连续级联的 Conv（ 3x3） -ELU-Conv（ 3x3） -ELU 子结构
组成。由于我们预测输入图像的像素值，因此不使用完全连接的图层。我们采用在近期研究中流
行的跳跃连接方案，其中包括 Huang 等人的 DenseNet 架构的一些变体。具体来说，在每个子结构
中，最后一个 Conv 的输出按跳过连接进行每个元素的累加，结果是输入到最后一个 ELU 单元。中
间层有 32 个特征通道，输出是 3 通道图像或残留图像。将 1x1 Conv 添加到第一层和最后一层的
跳过连接路径中以进行尺寸扩展/缩减，以匹配剩余路径的输出。
我们使用指数线性单位（ ELU）作为我们的激活函数，而不是使用 ReLU 和批量归一化，因为
当 x < 0 时 ELU 可以生成负激活值，并且具有零均值激活，这两者都可以提高对噪声的鲁棒性，
当我们的网络变得更加深入时，训练的融合。此外，我们删除了 BN 层，因为它可以被 ELU 部分替
换， ELU 速度提高了 2 倍，并且内存使用效率更高。
3.3 损失函数
我们的损失函数如下：ℒ = 𝜆𝑑ℒ𝑑𝑎𝑡𝑎 + 𝜆𝑝ℒ𝑝𝑒𝑟𝑐𝑒𝑝 + 𝜆𝑡ℒ𝑡𝑣数据损失数据损失定义了预测图像与真实之间的像素级相似性。我们采用下面的联合双边
滤波（也称为交叉双边滤波[13,39]），并结合预测的反照率和阴影的乘积应该与输入相匹配的约
束，而不是使用像素方式的均方误差。

ℒ𝑑𝑎𝑡𝑎 = ∑ 𝒞∈{𝐴,𝑆}	\|\|𝒥𝑝 - 𝐶𝑝\|\|+ \|\| ∗ 𝑆

1 𝑁𝑝∑𝑝∈𝒞
2 2 𝐴

~
~- 𝐼||2 2𝒥𝑝 =

1 𝒲𝑝∑

𝑞∈𝒩(𝑝)𝐺

𝜎𝑠(||𝑝 - 𝑞||)𝐺𝜎𝑟(|𝒞𝑝 - 𝒞𝑞|)𝒞

~
𝑝𝒲𝑝= ∑

𝑞∈𝒩(𝑝)𝐺

𝜎𝑠(||𝑝 - 𝑞||)𝐺𝜎𝑟(|𝒞𝑝 - 𝒞𝑞|)

感知损失在转换过程中也应该保留高级语义结构，因此使用基于 CNN 特征的感知损失。我
们利用标准的 VGG-19 [44]网络从神经激活中提取语义信息。我们的感知损失定义如下：

ℒ 𝑓𝑒𝑎𝑡 = ∑ 𝒞∈{𝐴,𝑆}	\|\|Φ𝑙( ) - Φ𝑙(𝒞)\|\|

∑𝑙1

𝐹𝑙𝐻𝑙𝑊𝑙 𝒞

~
2 2

CVPR-2018 阿里巴巴收录论文变分损失最后，我们使用变分项对输出结果进行平滑处理。

ℒ𝑡𝑣 = ∑ 𝒞∈{𝐴,𝑆}	\|𝒞	𝑖,𝑗\| + \| 𝑖,𝑗+1 -

∑𝑖,𝑗
~
𝑖+𝑖,𝑗 - 𝒞

~𝒞

~
𝑖,𝑗|

其中 i 和 j 是图像行和列索引。
3.4 数据增强训练
在本节中，我们将描述一种数据增强策略，用于将未标记的图像合并到自我增强网络培训过
程中。我们从育种学习的工作中汲取灵感。这个想法是采用一个前向生成模型来为模型生成新的
训练对，通过扰动模型产生的参数来增强。这种机制在一定程度上承载了 Boostrap 的精神，并且
证明是相当有效的。例如， Li 等人最近将这种策略应用于外观建模网络中，通过根据模型对未标
记图像的预测反射率生成训练图像。
我们从一个初步的网络开始，用一个中等大小的数据集进行训练，该数据集具有地面真实反
射图像和光照图像。然后，我们将网络应用于一组新图像，并获得估计的反照率 A 和阴影 S。通过
简单的综合程序，我们可以从估计中生成新图像。请注意，根据我们的损失定义， A 和 S 不会严格
限制为与输入图像完全匹配，因此新合成的图像会偏离原始图像。
为了在增强数据集中引入进一步的扰动，我们另外应用自适应流形滤波器到 A 和 S，并使用过
滤结果合成新数据。 AMF 滤波算子抑制 A 和 S 中可能来自输入图像或由早熟网络产生的噪声或不
需要的细节，并用于调整新合成图像的多样性及其地面真实性。4. 实验在本节中，我们将描述 MPI-Sintel 数据集和 MIT Intrinsic Images 数据集上的模型评估。
4.1 数据集
MPI-Sintel 数据集由 18 个场景级计算机生成的图像序列组成，其中 17 个包含 50 个场景图
像，一个包含 40 个图像。我们的实验中使用其中的 ResynthSintel 版本，因为数据满足 A× S = I
的约束条件。两种类型的训练/测试分割（场景分割和图像分割）用于与之前的工作进行逐一比
较。场景分割将场景级别的数据集分割，其中一半场景用于训练，另一场景用于测试。图像分割
会随机挑选一半图像进行训练/测试，而不考虑其场景类别。原始版本的 MIT Intrinsic 数据集
具有 20 个对象在实验室环境下的不同图像，每个图像具有 11 种不同的照明条件。

CVPR-2018 阿里巴巴收录论文4.2 MPI 数据集实验结果
MPI-Sintel 数据集的评估结果如下图所示。同样，我们的模型比以前的方法产生了令人满意
的结果，特别是在网络不易“过度拟合”测试数据的场景分割测试中。
与以前的工作比较：我们首先将我们的模型与以前的一系列方法进行比较，其中包括两个简
单的基线 Constant Shading 和 Constant Albedo，一些传统方法以及最新的最新的基于神经网络
的模型结果显示我们的模型无论是有/无数据增强训练，在所有三个指标的评估下，都有着最好的
性能。
我们希望指出一个事实，所有方法对 Sintel 图像拆分的定量结果在某种程度上可能会产生误
导。这是因为 Sintel 数据集中相同场景类别的图像序列彼此非常相似，所以通过在图像级别分割

CVPR-2018 阿里巴巴收录论文所有数据（相同场景类型的图像可能出现在火车和测试集中），将全部训练集上的训练网络仍然
会在图像分割测试集上“表现良好”。但场景分割数据集不会有这个问题。我们的实验中一个有
趣的结果是，我们对前一结果的结果边缘在场景分割中比图像分割大。在表格中，尽管我们在图
像分割上保留了相当适中的边缘，但我们在场景分割上保留的边距在 si-MSE 中高达 25％，在
DSSIM 中高达 43％，这表明我们网络结构在更具有挑战性的数据集上依然表现良好。
从顺序到并行结构我们在第 3.1 节中描述的一个重要的网络架构改革是从顺序结构到多分支
并行结构。这种改革将一个深度堆叠网络平滑作为一组并行通道，因此缓解了梯度反向传播问
题，传播。该行（ Ours Sequential）通过图 2 中的顺序架构（ a）显示了结果。它显示该架构产
生了与以前的作品相媲美的性能，但对最终的模型而言并不理想，特别是在 DSSIM 度量中。
分层优化 vs 联合优化我们工作中的另一个架构优化是消除每个拉普拉斯金字塔等级的约束
（损失），并同时训练所有网络通道并使用单个损失约束。在后一种情况下，我们称优化方案为
联合优化，而前者为分级优化。补充材料中包括一些数值结果，解释层次优化的更多细节。在表
1-2 中，实验显示出在所有度量标准下联合优化方案有着 10％ -15％的改进。
对其他因素的自我比较我们也有一套关于其他因素的控制自我比较，包括金字塔结构，损失
函数，交替网络输入和数据增加。
金字塔结构实验（ Ours w / o Pyramid）使用单通道网络显示结果，即，我们使用单个残差
块直接从输入生成输出，而无须使用多通道分解结构。表 1 和表 2 中的结果表明，与对照设置相
比，我们的金字塔结构的对应模型提高了 30％以上。请注意，随着金字塔层数的增加，网络复杂
度呈线性增长直至一个常数因子。
损失函数实验（ Ours w / MSE loss）显示结果，用经典的 MSE 损失代替我们的损失函数。
事实证明， MSE 损失的量化误差不会由于尺度不变 MSE 度量中的大因素而降低。然而，补充材料的
定性结果确实揭示了 MSE 损失会产生模糊边缘的结果。基于结构的度量（ DSSIM）在 MSE 损失和我
们的损失之间也显示出更清晰的边际（从场景分割中的 10.23 到 8.86）。
CNN 特征作为输入我们进一步研究在这个任务中高斯金字塔图像分量作为我们网络输入的影
响，因为大多数现有的多尺度深度网络使用 CNN 网络产生的多尺度特征。实验（ Ours w /'FPN'
input）显示将 CNN 特征完全作为 FPN 网络后面的输入的结果。比较显示我们的最终模型具有轻微
但不明确的优势，这意味着 CNN 的高级特征仍然很好地保留了我们的像素到像素转换网络的大部
分必要语义信息。

CVPR-2018 阿里巴巴收录论文4.3 MIT 数据集实验结果
我们还在 MIT Intrinsic Images 数据集上评估了我们模型的性能，并与以前的方法进行了比
较。结果如下图所示。在这组实验中，我们在两个不同的设置中进行了数据增强： Ours + DA 和
Ours + DA +。不同之处在于我们为增强所做的数据。 Ours + DA 是一种普通的设置，其中通过一
组类似的对象类别名称从数据集中提取扩展数据。在 Ours + DA +中，我们在新的照明条件下。这
会创建一个非常类似于原始数据集的数据集，在实际情况下几乎不可能获取。换句话说，它为增
强数据的质量设定了一个上限。我们的结果表明，这两种增强设置都是有效的，而后者提供了我
们可以从我们为此任务引入的数据增强方案中获得的限制线索。

CVPR-2018 阿里巴巴收录论文5. 结论我们引入了受拉普拉斯金字塔启发的神经网络架构来进行本征图像分解。我们的神经网络将
这个问题建模为不同尺度下的图像到图像的转换。我们在 MPI Sintel 和 MIT 数据集上进行了实
验，实验结果表明我们的算法可以得到不错的数值结果和图片质量。对于未来的工作，我们期望
所提出的网络架构能够在其他图像到图像转换问题上进行测试和改进，例如像素标记或深度回
归。