Semantic Foggy Scene Understanding with Synthetic Data

原创

女王de专属领地 2023-06-25 09:52:24 博主文章分类：目标检测 ©著作权

文章标签 数据集数据去噪 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者女王de专属领地的原创作品，请联系作者获取转载授权，否则将追究法律责任

摘要

Section 1 导言

Section 2 相关工作

1. 图像去雾去霾

2. 深度去噪和完成

3. 雾场景理解

4. 合成虚拟图像数据

5. 迁移学习

Section 3 真实室外场景的雾模拟

1. 雾的光学模型选择

2. 室外场景的深度去噪和完成

3. 高质量雾模拟的输入选择

Section 4 雾数据集

1. Foggy Cityscapes

2. Foggy Driving

Section 5 合成雾的监督学习

1. Semantic Segmentation

2. 连接雾化场景理解中的去雾预处理的客观和主观效用

3. Object Detection

Section 6 合成雾的半监督学习

Section 7 总结

摘要

这项工作解决了语义模糊场景理解（SFSU）的问题。虽然已经对图像去雾以及对晴朗天气图像进行语义场景理解进行了广泛的研究，但很少关注SFSU。由于收集和注释模糊图像的困难，我们选择在描绘晴朗天气室外场景的真实图像上生成合成雾，然后通过采用最先进的卷积神经网络（CNN）将这些部分合成数据用于SFSU。）。特别是，开发了一种完整的管道，用于使用不完整的深度信息将合成雾添加到真实的晴朗天气图像中。我们在Cityscapes数据集上应用雾合成，并生成具有20,550个图像的Foggy Cityscapes。 SFSU以两种方式解决：（1）具有典型的监督学习，以及（2）具有新型半监督学习，其结合（1）与从无声天气图像到其合成有雾对应物的无监督监督转移。此外，我们仔细研究了SFSU图像去雾的有效性。为了进行评估，我们展示了Foggy Driving，这是一个包含101个真实世界图像的数据集，描绘了模糊的驾驶场景，其中包含用于语义分割和物体检测的地面实况注释。大量实验表明：（1）使用我们的合成数据进行监督学习，显着提高了SFSU在Foggy Driving上的最先进CNN的性能; （2）我们的半监督学习策略进一步提高了绩效; （3）图像去雾使SFSU略微提升我们的学习策略。数据集，模型和代码可公开获取。

Section 1 导言

生成550个精心优化的高质量合成雾图像，其中直接从Cityscapes继承了精细的语义注释，另外还有20,000个合成模糊图像，没有精细注释。由此产生的“合成雾”图像用于调整两个语义分割模型（Yu和Koltun 2016 ; Lin等2017）和物体探测器（Girshick 2015））到雾的场景。

模型以两种方式进行训练：

（1）通过典型的监督学习方案，使用550个高质量注释模糊图像；

（2）通过新颖的半监督学习方法，增加用于的数据集（ 1）增加了2万张模糊的图像，并从这些图像的预测中得出这些图像的缺失监督，这些图像来自晴朗天气的对应物。出于评估目的，我们收集并注释一个新的数据集，Foggy Driving，其中有101张有雾的驾驶场景图像。

该论文的主要贡献是：

（1）一种自动且可扩展的管道，可在真实的晴朗天气图像上施加高质量的合成雾;

（2）两个新的数据集，一个是合成的，一个是真实的，以便于对SFSU中使用的模型进行培训和评估;

（3）为SFSU提供新的半监督学习方法;

（4）详细研究了SFSU图像去雾的效果以及人类对模糊场景的感知

Section 2 相关工作

1. 图像去雾去霾

雾会使观察物体的颜色变淡并降低其对比度。已经对图像去雾（去雾）进行了广泛的研究，以增加模糊场景的可见度从不同的角度解决了这个不适定的问题。例如，在对比度增强（Narasimhan和Nayar 2003; Tan 2008）中，基本原理是晴天图像的对比度比雾降低的图像具有更高的对比度。自然图像的深度和统计也被用作先验（Nishino等人2012; Fattal 2008; Berman等人2016; Fattal 2014）。另一项工作是基于暗通道先验（He et al。2011），经验验证的假设是晴天图像的像素很可能在三个颜色通道中的一些中具有低值。某些工作尤其侧重于增强模糊的道路场景（Tarel等人2012; Negru等人2015）。鉴于其在户外应用中的重要性，还开发了用于夜间的方法（Li等人，2015）。 Tarel和Hautière（2009）以及Wang等人已经开发了快速去雾方法。（2017）面向实时应用。最近的方法也依赖于可训练的架构（Tang et al.2014），这些架构已演变为端到端模型（Ren等人2016; Zhang等人2017; Ling等人2016）。有关除雾/除雾算法的全面概述，我们建议读者看看Xu等人（2016）和李等人。（2016）。所有这些方法都可以大大提高可见度.我们的工作是互补的，并侧重于雾的场景的语义理解。

2. 深度去噪和完成

从真实、与其对应的清晰图像合成模糊图需要精确的深度图。在以前的工作中，Levin等人的着色方法（2004）已被用于绘制室内NYU深度数据集的深度图（Silberman等人，2012）。这种修复的深度图已经用于最先进的除雾方法，例如Ren等（2016）以合成室内雾图像的形式生成训练数据。相比之下，我们的工作考虑了Cityscapes数据集中的真实室外城市场景（Cordts等人2016），其中包含比NYU Depth更复杂的深度配置。此外，城市景观中的可用深度信息不是由深度传感器提供的，而是由基于Hirschmüller（2008）的半全局匹配立体算法的应用产生的深度估计。这种深度估计通常包含大量严重的伪影和大孔（参见图1），这使得它不适合直接用于雾模拟。最近有几种处理高噪声和不完整深度图的方法，包括立体视觉修补（Wang et al.2008），patio-temporal hole filling时空孔填充（Camplani和Salgado 2012）以及layer depth denois- ing and completion 层深度对称和完成（Shen和Cheung 2013）。我们的方法建立在立体修复的框架之上（Wang et al.2008），它在超像素水平上执行深度完成，并为所涉及的超像素匹配优化引入了一种新颖的，理论上好的目标。

3. 雾场景理解

对户外场景的语义理解是辅助或自动驾驶等应用的关键推动因素。典型的例子包括道路和车道检测（Bar Hillel等人，2014），交通灯检测（Jensen等人，2016），汽车和行人检测（Geiger等人，2012），以及大多数相关语义类的道路场景的密集的像素级分割。（Brostow等人2008; Cordts等人2016）。虽然已经开发了深度识别网络（Yu和Koltun 2016; Lin等人2017; Zhao等人2017; Girshick 2015; Ren等人2015）和大规模数据集（Geiger等人2012） ; Cordts等，2016），但是，该类研究主要关注晴朗天气。关于雾检测还有大量工作（Bronte等人2009; Pavlic等人2012; Gallen等人2011; Spinneker等人2014）。将场景分为雾和无雾也得到了解决（Pavlic等，2013）。此外，在辅助和自动驾驶的背景下，对白天（Tarel等人2010; Miclea和Silea 2015;Hautière等人2006）和夜间（Gallen等人2015）的能见度估计进行了广泛的研究。。这些工作中最接近我们的是Tarel等人（2010），其中产生合成雾并且雾图像被分割成自由空间区域和垂直对象。我们的工作不同之处在于：
（1）我们的语义理解任务更复杂，有19个语义类通常涉及驾驶场景，其中8个作为不同的对象出现;
（2）我们利用现代深度CNN进行语义分割（Yu和Koltun 2016; Lin等2017）和物体检测（Girshick 2015），充分利用该领域的最新进展;
（3）我们基于真实场景和现实世界模糊场景的数据集编译和发布合成模糊图像的大规模数据集，其中包括密集像素级语义注释和用于对象检测的注释。

4. 合成虚拟图像数据

近年来计算机视觉的飞跃在很大程度上可归因于大型标记数据集的可用性（Everingham等人2010; Russakovsky等人2015; Cordts等人2016）。但是，为每个新问题获取和注释这样的数据集是不可行的。因此，使用合成数据进行学习正在引起关注。我们举一些值得注意的例子，Dosovitskiy等（2015）使用浮椅的渲染来训练密集的光流回归网络。Gupta等人（2016a）将文本强加到自然图像上以学习端到端文本检测系统。 Vázquez等（2014）用虚拟数据训练行人探测器。在Ros等人（2016）和Richter等（2016）作者利用视频游戏引擎渲染图像以及随后与实际数据结合使用的密集语义注释，以改善现实CNN架构在真实场景中的语义分割性能。更进一步，Johnson-Roberson等（2017）表明，对于车辆检测的任务，仅在大量合成图像上训练CNN模型可以胜过在诸如Cityscapes之类的大规模真实数据集上训练的相同模型。相比之下，我们的工作通过在晴朗的天气下为真实图像添加合成雾来处理真实模糊城市场景的语义分割和物体检测。因此，我们的方法仅基于部分合成数据。同样，Abu Alhaija等人（2017）基于真实的城市场景，增加了虚拟汽车。一个非常有趣的项目是“FOG”（Colomb等人，2008年）。它的团队开发了一个小型雾室的原型，能够产生稳定的能见度和同质雾，以测试驾驶员的反应。

5. 迁移学习

我们的工作与迁移学习的广泛领域的工作相似。 Levinkov和Fritz（2013）研究了跨越天气条件的模型适应以在语义上划分简单的道路场景。最近，基于领域对抗的方法被提出用于在像素级和特征级别上从模拟到真实环境中调整语义分割模型（Hoffman等人2017）。我们的工作从晴天数据产生合成雾，以缩小领域差距。结合我们的方法和上述迁移学习方法是未来一个有希望的方向。本文从晴朗天气到大雾天气的监督迁移受到stream of work on model distillation/imitation 模型蒸馏/模仿工作的启发（Hinton等2015; Gupta等2016b; Dai等2015）。我们的方法类似，通过使用配对数据样本作为桥梁，将知识从一个域（模型）转移到另一个域。为了模拟描绘具有晴朗天气的真实场景的输入图像上的雾，标准方法是将雾的效果建模为将清晰场景的辐射度映射到在相机传感器处观察到的辐射度的函数。关键的是，这种空间变量函数通常通过场景距摄像机的距离l来参数化，其等于光行进的路径的长度并且与场景深度密切相关。因此，这对清晰图像及其深度图形成了我们模糊图像合成的基础。在本节中，我们首先详细介绍了我们用于雾的光学模型，然后介绍了我们用于雾模拟的完整管道，重点是我们对输入深度的去噪和完成。最后，我们提出了一些选择合适图像的标准，以生成高质量的合成雾。

Section 3 真实室外场景的雾模拟

1. 雾的光学模型选择

在图像去雾文献中，已经使用各种光学模型来模拟雾度对场景外观的影响。例如，Zhang等人提出了为夜间雾霾去除定制的光学模型（2014年）和李等人（2015年），考虑到大多数夜间场景的空间变化照明。这种模型也可直接应用于雾的情况，因为在雾或雾的存在下形成图像的物理过程基本相似。对于我们合成有雾图像，我们考虑Koschmieder（1924）的标准光学模型，该模型广泛用于文献中（He et al.2011; Fattal 2008; Tang et al.2014; TarelandHautière2009; Ren 等人，2016）。

Semantic Foggy Scene Understanding with Synthetic Data_数据集

Semantic Foggy Scene Understanding with Synthetic Data_数据_02

参数β被称为衰减系数，它有效地控制了雾的厚度：较大的β值意味着较浓的雾。气象光学范围（MOR），也称为能见度，定义为相机的最大距离，其中t（x）≥0.05，这意味着如果（2）有效，则MOR = 2.996 /β。根据定义，雾将MOR降低至小于1 km（联邦气象手册第1号：地表天气观测和报告2005）。因此，均匀雾中的衰减系数是定义的
β≥2.996×10-3 m-1，（3）
其中下限对应最轻的雾配置。在我们的雾模拟中，用于β的值总是服从（3）。模型（1）为在晴朗天气下模拟室外场景的雾提供了强大的基础。即使它对均匀大气的假设很强，它也会产生合成雾图像，可以作为真实世界模糊图像的良好代理，只要它具有准确的传输图，这个假设可能不完全适用。（1）的直接扩展用于Tarel等人（2012）模拟合成场景中的异质雾。总之，使用（1）进行雾模拟的必要输入是原始清晰场景的彩色图像R，大气光L和在R的每个像素处定义的密集透射图t。因此我们的任务是双重的：

（1）估计t；
（2）从R估计L
第2步很简单：我们使用He等人提出的方法（2011）与Tang等人的改进（2014）。在下文中，我们将重点放在步骤1，用于室外场景的情况，其中噪声，不完整的深度估计用作输入。

2. 室外场景的深度去噪和完成

本文生成精确t所需要的输入：

清晰图像R:包含立体对图像的左声道图像
清晰图像R:包含立体对图像的右声道图像Q;
立体声对的两个摄像机的固有校准参数以及基线的长度，
与R相同分辨率的R的密集原始视差估计D
包括D的值所在的像素丢失的集合M

使用立体摄像机和标准立体匹配算法（Hirschmüller2008）可以轻松满足这些要求.

我们过程的主要步骤如下：

1.以米为单位计算原始深度图d，

我们使用输入视差D结合焦距和基线的值来获得d. 由M表示的D的缺失值在d中也缺失。

2.去噪和完成d以产生精确的深度图d'，以米为单位，

遵循基于分割的深度填充方法，该方法建立在Wang等人提出的立体修复方法的基础上（2008年）。更具体地，我们使用清晰图像R的超像素分割来引导超像素水平处的深度去噪和完成，假设每个单独的超像素大致对应于3D场景中的平面。
首先，我们在R和Q之间应用t图像一致性检查，使用输入视差D来建立立体对的两个图像之间的像素对应，类似于Wang等人工作（2008年）中的公式（12），考虑到深度，那些Q中相应像素的颜色偏差（测量为RGB颜色空间的差异）的幅度大于12/255的 R中的所有像素的颜色偏差（在RGB颜色空间中测量的差异）被认为是无效的，因此被添加到M。
之后我们采用SLIC将R分割成超像素，将超像素数量记为K^，相关范围了与尺度参数定义为m=10，在cityscapes深度去噪和完成中，K^=2048.最终的由SLIC输出的超像素个数记为K.基于它们包含的缺失或无效深度的像素的数量，这些超像素在深度信息方面被分类为可靠的和不可靠的。更正式地说，我们使用Wang等人（2008）的方程式的标准（2），其中指出超像素T是可靠的，当且仅当如此
card(T \ M) ≥ max{P, λ card(T )}, (4)
设定P = 20且λ= 0.6。
对于满足（4）的每个超像素，我们通过在其具有有效深度值的像素上运行RANSAC来拟合深度平面。我们使用自适应inlier阈值来解释不同超像素之间的深度值范围的差异。对于超像素T，将内部阈值设置为
......too long

3.从d'计算场景距离图l，以米为单位，
4.应用公式（2）获得初始传输图t^
5.用R作引导图采用t^的引导过滤（Heetal.2013）的指导计算最终传输图t。

3. 高质量雾模拟的输入选择

略...

Section 4 雾数据集

我们提供了两个不同的数据集，用于语境理解有雾的场景：Foggy Cityscapes和Foggy Driving。前者源自Cityscapes数据集（Cordts等人，2016），并构成了我们提出的雾模拟生成的合成模糊图像的集合，该模拟自动继承其真实，清晰对应物的语义注释。另一方面，Foggy Driving是一个由101个真实世界模糊的道路场景组成的集合，带有语义分割和物体检测的注释，用作雾天气领域的基准。

1. Foggy Cityscapes

我们应用Sect 3中提供的Cityscapes数据集中完整的图像集雾模拟过程。更具体地说，我们首先从数据集的较大的，粗略注释的部分获得20,000个合成雾图像，并保留所有这些图像，而不应用Sect3.3中的细化标准。通过这种方式，我们可以交换合成图像的高视觉质量，从而实现合成数据集的大规模和可变性。我们没有利用这些图像的原始粗略注释进行语义分割;相反，我们使用最先进的语义分割模型在原始的，清晰的图像上生成标签，并使用它们将知识从晴朗的天气转移到有雾的天气，这将在Sect 6讨论，我们将这套Foggy Cityscapes命名为Foggy Cityscapes-coarse.。
另外，我们结合Sect3.3的两个标准来过滤Cityscapes的精细注释部分，这些Cityscapes最初包含2975个训练和500个验证图像，并获得550个图像的精确集合，498个来自训练集，52个来自验证集，满足两个标准。在这个refined set上运行我们的雾模拟为我们提供了moderate-scale的高质量合成雾图像集合。此集合自动继承了语义分段的原始精细注释，以及我们通过利用Cityscapes为8类人员，骑手，汽车，卡车，公共汽车，火车，摩托车和自行车提供的实例级语义注释生成的对象检测的边界框注释。我们称这个集合Foggy Cityscapes-refined。
由于MOR在不同雾的情况下可以在实际中发生显着变化，因此我们生成五种不同版本的Foggy Cityscapes，每种版本的特征在于（2）中恒定的模拟衰减系数β，因此具有恒定的MOR。特别地，我们使用β∈{0.005,0.01,0.02,0.03,0.06}，其分别对应于600,300,150,100和50m的MOR。

2. Foggy Driving

Foggy Driving由101个彩色图像组成，描绘了真实世界的雾状驾驶场景。我们在Zurich各个地区的雾气条件下使用手机摄像头捕获了其中的51张图像，其余50张图像都是从网上仔细收集的。我们注意到所有图像都经过预处理，因此它们的最大分辨率为960×1280像素。

我们为Foggy Driving的所有图像提供密集的像素级语义注释。特别是，我们使用城市景观的19个评估类：道路，人行道，建筑物，墙壁，围栏，杆，交通灯，交通标志，植被，地形，天空，人，骑手，汽车，卡车，公共汽车，火车，摩托车和自行车。不属于任何上述类或未标记的像素被分配空标签，并且它们被忽略用于语义分段评估。在注释时，我们根据Cityscapes注释协议分别标记人，骑手，汽车，卡车，公共汽车，火车，摩托车和自行车的个体实例，该协议直接为这8个类提供边界框注释。

总共有33个图像在上述过程中被精确注释（参见图13的最后三行），其余68个图像已被粗略注释（参见图13的前三行）。我们提供了图5中Foggy Driving的像素级语义注释的每类统计数据。此外，图6中显示了边界框注释中对象数量的统计数据。由于为此创建的粗略注释在Foggy Driving的一部分中，我们不会在对象检测方法的评估中使用这一部分，因为注释中未包含的困难对象可能通过良好的方法检测到并且被相对较差的方法遗漏，导致不正确的比较在精度方面。相反，在语义分割方法的评估中使用粗略注释的图像而没有这些问题，因为未标记像素的预测被简单地忽略，因此不影响测量的性能。

Foggy Driving可能比其他的用来进行于一场就理解的数据集更小，然而，它具有相对较高复杂性的具有挑战性的雾景。Foggy Driving总共包含500个自行车，大约300行人，并且和其他数据集就行了对比。

Semantic Foggy Scene Understanding with Synthetic Data_数据集_04

最后，我们确定了在Foggy Driving中频繁出现的19个带注释类的子集。这些“频繁”类具有更多数量的总注释像素，例如，道路，或更多数量的注释多边形或实例，例如与其他class相比，杆和人。它们是：道路，人行道，建筑物，杆，交通灯，交通标志，植被，天空，人和汽车。在随后的实验中。 5.1，我们偶尔使用这组频繁的语义类作为完整的语义类集的替代方法，用于平均每个类的分数，以便仅基于具有大量示例的类来进一步验证结果。

Section 5 合成雾的监督学习

更具体地说，我们主要实验的总体概述可以分为两个步骤：
1.通过仅使用Foggy Cityscapes-refine的合成图像，微调已经在原始Cityscapes数据集上训练的模型，以获得晴朗的天气。
2.评估Foggy Driving上的微调模型，并显示其性能与原始晴天模型相比有所改善。因此，除非另有说明，否则报告的结果与Foggy Driving有关。
换句话说，所有模型最终都是根据来自不同领域的数据进行评估，而不是它们所适用的数据，揭示了它们在以前看不见的模糊场景中的真正概括潜力。
在将输入图像输入语义分割模型进行训练和测试之前，我们还考虑将除雾作为可选的预处理步骤，并使用最先进的除雾方法检查这种去雾预处理对这种模型性能的影响。。通过对亚马逊机械土耳其人进行用户研究，除雾对语义分割性能的影响与人类对雾状场景理解的效用相关。

1. Semantic Segmentation

在合成无图像上微调的好处

雾模拟方法的比较

增加更远距离的回报

合成雾密度对实际性能的影响

除雾预处理对现实世界性能和讨论的影响

2. 连接雾化场景理解中的去雾预处理的客观和主观效用

通过Amazon Mechanical Turk进行的用户研究

主语答案的一致性

客观评价的排名和相关性

3. Object Detection

目标检测方法选取fast rcnn作为评估模型，原因是fast rcnn包含一个简单的训练管道，可直接对雾霾场景进行微调。因此，所以不用对前面目标检测的头部进行学习，我们使用多尺度组合群（Arbela ez等人2014年）作这项任务。

Semantic Foggy Scene Understanding with Synthetic Data_数据集_05

Semantic Foggy Scene Understanding with Synthetic Data_数据_06

Section 6 合成雾的半监督学习

Section 7 总结

在本文中，我们已经证明了基于真实图像的合成数据对于模糊场景的语义理解的好处。为此构建了两个模糊数据集：源自Cityscapes的部分合成Foggy Cityscapes数据集，以及真实世界Foggy Driving数据集，两者都具有19个类的密集像素级语义注释和8类的对象的边界框注释。我们已经证明，Foggy Cityscapes可以用来提升最先进的CNN模型的性能，用于在有雾的驾驶的具有挑战性的真实雾景中进行语义分割和物体检测，无论是在通常的监督环境中还是在新颖的半监督中。最后，我们通过详细的实验揭示了图像除雾在真正的室外雾状数据很困难，因此对SFSU有一定的帮助。在未来，我们希望将有雾场景的去雾和语义理解结合到一个统一的，端到端的学习管道中，这也可以利用我们引入的合成雾数据类型。