CVPR2019
Simone Bianco
University of Milano-Bicocca
Claudio Cusano
University of Pavia
作者在论文中提出了一种新的计算颜色恒常性的方法,在该方法中,通过训练深度卷积神经网络来检测彩色图像中转换为灰度后的消色差像素。该方法不需要任何关于场景中光源的信息,并且依赖于弱假设,即训练图像已经近似平衡,这一假设在网络上几乎所有可用的图像中都得到了实现。由于这一要求,作者将他们的方法定义为准无监督方法。经过训练后,不平衡的图像可以通过对输入的神经网络进行初步的灰度转换来处理。大量的实验结果表明,本文提出的方法能够在现有的技术状态下优于其他无监督方法,同时,足够灵活的监督微调,达到与最好的监督方法相媲美的性能。
Introduction & Related work
原有的计算颜色恒常性方法:
灰度世界、完美反射、均值白平衡、动态阈值、伽马校正、最大RGB、灰度边缘......
深度学习计算颜色恒常性难点:
将深度学习方法应用于颜色恒常性的主要困难在于缺乏大量的地面真相光源注释的数据集。对于有监督深度学习所需要的大型数据集的收集,这个过程显然是不切实际的。基于机器学习的颜色恒常性方法的另一个问题是,被学习的模型通常专门用于使用收集训练集的相同设备获取的图像。
解决办法:
基于深度卷积神经网络的计算颜色恒常性利用大量公开的图像数据集在准无监督设置下训练网络。光源的颜色不需要地面真相。只考虑输入图像的灰度版本。输出就与发光体的实际颜色无关。所述被检测像素的加权平均是最终用于校正输入彩色图像的光源的估计。
Method
提出的方法总结:
1.使用卷积神经网络进行光源估计
2.不需要依赖场景光源信息
3.准无监督,不需要ground truth
4.估计出光源颜色后,由von Kries模型通过估算值的相应分量来缩放像素的颜色分量。
5.该网络通过建模大量“几乎平衡”的图像来平衡颜色失真的图像。
网络结构:
输入:256 × 256的灰度图像
输出:256 × 256的权值映射
总体结构:采用一个U形的编码器-解码器与跳跃连接。
编码器:8个4×4卷积核和stride=2的卷积层
解码器:8个4×4卷积核和stride=2的反卷积层
注:除了第一层和最后一层,其他的层都采用batch normalization 和ReLU操作,在反卷积的前三层使用了Dropout=0.5。最后一层采用Sigmoid替换ReLUs产生分配给输入的像素的权重。整个网络包含5400万个学习参数。
训练后生成的模型应用到不平衡的原始图像中需要解决两个主要问题:
(i)这些图像将与用于培训的图像类型不同。
(ii)将提供用于评估的实际地面真相但不是用于训练。
问题解决方法:
(i)在将图像传送到网络之前,先将图像转换成灰度,使它们几乎不依赖于场景光源的颜色。
(ii)缺乏地面真实输入的问题是通过训练网络来解决的,可以被认为是光源估计的代理问题:无色像素的检测。
Experiment
数据集:Ilsvrc12;Places365;Flickr100K
第一行显示输入图像,圆形表示估计的光源颜色。圆内值为角差。
第二行报告网络分配给像素的权值(蓝色→0,黄色→1)。
第三行报告的是与估计光源相平衡的图像。
Conclusion
1.提出一种使用深度卷积神经网络计算颜色恒常性的方法(基于深度学习实现颜色恒常性)。
2.利用准无监督学习大型未注释的数据集从而估计不平衡的图像光源信息(解决无参考图像问题)。
3.可以对特定数据集进行有监督微调提升网络结构效率。