Perceptual Losses for Real-Time Style Transferand Super-Resolution

  • 处理经典问题:图像转化问题(image transformation tasks),如快速风格迁移和超分辨率

灵感

前向传播的神经网络

  • 优点:速度快
  • 缺点:在像素级之间的误差中不能捕获输出和ground truth 之间的感知误差(perceptual differences)。

感知误差函数(perceptual loss function)

  • 近期,有很多工作生成的高质量图像是基于perceptual loss function来生成的,它不是依赖于像素之间的差别,而是基于高层图像特征之间的差别。
  • 上述缺点:训练速度很慢

结合两者

训练一个前向传播的神经网络,但是不是用pixel-level loss function,而是用perceptual loss function。

在训练过的过程中,感知误差衡量了图像之间的相似性,在测试图像的时候可以实时的进行转换

网络的训练

  • 网络由两个部分构成:image transformation network、loss network(用来定义loss function:Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_计算机视觉)
  • 图像转化网络是一个深度残差网络,将图像x转化为Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_ide_02
    Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_神经网络_03
  • 每个缺失函数计算一个标量Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_卷积_04来评估目标图像Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_卷积_05和生成图像Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_卷积_06之间的不同
  • 利用SGD来训练
    Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_神经网络_07
  • 为了解决per-pixel losses的缺点来更好的权衡图像语义和感知的关系,作者从通过优化来生成图像得到了启发:我们用到的网络已经学习到了这些我们要用缺失函数衡量的语义和感知的信息,所以我们定义一个已经训练好的缺失网络(loss network)Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_卷积_08(和已经训练好的图像转化网络一样的结构)
  • 缺失网络Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_神经网络_09 :通常定义一个特征重构缺失Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_ide_10和一个风格重构缺失Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_计算机视觉_11来衡量图像风格和内容之间的差异。
  • 对于风格转化问题:内容目标(content target Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_计算机视觉_12)是输入图像,风格目标(style target Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_卷积_13)是风格图像,我们需要是Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_ide_14,我们对每一个风格构建一个网络
  • 对于超分辨率问题:输入图像是低分辨率的图像Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习_计算机视觉_15,​​​content target​​是高分辨率的ground truth,并不用风格重构缺失。我们对每一个超分辨率因素构建一个网络

图像转换网络

  • 对于网络的上采样和下采样:我们不用任何的池化层,而是用stride或部分stride卷积
  • 网络构造:五个​​残差块​​​。除了输出层外,所有​​非残差的卷积块​​​后面都跟着​​BN​​​和非线性的​​ReLU​​​,输出层用一组​​tanh​​保证像素在[0,255]之间