• 论文题目:Deep Image Prior
  • 代码链接:​​GitHub - DmitryUlyanov/deep-image-prior: Image restoration with neural networks but without learning.​​

背景介绍

研究人员让CNN去学习复制被破坏的图像,发现网络可以自行先学会如何重建图像。

DIP的重要特点是,网络由始至终仅仅使用了被破坏过的图像作为训练,并不存在所谓的监督学习的过程。

质量提高的任务可以细分成:JPEG压缩、超分辨率、涂抹、水印、降噪等。每一个任务都有很多的研究,这些研究都认为假设模型可以从大型真实图像数据集中学习到图像的先验知识。这个先验知识特别指“什么是正确的图像”

DIP认为在损坏的非正常图像上训练同样可以学习到图像的这种【先验】。

主要思路

DIP认为,图像的统计学信息是被卷积的图像产生而不是被网络学习得到的。为了证实这一点,作者使用没有被训练的卷积生成网络来处理上述中的图像转换任务。

由于网络的权重是随机的,所以唯一的先验信息是来自网络结构本身。

对于图像修复任务,本文是这样做的:

  1. 用随机参数初始化一个深度卷积网络f;
  2. 令f的输入为固定的随机编码z;
  3. 令f的目标为:输入固定的随即编码z,输出低质量的图像。
  4. 选择合适的损失函数,对于降噪问题可以使用MSE,对于填充问题应该只关注不需要填充位置的MSE;
  5. 训练很久之后,模型最终会得到一个低质量图像的重建图像;
  6. 如果在训练一半被打断,那么就会得到一个修复之后的图像。

The parametrization offers high impedance to noise and low impedance to signal.

这句话是说,参数会对噪音有更高的阻力,对于信号有更少的阻力。因此才会造成,模型训练先学习信号,然后再学习噪音。

个人看法和网上评论

这个研究感觉存在很大的不严谨,当然我感觉不严谨的认知也是存在不严谨的。

归根到底,本质是:参数对图像信号容易学习、对图像噪音学习较为困难。这种差异本质在于,卷积网络在一般的训练过程中,对于高频特征难以重建的现象。模型在学习的时候肯定是从低频特征开始重建,上述的做法其实类似于一种对受损图像巧妙的去除高频噪音的的方法之一

这种方法对于大多数自然图像是没有问题的。但是对于特别的图像:某些医学图像等等。高频特征正是展示某种疾病病灶、展示某种组织纹理的特征。通过这种策略来进行质量提升等,则存在一定的风险。