1. 神经风格迁移之前的风格迁移方法
1) 基于笔划的渲染(Stroke-based rendering SBR)
基于笔划的渲染是指在数字画布上增加虚拟笔划以渲染具有特定样式的图片的方法。应用场景大多限定在油画、水彩、草图等,不够灵活。
2) 图像类比方法
图像类比旨在学习一对源图像和目标图像之间的映射,以监督学习的方式定位风格化图像。图像类比训练集包括成对的未校正的源图像和具有特定样式的相应的程式化图像。类比方法效果尚可,难点在于实际中很难获得成对的训练数据。
3) 图像滤波方法
考虑到图像风格迁移实际上是一个图像简化和抽象的过程,图像滤波方法采用一些组合的图像滤波器(如双边和高斯滤波器等)来渲染给定的图片。
4) 纹理合成方法
纹理是图像中重复存在的视觉图案。纹理合成是在源纹理图像中增加相似纹理的过程。这些基于纹理合成的算法仅利用低级图像特征,限制了它们的性能。
2. 神经风格迁移(NTS)分类
目前的NST方法分为两类:基于在线图像优化的慢速神经网络方法和基于在线模型优化的快速神经网络方法。
第一类通过逐步优化图像来实现风格迁移和图像重建。第二类优化了生成离线模型并使用单个前向传递产生风格化图像,这实际上利用了快速图像重建技术的思想。
1). 基于在线图像优化的慢速神经网络方法
在线图像优化的基本思想是分别从内容和风格图像中提取内容和风格特征,并将这两个特征重新组合成为目标图像,之后在线迭代地重建目标图像,依据是生成图像与内容和风格图像之间的差异。
对于一个内容图像Ic,风格图像Is,在线优化的目标是最小化以下损失函数:
其中Lc表示生成图像和内容图像之间的内容损失,Ls表示生成图像和风格图像之间的风格损失。两者各带一个超参数可以调整内容和风格之间的平衡。
内容损失函数定义为两者通过VGG网络提取的特征之间的欧式距离。
风格损失函数定义为两者通过VGG网络提取的特征之间的格拉姆矩阵的欧氏距离。
对于一个深层网络,浅层网络提取的是低维特征如颜色等,深层网络提取的是高维的语义内容信息。所以风格损失经常对比的是浅层网络特征,内容损失对比的是深层网络特征。使用VGG-19网路,一个推荐的选择是内容损失取1到5层的5个特征图,风格损失取第4层特征图。
另一点比较重要的是经常会添加一个整体差异loss,用来平滑生成图像,使结果更自然。
该方法应用的最大限制是效率问题,单张图片生成耗时少则几分钟,多则几个小时。
Tips:
每次训练迭代,更新的参数并非VGG19网络本身,而是随机初始化的输入x;
由于输入x是随机初始化的,最终得到的“合成画”会有差异;
每生成一幅“合成画”,都要重新训练一次,速度较慢,难以做到实时。
2). 基于在线模型优化的快速神经网络方法
该方法通过利用基于离线模型优化的快速图像重建来重建风格化结果来解决速度和计算成本问题,即,对于一个或多个风格图像,在一大组图像Ic上优化出一个前馈网络,通过该网络直接生成结果图像。
根据一个网络可以生成的风格多少,又分为单模型单个风格(PerStyle-Per-Model)、单模型多个风格(MultipleStyle-Per-Model)、单模型任意风格(Arbitrary-Style-Per-Model)。
单模型单风格方式可以产生比先前慢速NST方法快两个数量级的风格化图像,但是必须针对每个特定样式图像训练单独的生成网络,灵活性不够。实际上许多艺术画作具有相似的绘画笔画并且仅在它们的调色板上有所不同,所以,为每个风格训练单独的网络是多余的。
单模型多个风格通过进一步将多个样式合并到单个模型中来提高模型的灵活性。主要的处理方法有两个:
- 1.仅将网络中少量的参数绑定到单个具体的样式上,这样产生的模型适用性更强。
- 2.仍然只利用单个网络,但是输入变为风格和内容的组合。
第一种方法的缺点是随着学习风格数量的增加,模型的尺寸通常会随着变大。
第二种方法通过充分探索单个网络的能力,并将内容和风格结合到网络中进行风格识别来解决这一局限性。
单模型任意风格的方式旨在提取一个通用的风格转换网络,输入是任意内容图像和任意风格图像在VGG-19等预训练网络上的特征值,网络根据这两个特征的激活值,生成目标风格图像。
3. 风格迁移应用
1. 社交沟通
风格迁移应用在社交网站上深受欢迎,用户可以分享交流他们的梦幻图片。如比较火的Prisma APP。
2. 辅助创作工具
NST的另一个用途是使充当用户辅助的创建工具,特别是有助于画家更方便地创作特定风格的艺术作品,还有在创作计算机视觉图、时装设计等方面。
3. 娱乐应用
如应用于电影、动画和游戏的创作中。降低创作成本,节省制作时间。
4. 神经风格迁移研究难点
1. 三方面的权衡
速度、灵活性、转换质量三方面的权衡
2. 可解释的神经风格迁移
CNN的黑盒子特性使得过程不可控,很难实现更精细的控制。
3. 抗干扰性能
如果在图像上加一些干扰,网络的结果可能变得不可接受。