一文说说这十多年来计算机玩摄影的历史

转载

言有三 2021-08-09 16:44:37

文章标签 滤镜数据集深度学习公众号数据库 文章分类 数据库

0 导论

我是一个AI行业的从业者，也是一个摄影爱好者。

在不断接触摄影技术的过程中，也不断地开始了解计算机算法，尤其是最新的深度学习技术在其中发挥的作用。

这篇文章的目的，是一个导论，面向的对象，也是大众。但是，本着稍求甚解的原则，我接下来会尽量照顾受众的同时，也说点技术。

摄影，说的粗浅一点，就说拍照吧，本身并不是一个技术很高的活，稍加训练，就能成为合格的摄影师。

当然，摄影本身也可以是一门艺术，好的作品往往会带入情绪等等。这是一个充满抽象与主观因素的领域。但我们不能因此陷在这个点上，不然下面就没法说了。

好的照片，让大众心情愉悦，欣赏点赞的照片，是有共性的，而计算机玩摄影，就是要解决这个问题，怎么学习到摄影师和大众的审美。

所以下面正式抛出关键词：photo aesthetics

1 一窥 aesthetics

总的来说，包含以下几个大方向；

所谓photo aesthetics，即计算机美学，这是计算机视觉的一个研究方向。它研究通过计算机来学会人的审美，狭义而简单的来说，就是判断一张图片是高质量的，还是低质量的，也就是好与坏，数学上这是一个2分类问题。很多早期的研究，以及相应的数据库CUHK【1】，CUHKPQ【2】的标注，都是为这个而服务。

从下图相关论文的数量趋势来看，现在是一个很活跃的领域。

从研究的现状来看，这也是一个远远没有饱和的区域。

相比人脸检测，美颜等，这是一个更抽象，更难的问题，还处于高速发展期。

一文说说这十多年来计算机玩摄影的历史_滤镜

从2006年左右，这个领域开始有了比较系统的研究，至今十年出头。所以，我接下来的介绍，也是近10年的一个概览。

上面说了，最简单也是最直观最早期的研究，就是分辨一张图是好，还是不好，是个2分类问题。

但是2分类问题有它的两个重大的局限性：

(1) 美学不是一个很严谨的数学问题，而是有很强的主观性，有很多的图，介于好图与非好图之间，难以2分类，分界面实在不清晰。这导致问题本身定义不明确，数据的标注也很困难。

(2) 如果只是一直做2分类问题研究，那很多的应用无法实现，直接点的如图像检索排名，间接点的如构图推荐，自适应滤镜。

演变到后来，先是升级到了回归问题，不仅分好坏，还要打个等级分。

什么意思呢？每一个样本的标注不再是2分类，不仅仅是包含好图与坏图的标注，而是有了一个量化的分数，比如AVA数据集【3】分数的标注从1到10。

研究就变成了如何回归出其标注的分数，最后给出每张图片的平均分数。

从应用层面上讲，主要包括了图像检索，自动构图，智能滤镜，甚至是直接创作。

以上，就是通常意义下的photo aesthetics包含的内容，核心思想就是学习分辨与创作好图。

2 photo aesthetics的主要研究方法

在说应用之前，还是先说说我们的研究手段。

从技术的突破来说，以深度学习为界限，可以从传统方法和深度学习方法来说。不过对于大多数问题和应用这两者最大的区别就是：前者是手动设计特征，后者是自动学习特征。

所以，这里不从传统方法和深度学习方法的维度来说，而是从研究问题的演变发展上说。

(1) 二分类问题。

1说了，最开始的时候，美学问题仅仅是被当做一个2分类问题。

早期的数据集CUHK【1】，CUHKPQ【2】，都只包含2分类的标注，也就是数据集中的图片被人为分为了质量高与低的图。

为了让数据集更可靠，自然是选择了一些区分度比较大，也就是不太容易产生歧义的图片。质量好的，通常是大家都认为好，质量低的以此类推。

如下图：

一文说说这十多年来计算机玩摄影的历史_数据集_02

(a)是质量高的，(b)是质量低的，没有疑问。

【2】可以认为是在【1】的基础上问题的延续，它弥补了【1】中的巨大不足，就是不再对所有图片一视同仁，而是不同类型的照片区分对待。

将所有的图总共分为了7类，包括landscape，plant，animal，night，human，static，architecture。

一文说说这十多年来计算机玩摄影的历史_滤镜_03

上图是一个示例，在研究过程中对不同的类别，开始采用不同的特征，考虑了图像的多样性(diversity)。

这是必须的，因为摄影中对待不同类型的照片，就是必须用不同的表现手法。

比如人像摄影中，尤其是近照，需要控制好光照，使用大光圈。而风景照中最需要的是好的构图与丰富的色彩表达。

2分类问题研究方法的进步，就是不断利用新的深度学习模型去提取特征，从alexnet【4】，到googlenet【5】到resnet【6】等的尝试，以后专题介绍。

(2) 回归问题。

由于2分类的局限性，自然而然的就演变成了回归问题。

这个时候也就出现了新的供我们使用的数据库，AVA【3】。

这是一个很大的数据库，包括250000张照片。每一张照片，都有一个评分从1~10分。同时还有语义级别和照片风格的标注，以后我们详说。

比较新的研究有【7】。相比于2分类问题，其实回归问题也没有太多新的东西，从数学上来说，无非就是输出维度变了，loss function变了。

不过在学习具体分数值的过程中，有些研究更进一步，预测了分数的分布。也就是不仅仅预测了图片的质量分数，还预测了它的分数概率图，比如【8】。

(3) 相对美学问题。

这个的出发点，是从人的主观上进行考虑。对于人来说，容易判断的是一张图片的相对好坏，而不是绝对分数。

同时又由于更可靠稳定的有打分标注的数据集的获取成本之高，催生了一些研究。就是在学习的过程中，没有一个绝对的分数来指导你。

【8】，【9】都是相关研究。

从训练上来看，这一般输入的训练是多个图像，可能是两个图像，也可能是多个图像，一起丢进网络去学习哪一个更好。

下面是一个结果展示，右边的比左边的质量高。相对美学，在图像检索和图像增强中是有很大的作用的。

一文说说这十多年来计算机玩摄影的历史_公众号_04

相对美学，是一个很值得研究的问题。

(4) 多任务学习问题

最简单粗暴的方法，就是不管是什么图像，都直接提特征，分类也好，回归也好。但是，显然这是不可能很好的解决问题的。

摄影美学是讲究因材施教的，不同类型的图像，审美标准完全不同。

那么，直接对所有的图片，采用同样的方法学习，是不通，所以就有方法，或利用图像style，semantic信息进行弱监督，或直接将style和score，semantic一起学习【10】。

至于怎么做，按住不表，下回再论。

3 Photo aesthetics应用

总的来说，包含以下几个大方向；

(1) 图像检索

我们在搜索引擎中搜索图片时，自然是希望能够尽量返回质量高的图，恨不得是高清原图。

但是目前的搜索引擎并不能做到。

因为，目前的都是基于tag做的检索，而不是图像本身的质量。

下面就在百度中搜了一个学校美照，出来的效果不怎么样。

学校没得到体现，人像很多也是普普通通的大头照，从摄影师的角度来看，真的很一般。

当然，你也可以去搜索更多的关键词，反正我在使用过程中常常不满意。Google图片质量比百度高，但是也还有很大的发展空间。

一文说说这十多年来计算机玩摄影的历史_滤镜_05

(2) 图像自动构图

自动裁剪这个，自打用上iphone起，它的照片管理工具就自带这个功能了，但是其他好用的app，我还没有发现。

这是个什么问题，专业点的说法，就是摄影构图。

它做的就是去除不必要的元素，合理安排画面中的元素分布。

每一个摄影师拍完照做后期时，第一步肯定就是做图像裁剪。

就算是最后没有裁剪，第一步也会看是不是需要裁剪！

为什么。因为你拍照的时候，很多时候来不及细细的去构图，

只有在后期认真想的时候，

才会去精细地调整。

据我体验，目前iphone照片管理软件的自动裁剪功能，主要还是对人像管用，下面给大家看个例子就知道了。

干脆把两张前后对比图拿过来大家瞧瞧，想想为什么要这么裁剪？

自动裁剪前

一文说说这十多年来计算机玩摄影的历史_滤镜_06

自动裁剪后

一文说说这十多年来计算机玩摄影的历史_数据集_07

可以看出，去除了更多的干扰，使画面更加平衡与和谐。

关于更多的构图摄影知识，请关注我另一个摄影公众号《言有三工作室》，里面有大量的教程可以学习体验。

至于构图的一些研究，可以参考【11】【12】，下回说细节。

(3) 自适应滤镜

现在就没有一个app能够自动推荐滤镜，后期很多的时候是很繁琐的。

对于菜鸟来说，只能去各种尝试已有的滤镜。

对于高手来说，需要很多时间来积累经验，也需要时间去选择更好的方案。

费时费力，还不一定能达到最好的效果，所以，我们其实都很期待出现一个app，

能够自动帮我们选择一个好的风格滤镜。

可惜，现在比较优秀的后期app，如snapseed，泼辣修图，也仅仅是能够对图像的对比度，亮度等自适应地做些调整。

关于现有的发展，更详细的介绍，在我的摄影公众号《言有三工作室》的文章

Apple和Google他们为小白们的修图大业做了什么？中有详细的说明，大家有兴趣可以自行前往阅读。

现在比较好的研究，也有一些。

像名字取得比较吓人的【13】，号称end-to-end可以把手机照片提升至单反画质，不过实际效果看来，主要是减少了阴影，总体上学习到了使图像变得更加通透。缺点是对比度经常放的太高，同时因为采用了GAN，放大了噪声。

这种事当然不能少了汤晓鸥他们团队，EnhanceGAN算是很新的应用了【14】，也成功地学习到了颜色，对比度等调整方法，不是end-to-end的方法，而是image-crop与enhancement交叉训练。

最大的优点是不需要成对的标注图像了（这是通过gan，和一批有着2分类标签的高质量图和低质量图来实现的）。

早期的方法【15】是需要成对的标注图像，成本太高，所以数据集不可能很大。以后不需要成对图像做训练的方法，必将成为主流。

(4) 风格化

这个，其实已经踏进艺术的创作，而不仅仅是摄影的范畴了。

行内人士可能还记得《image style transfer using convolutional neural networks》【16】这篇文章，后来催生了prisma，当时那个很火的滤镜。

整个的流程就如同下面这样，一张原图，一个风格，最后做融合。

一文说说这十多年来计算机玩摄影的历史_公众号_08

不过，没过多久，就退烧了。毕竟，那样玩图太“高级”，不是大众刚需，也就没见人玩了。

但是，并不是说他就不重要的了。

像pixtopix【17】这样的文章出来之后，风格化仍然有很大的市场。

比如黑白图像上色，比如图像风格转化（夏天冬天风格转化）【18】，甚至做得极端点，cycle-gan【19】这样的，不需要成对地标注，把斑马和马相互转换的有意思的研究。

未来，还大有可为！

4 Photo aesthetics焦点问题

难点

(1) 怎么利用数学的方法去建模内部的美学规则。

(2) 怎样自适应调整不同的图片之间的美学差异。

(3) 如何准确判断一张图采用的技术。

(4) 怎样获取一个标注详细的大数据库。

热点

(1) 网络结构设计相关问题，如多尺度多patch。

(2) 图片风格，语义信息的应用。

(3) 怎么自动获取数据的标注。

(4) 最新技术在其中的应用，GAN。

这一次，只是一个入门介绍，后续，敬请期待！

一文说说这十多年来计算机玩摄影的历史_数据集_09 一文说说这十多年来计算机玩摄影的历史_深度学习_10

一文说说这十多年来计算机玩摄影的历史_数据库_11

一文说说这十多年来计算机玩摄影的历史_滤镜_12

【1】Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. In CVPR, 2006. 1, 3, 6

【2】 W. Luo, X. Wang, and X. Tang. Content-based photo quality assessment. In ICCV, 2011. 1, 3, 6, 7

【3】Perronnin F, Marchesotti L, Murray N. AVA: A large-scale database for aesthetic visual analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2408-2415.

【4】Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):2021-2034.

【5】Jin X, Wu L, He Z, et al. Efficient Deep Aesthetic Image Classification using Connected Local and Global Features[J]. 2017:1-6.

【6】Murray N, Gordo A. A deep architecture for unified aesthetic prediction[J]. 2017.

【7】Malu G, Bapi R S, Indurkhya B. Learning Photography Aesthetics with Deep CNNs[J]. 2017.

【8】PKong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.

【9】Chandakkar P S, Gattupalli V, Li B. A Computational Approach to Relative Aesthetics[J]. 2017.

【10】 Kao Y, He R, Huang K. Deep Aesthetic Quality Assessment with Semantic Information[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, 26(3):1482.

【11】Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysis of Automatic Image Cropping Algorithms: A Dataset and Comparative Study[J]. 2017:226-234.

【12】Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.

【13】Ignatov A, Kobyshev N, Timofte R, et al. DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks[J]. 2017.

【14】Deng Y, Chen C L, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. 2017.

【15】Yan Z, Zhang H, Paris S, et al. Automatic Photo Adjustment Using Deep Neural Networks[J]. Acm Transactions on Graphics, 2016, 35(2):11.

【16】Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.

【17】Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[J]. 2016.

【18】Luan F, Paris S, Shechtman E, et al. Deep Photo Style Transfer[J]. 2017.

【19】Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[J]. 2017.