0 导论
我是一个AI行业的从业者,也是一个摄影爱好者。
在不断接触摄影技术的过程中,也不断地开始了解计算机算法,尤其是最新的深度学习技术在其中发挥的作用。
这篇文章的目的,是一个导论,面向的对象,也是大众。但是,本着稍求甚解的原则,我接下来会尽量照顾受众的同时,也说点技术。
摄影,说的粗浅一点,就说拍照吧,本身并不是一个技术很高的活,稍加训练,就能成为合格的摄影师。
当然,摄影本身也可以是一门艺术,好的作品往往会带入情绪等等。这是一个充满抽象与主观因素的领域。但我们不能因此陷在这个点上,不然下面就没法说了。
好的照片,让大众心情愉悦,欣赏点赞的照片,是有共性的,而计算机玩摄影,就是要解决这个问题,怎么学习到摄影师和大众的审美。
所以下面正式抛出关键词:photo aesthetics
1 一窥 aesthetics
总的来说,包含以下几个大方向;
所谓photo aesthetics,即计算机美学,这是计算机视觉的一个研究方向。它研究通过计算机来学会人的审美,狭义而简单的来说,就是判断一张图片是高质量的,还是低质量的,也就是好与坏,数学上这是一个2分类问题。很多早期的研究,以及相应的数据库CUHK【1】,CUHKPQ【2】的标注,都是为这个而服务。
从下图相关论文的数量趋势来看,现在是一个很活跃的领域。
从研究的现状来看,这也是一个远远没有饱和的区域。
相比人脸检测,美颜等,这是一个更抽象,更难的问题,还处于高速发展期。
从2006年左右,这个领域开始有了比较系统的研究,至今十年出头。所以,我接下来的介绍,也是近10年的一个概览。
上面说了,最简单也是最直观最早期的研究,就是分辨一张图是好,还是不好,是个2分类问题。
但是2分类问题有它的两个重大的局限性:
(1) 美学不是一个很严谨的数学问题,而是有很强的主观性,有很多的图,介于好图与非好图之间,难以2分类,分界面实在不清晰。这导致问题本身定义不明确,数据的标注也很困难。
(2) 如果只是一直做2分类问题研究,那很多的应用无法实现,直接点的如图像检索排名,间接点的如构图推荐,自适应滤镜。
演变到后来,先是升级到了回归问题,不仅分好坏,还要打个等级分。
什么意思呢?每一个样本的标注不再是2分类,不仅仅是包含好图与坏图的标注,而是有了一个量化的分数,比如AVA数据集【3】分数的标注从1到10。
研究就变成了如何回归出其标注的分数,最后给出每张图片的平均分数。
从应用层面上讲,主要包括了图像检索,自动构图,智能滤镜,甚至是直接创作。
以上,就是通常意义下的photo aesthetics包含的内容,核心思想就是学习分辨与创作好图。
2 photo aesthetics的主要研究方法
在说应用之前,还是先说说我们的研究手段。
从技术的突破来说,以深度学习为界限,可以从传统方法和深度学习方法来说。不过对于大多数问题和应用这两者最大的区别就是:前者是手动设计特征,后者是自动学习特征。
所以,这里不从传统方法和深度学习方法的维度来说,而是从研究问题的演变发展上说。
(1) 二分类问题。
1说了,最开始的时候,美学问题仅仅是被当做一个2分类问题。
早期的数据集CUHK【1】,CUHKPQ【2】,都只包含2分类的标注,也就是数据集中的图片被人为分为了质量高与低的图。
为了让数据集更可靠,自然是选择了一些区分度比较大,也就是不太容易产生歧义的图片。质量好的,通常是大家都认为好,质量低的以此类推。
如下图:
(a)是质量高的,(b)是质量低的,没有疑问。
【2】可以认为是在【1】的基础上问题的延续,它弥补了【1】中的巨大不足,就是不再对所有图片一视同仁,而是不同类型的照片区分对待。
将所有的图总共分为了7类,包括landscape,plant,animal,night,human,static,architecture。
上图是一个示例,在研究过程中对不同的类别,开始采用不同的特征,考虑了图像的多样性(diversity)。
这是必须的,因为摄影中对待不同类型的照片,就是必须用不同的表现手法。
比如人像摄影中,尤其是近照,需要控制好光照,使用大光圈。而风景照中最需要的是好的构图与丰富的色彩表达。
2分类问题研究方法的进步,就是不断利用新的深度学习模型去提取特征,从alexnet【4】,到googlenet【5】到resnet【6】等的尝试,以后专题介绍。
(2) 回归问题。
由于2分类的局限性,自然而然的就演变成了回归问题。
这个时候也就出现了新的供我们使用的数据库,AVA【3】。
这是一个很大的数据库,包括250000张照片。每一张照片,都有一个评分从1~10分。同时还有语义级别和照片风格的标注,以后我们详说。
比较新的研究有【7】。相比于2分类问题,其实回归问题也没有太多新的东西,从数学上来说,无非就是输出维度变了,loss function变了。
不过在学习具体分数值的过程中,有些研究更进一步,预测了分数的分布。也就是不仅仅预测了图片的质量分数,还预测了它的分数概率图,比如【8】。
(3) 相对美学问题。
这个的出发点,是从人的主观上进行考虑。对于人来说,容易判断的是一张图片的相对好坏,而不是绝对分数。
同时又由于更可靠稳定的有打分标注的数据集的获取成本之高,催生了一些研究。就是在学习的过程中,没有一个绝对的分数来指导你。
【8】,【9】都是相关研究。
从训练上来看,这一般输入的训练是多个图像,可能是两个图像,也可能是多个图像,一起丢进网络去学习哪一个更好。
下面是一个结果展示,右边的比左边的质量高。相对美学,在图像检索和图像增强中是有很大的作用的。
相对美学,是一个很值得研究的问题。
(4) 多任务学习问题
最简单粗暴的方法,就是不管是什么图像,都直接提特征,分类也好,回归也好。但是,显然这是不可能很好的解决问题的。
摄影美学是讲究因材施教的,不同类型的图像,审美标准完全不同。
那么,直接对所有的图片,采用同样的方法学习,是不通,所以就有方法,或利用图像style,semantic信息进行弱监督,或直接将style和score,semantic一起学习【10】。
至于怎么做,按住不表,下回再论。
3 Photo aesthetics应用
总的来说,包含以下几个大方向;
(1) 图像检索
我们在搜索引擎中搜索图片时,自然是希望能够尽量返回质量高的图,恨不得是高清原图。
但是目前的搜索引擎并不能做到。
因为,目前的都是基于tag做的检索,而不是图像本身的质量。
下面就在百度中搜了一个学校美照,出来的效果不怎么样。
学校没得到体现,人像很多也是普普通通的大头照,从摄影师的角度来看,真的很一般。
当然,你也可以去搜索更多的关键词,反正我在使用过程中常常不满意。Google图片质量比百度高,但是也还有很大的发展空间。
(2) 图像自动构图
自动裁剪这个,自打用上iphone起,它的照片管理工具就自带这个功能了,但是其他好用的app,我还没有发现。
这是个什么问题,专业点的说法,就是摄影构图。
它做的就是去除不必要的元素,合理安排画面中的元素分布。
每一个摄影师拍完照做后期时,第一步肯定就是做图像裁剪。
就算是最后没有裁剪,第一步也会看是不是需要裁剪!
为什么。因为你拍照的时候,很多时候来不及细细的去构图,
只有在后期认真想的时候,
才会去精细地调整。
据我体验,目前iphone照片管理软件的自动裁剪功能,主要还是对人像管用,下面给大家看个例子就知道了。
干脆把两张前后对比图拿过来大家瞧瞧,想想为什么要这么裁剪?
自动裁剪前
自动裁剪后
可以看出,去除了更多的干扰,使画面更加平衡与和谐。
关于更多的构图摄影知识,请关注我另一个摄影公众号《言有三工作室》,里面有大量的教程可以学习体验。
至于构图的一些研究,可以参考【11】【12】,下回说细节。
(3) 自适应滤镜
现在就没有一个app能够自动推荐滤镜,后期很多的时候是很繁琐的。
对于菜鸟来说,只能去各种尝试已有的滤镜。
对于高手来说,需要很多时间来积累经验,也需要时间去选择更好的方案。
费时费力,还不一定能达到最好的效果,所以,我们其实都很期待出现一个app,
能够自动帮我们选择一个好的风格滤镜。
可惜,现在比较优秀的后期app,如snapseed,泼辣修图,也仅仅是能够对图像的对比度,亮度等自适应地做些调整。
关于现有的发展,更详细的介绍,在我的摄影公众号《言有三工作室》的文章
Apple和Google他们为小白们的修图大业做了什么?中有详细的说明,大家有兴趣可以自行前往阅读。
现在比较好的研究,也有一些。
像名字取得比较吓人的【13】,号称end-to-end可以把手机照片提升至单反画质,不过实际效果看来,主要是减少了阴影,总体上学习到了使图像变得更加通透。缺点是对比度经常放的太高,同时因为采用了GAN,放大了噪声。
这种事当然不能少了汤晓鸥他们团队,EnhanceGAN算是很新的应用了【14】,也成功地学习到了颜色,对比度等调整方法,不是end-to-end的方法,而是image-crop与enhancement交叉训练。
最大的优点是不需要成对的标注图像了(这是通过gan,和一批有着2分类标签的高质量图和低质量图来实现的)。
早期的方法【15】是需要成对的标注图像,成本太高,所以数据集不可能很大。以后不需要成对图像做训练的方法,必将成为主流。
(4) 风格化
这个,其实已经踏进艺术的创作,而不仅仅是摄影的范畴了。
行内人士可能还记得《image style transfer using convolutional neural networks》【16】这篇文章,后来催生了prisma,当时那个很火的滤镜。
整个的流程就如同下面这样,一张原图,一个风格,最后做融合。
不过,没过多久,就退烧了。毕竟,那样玩图太“高级”,不是大众刚需,也就没见人玩了。
但是,并不是说他就不重要的了。
像pixtopix【17】这样的文章出来之后,风格化仍然有很大的市场。
比如黑白图像上色,比如图像风格转化(夏天冬天风格转化)【18】,甚至做得极端点,cycle-gan【19】这样的,不需要成对地标注,把斑马和马相互转换的有意思的研究。
未来,还大有可为!
4 Photo aesthetics焦点问题
难点
(1) 怎么利用数学的方法去建模内部的美学规则。
(2) 怎样自适应调整不同的图片之间的美学差异。
(3) 如何准确判断一张图采用的技术。
(4) 怎样获取一个标注详细的大数据库。
热点
(1) 网络结构设计相关问题,如多尺度多patch。
(2) 图片风格,语义信息的应用。
(3) 怎么自动获取数据的标注。
(4) 最新技术在其中的应用,GAN。
这一次,只是一个入门介绍,后续,敬请期待!
【1】Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. In CVPR, 2006. 1, 3, 6
【2】 W. Luo, X. Wang, and X. Tang. Content-based photo quality assessment. In ICCV, 2011. 1, 3, 6, 7
【3】Perronnin F, Marchesotti L, Murray N. AVA: A large-scale database for aesthetic visual analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2408-2415.
【4】Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):2021-2034.
【5】Jin X, Wu L, He Z, et al. Efficient Deep Aesthetic Image Classification using Connected Local and Global Features[J]. 2017:1-6.
【6】Murray N, Gordo A. A deep architecture for unified aesthetic prediction[J]. 2017.
【7】Malu G, Bapi R S, Indurkhya B. Learning Photography Aesthetics with Deep CNNs[J]. 2017.
【8】PKong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.
【9】Chandakkar P S, Gattupalli V, Li B. A Computational Approach to Relative Aesthetics[J]. 2017.
【10】 Kao Y, He R, Huang K. Deep Aesthetic Quality Assessment with Semantic Information[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, 26(3):1482.
【11】Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysis of Automatic Image Cropping Algorithms: A Dataset and Comparative Study[J]. 2017:226-234.
【12】Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.
【13】Ignatov A, Kobyshev N, Timofte R, et al. DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks[J]. 2017.
【14】Deng Y, Chen C L, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. 2017.
【15】Yan Z, Zhang H, Paris S, et al. Automatic Photo Adjustment Using Deep Neural Networks[J]. Acm Transactions on Graphics, 2016, 35(2):11.
【16】Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.
【17】Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[J]. 2016.
【18】Luan F, Paris S, Shechtman E, et al. Deep Photo Style Transfer[J]. 2017.
【19】Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[J]. 2017.