不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网

转载

小张Python 2022-03-14 17:26:22

文章标签 光流插值人工智能 文章分类 代码人生

一段 AI 修复的视频，让我们体验了一把 100 年前的老北京。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_插值 img

小贩叫卖、马车过街，修复后的视频可以清楚地展现熙熙攘攘的市井生活,作揖问候的场景也清晰可见。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_光流_02 img

你能想象，这些生动展现百年前国民生活的彩色影像，是使用人工智能技术修复的吗？

近日，这段使用人工智能修复老北京影像的视频在 B 站和微博上火了，引起了极大的关注。仅在 B 站上，阿婆主「大谷的游戏创作小屋」上传的这个旧影像修复视频已经获得 61.9 万的播放量、4.9 万点赞。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_人工智能_03

网友们纷纷感叹「厉害」，视频「清晰连贯」，「让我们看到了 100 年前的 vlog」。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_人工智能_04

视频中，阿婆主使用人工智能技术，对民国初年的一段影像进行了上色、修复帧率和扩大分辨率的改动，从而彻底改变了这段 100 年前老旧影片，让我们能够更为细致地观看 100 年前人们的生活。

与旧影像对比之后，我们能够对修复效果有更为直观的感受。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_光流_05

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_人工智能_06

视频修复前后在色彩、清晰度方面都有了很大的提升，修复前灰蒙蒙，修复后色彩鲜艳。

那么从技术层面上看，究竟是如何做到这么惊艳的效果的呢？阿婆主表示，他也是参考了海外 YouTube 博主 Denis Shiryae 的影像修复教程。

影像修复三大步骤

今年年初，Denis 修复 1896 年经典电影的视频也在海外火了一把。

电影界最著名的短片之一是 1896 年的一部无声电影《L’Arrivée d’un train en gare de La Ciotat》，画面很简单，只有 50 秒，描述的是一列火车驶入车站的场景。Denis 正式对这个经典的短片进行了 AI 修复，效果非常不错。下图可以看出修复前后画面的强烈对比：

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_插值_07

链接：https://www.youtube.com/watch?v=3RYNThid23g

从 Denis 的网页介绍，我们可以看到整个修复过程主要针对三个核心点：4K 分辨率以及 60fps 的帧数，除此之外还增加了背景颜色和声音的效果。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_光流_08

DAIN 插帧技术

在增加 FPS 方面，Denis 表示他主要应用了由上海交大 Bao Wenbo 等人提出的 DAIN 插帧技术（参见论文《Depth-Aware Video Frame Interpolation》）。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_光流_09

项目地址：https://sites.google.com/view/wenbobao/dain

这项研究提出通过探索插帧中的 depth cue，来显式地检测遮挡。

研究者开发了一个深度感知的光流投影层来合成中间流（中间流倾向于对距离较近的对象进行采样），并学习层级特征作为语境信息。然后，该模型基于光流和局部插值 kernel 将输入帧、深度图和语境特征进行变形处理，最后合成输出帧。

DAIN 模型的架构如下图所示：

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_光流_10

DAIN 架构图。给出两个输入帧，DAIN 首先估计其光流和深度图，并使用深度感知光流投影层来生成中间流；然后采用自适应变形层（adaptive warping layer），基于光流和空间变化的插值 kernel 对输入帧、深度图和语境特征进行变形处理；最后，使用帧合成网络生成输出帧。

4K 分辨率

自从 1998 年第一台高清电视投入市场以来，“高清”一直是技术追逐的方向之一。简单罗列几个数字，老式标清电视的分辨率仅为 720x480，也就是说一次可显示的内容为 345,600 像素。高清电视的分辨率为 1920x1080，总像素为 2,073,600，是标清的 6 倍，而 4K 的 3840×2160 分辨率则需要 8294,400 像素。

简单而言，视频修复过程至少需要额外填充 600 万像素来适应 4K 高清分辨率，而这种 “插值” 过程正是 AI 技术的用武之地，所补充显示的内容皆是基于相邻周边像素所呈现的内容。“插值”过程本质上是一种猜谜游戏，如果让卷积神经网络这类 AI 技术去发号施令的话会有更优质的反馈效果。

在此展示中，Denis 通过 Gigapixel AI 软件将分辨率提升至 4K，该产品由 Topaz Labs 开发，目前已进入到成熟的商业阶段。研发之初是为了帮助摄影师在不丢失任何细节的情况下将照片质量提升 6 倍，将该技术产品化的过程中发现将其应用至视频是完全可行的。不过值得一提是，渲染几秒钟的视频可能需要几个小时的处理时间，感兴趣的朋友可以一试。

DeOldify 着色模型

而在着色上，相信社区的大部分读者都知道一个基于 GAN 的图像着色模型DeOldify。通过下面的对比图，我们可以看到该模型的效果。

不用穿越，也能体验百年前的老北京，这个AI修复视频火爆全网_光流_11