By 超神经
内容提要:「眼见为实」在 AI 技术面前已经失效了,换脸、对口型的技术层出不穷,效果越来越逼真。今天要介绍的 Wav2Lip 模型,只需一段原始视频与目标音频,就可将其合二为一。
关键词:唇形同步 语音信号
近几年,好莱坞动画屡屡拿下超过 10 亿美元的票房,《疯狂动物城》、《冰雪奇缘》等等,它们个个品质过硬,单拿口型这一点来说,就非常严谨,动画人物口型与真人口型几乎一致。
而实现这样的效果,其实需要经历非常复杂的过程,需要耗费巨大的人力物力。所以,很多动画制作方为了节省成本,只采用比较简单的口型示意。
现在,AI 正在努力减轻原画师的工作。来自印度海德拉巴大学和英国巴斯大学的团队,今年发表在 ACM MM2020 的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》,提出一个叫做 Wav2Lip 的 AI 模型,只需一段人物视频和一段目标语音,就能让其合二为一,配合得天衣无缝。
对口型大法 Wav2Lip,效果如此突出
要说对口型的技术,此前其实已经有很多,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。
但这个 Wav2Lip 在一众方法中,显示出了绝对优势。现有的其它方法,主要是基于静态图像,来输出与目标语音匹配的唇形同步视频,但对于动态的、在讲话的人物,唇形同步往往效果不佳。
而 Wav2Lip 则可以直接将动态的视频,进行唇形转换,输出与目标语音相匹配的视频结果。
此外,不仅是视频,还能给动图对口型,从此以后表情包又丰富了!
作者选取部分动图匹配口型
人工评估表明,与现有方法相比,Wav2Lip 生成的视频,在 90% 以上的时间中优于现有方法。
模型实际效果究竟如何?超神经进行了一番测试。以下视频展现了官方 demo 的运行效果,输入素材分别选取了官方提供的测试素材,以及超神经选取的中、英文测试素材。
输入的原视频中人物均未讲话
经过 AI 模型操作,实现了人物口型与输入语音同步
我们看到,官方 demo 的动画视频中,效果堪称完美。在超神经真人测试中,除了嘴唇稍有变形和抖动之外,整体唇形同步效果还是比较准确的。
教程已出,三分钟学会
看到这里,你是不是也跃跃欲试了呢?如果你已经有了一个大胆的想法,那么不如从现在就开始动手吧。
目前,该项目已在 GitHub 开源,作者提供了交互演示、Colab notebook 以及完整的训练代码,推断代码和预训练模型以及教程。
项目具体信息如下:
项目名称:Wav2Lip
GitHub 地址:
https://github.com/Rudrabha/Wav2Lip
项目运行环境:
- 语言:Python 3.6+
- 视频处理程序:ffmpeg
人脸检测预训练模型下载:
https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth
除了准备以上环境,还需要下载安装以下软件包:
- librosa==0.7.0
- numpy==1.17.1
- opencv-contrib-python>=4.2.0.34
- opencv-python==4.1.0.25
- tensorflow==1.12.0
- torch==1.1.0
- torchvision==0.3.0
- tqdm==4.45.0
- numba==0.48
不过,你也可以不用准备这些繁琐的程序,仅需准备一张图片/一段人物视频(CGI 人物亦可) + 一段音频(合成音频亦可),就可在国内的机器学习算力容器服务平台,直接一键运行。
传送门:https://openbayes.com/console/openbayes/containers/EiBlCZyh7k7
目前,该平台还能薅羊毛,每周都赠送 vGPU 的使用时长,人人都可轻松完成教程。
完成整个教程仅需要 5 分钟
该模型有 Wav2Lip,Wav2Lip+GAN,以及 Expert Discriminator 三种权重。其中,后两者的效果都明显优于单独使用 Wav2Lip 模型,本教程中使用的权重即 Wav2Lip+GAN。
该模型作者强调,其开放源代码的所有结果仅应用于研究/学术/个人目的,模型基于 LRS2(Lip Reading Sentences 2)数据集训练,因此严禁任何形式的商业用途。
为了避免技术被滥用,研究者还强烈建议,使用 Wav2Lip 的代码和模型创建的任何内容都必须标明是合成的。
背后关键技术:唇形同步辨别器
Wav2Lip 是如何听音频对口型这件事,做到了如此精确?
据介绍,实现突破的关键在于,研究者采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。
此外,该研究通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。
作者使用一个预先训练的鉴别器
及时准确地检测唇形同步错误
研究者表示,他们的 Wav2Lip 模型几乎是万能的,适用于任何人脸、任何语音、任何语言,对任意视频都能达到很高的准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸,并且导入合成语音也是可行的。
可以想象,这个神器可能又会造就一波鬼畜视频了……
论文地址:
https://arxiv.org/pdf/2008.10010.pdf
Demo 地址:
https://bhaasha.iiit.ac.in/lipsync/
—— 完 ——