合成|油管破万,我用几个小时做出了口型同步Deepfake

From: The Verge; 编译: Shelly
TikTok与特朗普的协议还在如火如荼地进行着 , 在抖音鼓励原创视频、变卖流量的同时 , 还有许多新的视频软件在成为后起之秀 。 随着人工智能的飞速发展 , 简简单单几行代码就能实现照片换脸 , Deepfake的视频制作也变得越来越简单 。 让我们来看看如何使用网上现成的技术来合成Deepfake视频吧~
在过去几年里 , 一直有科学家致力于开发新的方式、研发新的算法 , 让AI的语言、应答、思考和服务越来越拟人化 。
这方面显著的应用如一些的换脸的软件 , 人工智能几行代码就可以实现照片换脸 。
但是 , 如何将网上找到的随机代码变成真正的 Deepfake呢?

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

【合成|油管破万,我用几个小时做出了口型同步Deepfake】Deepfake的风靡 , 油管点击量平均过万
从詹姆斯·文森特的经验来讲 , 需要两个因素:时间和耐心 。
文森特撰写关于Deepfake的文章数年 , 所以当他看到口形同步算法的时候 , 他眼前一亮 , 知道他必须自己尝试一下 。
AI口形同步的基础原理简单到让人不敢相信 。 你只需要找一段视频 , 然后把你想要的音频放进去就好了 。 使用代码将这两件事混搭在一起 , 嘿 , 很简单 ,Deepfake完成了 。
最终结果是像这样 , 伊丽莎白女王唱着Queen乐队的视频:
或是一群动画人物唱着破嘴乐队Smash mouth的ALL STATS:
或者是特朗普模仿着爱尔兰经典:
爱尔兰设计师詹姆斯·凯勒赫(James Kelleher)别出心裁地制作了“女王唱女王”的口型同步视频 。 他在推特上写道 , 他用的是网上现成的技术来合成视频与音频的 。
几周前在全网公开发布的技术叫Wav2Lip , 最初是免费的 , 网络上还有合成演示方法供大家参考 。 但现在想要使用就得先注册了 。

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

Wav2Lip公开算法链接
https://arxiv.org/pdf/2008.10010.pdf

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

Wav2Lip公开demo
https://bhaasha.iiit.ac.in/lipsync/
该作品的作者之一K R Prajwal说这么做是为了劝阻恶意使用 , 虽然对于一个精通编程的严重犯罪者来说这些措施只是杯水车薪 。 侧面我们也可以看出 , 口型同步应用一旦成熟 , 正面和负面的可能都是无穷大的 。
Prajwal和他的同伴发现这个程序可能进军的领域非常多 , 好处也显而易见 , 比如制作动画配音和为电影选择全球语言 。
Prajwal直言把代码传到网上是希望这项技术能开花结果、更有成效 , 同时他强调使用他们软件的用户应该明确标明视频是合成的 。
与Wav2Lip算法的一场持久战
算法仍需进步以适应更多普通用户
在初次尝试中 , 文森特确定了视频主人公——苹果首席执行官蒂姆·库克 , 以及希望和库克口型同步的音轨吉姆·卡里 。
文森特使用Quicktime的屏幕录制功能下载了视频素材 , 并使用了名为Piezo的应用下载了音频 。
然后 , 得到了两个文件 , 并将它们插入站点并等待...等待....
最终 , 什么都没有发生 。
文森特之后尝试了降低视频分辨率、采用其他的样片 , 都没法合成音频和视频 。
AI口型同步技术的随机障碍对使用者是一个不小的挑战 。 一个小时后 , 文森特放弃了自我尝试并转向Kelleher专业人士求助 。 Kelleher建议他重命名文件并删除任何空格 , “出人意料”地 , 重命名和删除空格后 , 视频成功了 。
现在 , 一段蒂姆·库克(Tim Cook)的片段配上吉姆·凯瑞(Jim Carrey)用电脑测试《雷蒙·斯尼奇的不幸历险》A Series of Unfortunate Events的音轨生成了 。

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片


合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

库克和《雷蒙·斯尼奇的不幸历险》的反差萌
文森特事后评论:“这太可怕了 , 无论是在幽默感还是在视觉逼真度上 , 我的作品都粗制滥造 。 但无可否认的是 , 我还是非常有成就感!”

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

GoogleColab:文森特使用Wav2Lip算法进行多次“战斗”
用户的成就感带来软件忠诚度和潜在流量 。
文森特为了改善这些结果 , 想更直接地运行算法 。 为此 , 他转向了口型同步编程师的Github 。 编程师和他的团队在Github上传了底层代码 。

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

https://github.com/Rudrabha/Wav2Lip
虽然程序猿们已经把Github用得滚瓜烂熟了 , 但我们再用最精短的语言为萌新们介绍一下:GitHub是一个面向开源及私有软件项目的托管平台 , 因为只支持Git作为唯一的版本库格式进行托管 , 故名GitHub 。 其注册用户已经超过350 万 , 托管版本数量也是非常之多 , 其中不乏知名开源项目 Ruby on Rails、jQuery、python 等 。
文森特使用Google Colab来运行它 , Colab的编码与Google Docs的编码等效 , 可以用它在云端完成机器学习项目 。 编程师通过简单的代码罗列来完成所有工作 , 但对于文森特这样的非技术人员 , 依然困难重重 。
关于Google Colab , 小编也在这里多说两句 。 对于初学者来说 , Google Colab是一个利好软件 , 可以无偿使用服务器级别的GPU来做学习 。 但对于进阶的AI研究或中度使用 , 这个平台的意义有限 。
如果你看不懂以上 , 也没有关系......就把Google Colab想成练习Python的“工具人”吧 。
Wav2Lip算法亟需改进用户体验
话说回来 , 我们继续来看文森特使用AI口型同步软件的踩雷计:
“为什么我不能授权Colab访问我的Google云端硬盘?
大概是因为我登录了两个不同的Google帐户= =
为什么Colab项目无法在Drive文件夹中找到神经网络的权重?
因为我下载的是Wav2Lip模型 , 而不是Wav2Lip + GAN版本...
因为我在文件名中拼写了aduoi !”
这 ......累了 , 虽说这些问题AI口型同步教程可以一步一步解疑答惑 , 但是对于一个单纯想快速合成视频和音轨的小白来说 , 我们只是想做一个搞笑视频啊!
为什么要这么麻烦!!

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

文森特的解决方法包括观看YouTube教程 , 一些必须规避的问题 , 如输入和模型需要创建两个单独的文件夹 , 分别标记为Wav2Lip和Wav2lip 。
让人大跌眼镜、跌掉眼镜的禁区还包括Lip的L不能小写 。
“老实说 , 我可能会哭泣 , 部分原因是这让我显得无能 。 ”文森特谈到 , 看了几次视频并花了数小时进行故障排除后 , 他终于有了一个可行的模型 。
怎么说呢 , 把YouTube教程做精做细是各大产品运营屡试不爽的终极保险 。 其他的思路更值得提倡 , 提高普通冲浪用户的产品体验不能光靠教程 。
总之 , 这个新应用的怪癖不少 , 比如 , 若视频里的人脸是歪的 , 口型同步就会出bug 。
文森特在创建他的深层伪造:把伊隆·马斯克Elon Musk的视频与蒂姆·克里Tim Curry的“宇宙”征服《红色警报3》的演讲音频进行口型同步时 , 谈道:“我感觉我在打破现实与虚幻之间的界限 , 虽然我的贡献很小 , 我非常有成就感 。 ”
大家可以在下面自己查看文森特的视频结果:
尽管这些算法已经出来很多年了 , 并且任何想要尝试的人都可以花几个小时创作出一个口型同步的搞笑视频 。 最后文森特得出的结论 , 深层伪造是行之有效的 , 但还没有达到上手简单的程度 。
算法有缺陷 , BUT潜力无限
同样无可否认的是 , 大多数用户会因为繁琐的注意事项望而却步 , 如果算法不能精进 , 他们还是会选择传统的视频剪辑软件 。
另一方面 , 令人印象深刻的是这项技术的普及速度 。 这种特殊的口形同步算法Wav2Lip是由印度和英国大学附属的国际研究团队编写的 。 他们8月底在线共享了他们的工作 , 很快算法被Twitter和AI Newsletters相中(著名的Import AI对此还有报道) 。
编程师们公开了算法 , 上传了演示demo 。 在短短几周内 , 世界各地的人们开始打造他们独特的“ Deepfake” 。
在YouTube上搜索“ Wav2Lip” , 你将找到更多教程 , 演示和“ Deepfake” 。

合成|油管破万,我用几个小时做出了口型同步Deepfake
文章图片

    推荐阅读