全世界|吴恩达的2021回顾，这些大事件影响了AI这一年( 四 ) 人工智能|文本|大事件|图像|的

但可以肯定，未来几年会有更多万亿级俱乐部成员加入进来，而且这种趋势仍将持续。有传闻称， OpenAI 规划中的 GPT-3 继任者将包含更加恐怖的百万亿级参数。
AI 生成音频内容渐成“主流化”
音乐家和电影制作人们，已经习惯于使用 AI 支持型音频制作工具。
背景信息
专业媒体制作人们会使用神经网络生成新的声音并修改旧有声音。配音演员们自然对此大为不满。
重要标杆
生成模型能够从现有录音中学习特征，进而创造出令人信服的复制品。也有些制作人直接使用这项技术原创声音或模仿现有声音。

美国初创公司 Modulate 使用生成对抗网络为用户实时合成新的语音，使得游戏玩家和语聊用户能够建立起自己的虚拟角色；也有跨性别者用它调整自己的声音，借此获得与性别身份相一致的音色。
Sonantic 是一家专门从事声音合成的初创公司。演员 Val Kilmer 于 2015 年因咽喉手术而丧失了大部分发声能力，该公司则利用原有素材为他专门创造了一种音色。
电影制作人 Morgan Neville 聘用一家软件公司，在自己的纪录片《流浪者: 一部关于安东尼·波登的电影》中重现了已故旅游节目主持人波登的声音。但此举引起了波登遗孀的愤怒，她表示自己并未许可这种行为。

挺好，但是……
争议不止这一例。
配音演员们也担心这项技术会威胁到自己的生计。 2015 年年度游戏《巫师 3：狂猎》的粉丝们甚至在同人 Mod 版本中用这项技术重现了原配音演员们的声音。
新闻背后
最近出现的音频生成主流化倾向，完全是早期研究成果的自然延续。

OpenAI 的 Jukebox 就使用 120 万首歌曲进行训练，可利用自动编码器、转换器及解码器管道进行全实时录音生成，风格涵盖从猫王到艾米纳姆等多位歌手。
2019 年，某匿名 AI 开发者设计出一种技术，允许用户在短短 15 秒内利用文本行重现动画及视频游戏角色的声音。

发展现状
生成音频及生成视频不仅让媒体制作人多了一种修复并增强归档素材的能力，同时也让他们能够从零开始创造新的、真假难辨的素材。
但由此引发的道德与法律问题也在增加。如果配音演员被 AI 彻底取代，他们的损失该由谁承担？将已故者的声音在商业化作品中重现涉及哪些所有权纠纷？能不能利用 AI 为已故歌手推出新专辑？这么做对吗？
一种架构，驾驭一切
Transformer 架构正在快速拓展自己的影响范围。
背景信息
Transformers 架构最初专为自然语言处理所开发，但目前已经成为深度学习领域的“万金油” 。 2021 年，人们已经在用它发现药物、识别语音和图像等。