训练方法|世界知识产权日,快手展示音视频创新“绝活”

快手是一个用视频记录和分享生活的平台 , 优化视频的生产、编辑和消费体验 , 是快手研发工程师们的工作重心 。 其中 , 特效技术可以在普通拍照画面中增加各种新奇有趣的元素 , 衍生出各种奇思异想的新玩法;而音视频技术则帮助用户更加方便、舒适地看到各类繁复玩法的视频 , 实现短视频、直播、连麦、K 歌等多场景下的音频自然、真实、清晰 。
随着 4 月 26 日世界知识产权日的到来 , 快手向外界展示了快手近年来在视频生产、编辑、消费体验方面蕴藏的丰富科技创新"绝活" 。
特效,让拍摄更好玩儿
以往的酷炫特效技术由于计算量大 , 只能借助算力庞大的 PPCC 端和服务端进行创作 。 随着移动时代的来临 , 迫切需要将这种能力转移到移动端 , 并与视频拍摄巧妙结合起来 , 让用户随时随地感受到拍摄的乐趣 , 创作出个性化的作品 。 快手通过自研 AI 推理引擎、模型压缩算法 , 在不降低特效体验的前提下 , 将计算量大幅压缩 , 普通手机即能满足要求 , 因此诞生了快手 APP 上成百上千的魔法表情 。
隐身魔表
2020 年 , 在快手和江苏卫视联手打造的"一千零一夜"晚会上 , 迪丽热巴当场表演了一个隐身绝技 , 惊艳全场 。 不需要任何道具的支持 , 只需要应用快手最新开发的魔法表情就能轻松实现 。 这是结合单图图像修复和帧间图像对齐技术的视频修复算法 , 在短视频行业中的首次应用 , 快手在这方面走在了行业的前头 。 如此好玩的特效迅速获得了用户的喜爱 , 上线几天时间 , 快手用户就玩得飞起 , 迅速贡献了近 80 万个相关作品 。

训练方法|世界知识产权日,快手展示音视频创新“绝活”
文章图片

视频修复涉及到多帧计算 , 其深度学习模型普遍计算量较大 , 很难在移动端运行 。 快手的工程师们将算法整体分成了两个阶段:首帧使用移动端脑补模型实现对人像区域的背景填充 , 后续帧使用帧间实时跟踪匹配投影 , 实现可见背景区域向人物遮挡区域的填充 。 其中对训练方法、训练数据和损失函数做了一系列优化 , 这一套技术组合拳后 , 不仅隐身功力一流 , 并且在各种机型上都能轻松实现 。
年龄渐变魔表
2020 年春节期间 , 快手以年龄渐变为主题 , 上线了一系列魔法表情 , 实现了图像人物从娃娃脸到老年等全过程的特效 , 这一特效可以让用户回忆年少的模样、展望变老后的模样 , 用科技手段增加了人间温度感 。

训练方法|世界知识产权日,快手展示音视频创新“绝活”
文章图片

该特效基于深度学习的生成式对抗网络(GAN) , 结合快手积累的大量数据集及定制化的模型压缩技术 , 才能达到实时在手机端实现的效果 。 利用快手自研的 YCNN 深度学习推理引擎和压缩算法 , 才使得这种复杂任务在手机端流畅运行 , 甚至能够惠及各种中低端机型 。
混合现实特效
快手研发落地了混合现实新特效 , 用户通过快手的 MR 混合现实系统可以实时体验虚实遮挡、体表运动、虚拟打光、物理碰撞等虚实交互特性 。 快手最近半年已上线了"新春灯牌"、"辞旧迎新"、"蹦迪滤镜"等多款 MR 魔表 , 是国内首家上线该技术的公司 , 极大的激发了用户创作的热情 , 提高了用户的视频创作体验 。 相关技术论文已被欧洲计算机视觉国际会议(ECCV) 2020 等收录 。

训练方法|世界知识产权日,快手展示音视频创新“绝活”
文章图片

从二维图像中恢复三维信息是实现这些功能的基础 , 其中自然场景的深度估计是一大难题 , 技术团队从模型、算法、训练方法和数据上全面改进 , 改善了深度估计的质量 , 实现了移动端实时单目深度估计 。 快手也利用这些技术创新 , 在产品侧推广落地了立体照片、景深虚化等新玩法 。
很多特效是在真实拍摄对象上增加了虚拟能力 , 呈现出亦真亦假的效果 , 其中自然、真实的特效是用户体验的关键 , 即让特效图像既像真人 , 又非真人 , 甚至产生让人信以为真的效果 。 这个看似简单的功能背后需要强大的算法支撑 , 快手克服训练数据、模型结构、算法逻辑等各方面困难 , 推出了一系列爆款特效 。
童话风格魔表
快手推出的童话魔表特效 , 可以让每个人轻松实现自己的王子梦、公主梦 , 把自己变成童话形象的神奇效果 , 引来杨幂、迪丽热巴、娄艺潇等明星纷纷晒出自己的公主变身效果 。

训练方法|世界知识产权日,快手展示音视频创新“绝活”
文章图片

其实真人变卡通图、日漫二次元图像早已不是新鲜事 , 但是童话风格与日漫风格存在很大差异 , 不仅要保留真人容貌特点 , 还要实现动画的 3D 人像风格 , 既要风格像 , 也要内容像 , 加上训练数据不足 , 进一步加大了这一技术的实现难度 。 针对以上这些难题 , 快手 Y-tech 团队的 AI 工程师采用了自研的 KStyleGAN 结构 , 在 3D 空间中表征人脸结构、进行风格映射 , 并采用神经网络渲染来精细控制结果图的质感 , 有效克服了常规基于 2D 表征的 StyleGAN 方法的缺陷 , 并在移动端上落地了实时特效 。
二次元风格魔表
【训练方法|世界知识产权日,快手展示音视频创新“绝活”】"我慕容魔表 , 对着大地 , 对着天空 , 对着云 , 对着风 , 对着快手园区发誓:我一定要圆你的主角梦!!"你还记得那些玛丽苏文吗 , 是否也幻想成为霸道总裁或玛丽苏女主?2020 年十一前夕 , 快手推出了一系列言情手绘魔表 , 上线后迅速火爆网络 。
快手工程师介绍 , 相比于此前的一些特效玩法 , "手绘"系列最大的不同 , 是需要兼顾真实感、美感以及卡通效果三方面的要求 。 也就是说 , 既要最大程度保留用户本人的五官和外形特征 , 还要具备手绘风格的美学和艺术效果 。 快手特效中心团队研发了一个基于 GAN(生成式对抗网络)的图像翻译和风格迁移学习训练框架 , 结合此前 CycleGAN、U-GAT-IT 等技术的主要优点 , 并根据实际需求进行了定制化的开发和优化 。
音视频创新 , 让交流更畅快
好玩儿的视频生产出来 , 怎么传送给观众观看?怎么提高视频消费环节的用户体验?这是快手音视频团队的核心关注 。 在刷视频的体验越来越好的背后 , 是音视频黑科技的不断迭代和落地应用 。 一方面 , 让视频的质量不断提高 , 让用户享受更清晰、更真实的显示效果;另一方面 , 要让看视频更加流畅 , 在不同环境下、不同硬件上都能流畅观看视频 , 避免视频卡顿、延迟等不好体验 , 做到真正的科技普惠 。
HDR 视频:让用户"身处其中"

训练方法|世界知识产权日,快手展示音视频创新“绝活”
文章图片

2021 年初 , 快手宣布全面支持多种高动态范围(HDR)格式视频的上传和消费 , 为用户带来全新的画质体验 。 HDR 技术让像素的动态范围、色域和位深三个维度全面得到改善 , 让视频画面中的每个像素具备了更高的表达能力 。 这一技术的出现 , 适应了用户对更高视频体验的要求 , 适应了信息技术的变革发展 。
相对于传统的 SDR 视频 , HDR 拥有更加出色的表现能力 , 可以让用户在屏幕上看到更接近事物真实状态的图像 。 随着支持 HDR 拍摄的机型越来越多 , HDR 会在用户中得到更广泛普及 。 快手的黑科技不仅在于实现 HDR 格式视频的上传和编辑 , 以及在支持 HDR 显示的手机上正确播放 , 还在于让 HDR 视频在非 HDR 手机上也能正确观看 , 画质也会根据算法进行调整和提升 , 尽量还原视频效果 。 因为各家视频拍摄软件采用的 HDR 格式都不统一 , 视频上传到服务器后 , 往往会出现适配麻烦 。 但在快手上 , 后端转码会把不统一的 HDR 转成统一的 HDR10 格式 , 把视频普惠分发到每台支持 HDR 的设备上 。
音频技术:让用户"声临其境"
快手上的声音场景比较复杂 , 有短视频、直播、聊天室、PK、KTV 等场景下的声音 , 也有涉及不同位置间的语音交互 , 语音在双向、多向传递过程中的质量保障非常重要 。 常见的声音延迟、噪音、响度不均、混响、回声等问题 , 都会明显影响用户的收听体验 。 快手在直播 RTC 语音技术、短视频智能音频技术和 K 歌音频技术方面取得一系列进展 , 保障了用户的收听体验 。

训练方法|世界知识产权日,快手展示音视频创新“绝活”
文章图片

在直播 RTC 语音方面开发了 AEC 回声消除技术 , 在多个产品上落地应用 , 包括:小快机器人 , 通过 AEC 消除音乐回声干扰 , 大幅提高唤醒率;直播伴侣 , 通过 AEC 消除外录的游戏音效 , 再内混游戏音效实现高音质直播;主站 K 歌打分 , 通过 AEC 消除 BGM 回声干扰 , 大幅提高打分准确度 。 此外 , 基于深度学习的 AI 语音降噪、多码率优化、丢包率自适应恢复策略、音频超分等技术提高了实时语音的准确性和清晰度 。
在短视频音频方面 , 平台应用的响度控制处理技术和标准 , 有利于规范平台音频响度和动态范围的平衡 , 避免响度战争 。 同时让短视频内容的声音响度体验更加一致 , 避免切换不同视频时 , 声音响度忽大忽小 。 在 K 歌音频方面 , 利用神经网络消除或减轻用户 K 歌过程中所产生的喷麦噪声 , 提升 K 歌作品的音质 , 解决普通用户没有专业设备的喷麦或风噪问题 。
多码率优化:让用户社交无碍
快手是个普惠的平台 , 其用户基数大 , 分布广 , 网络环境差异大 , 尤其在偏远山区 , 刷视频、看直播 , 卡顿是常有的事 。 快手的一项"多码率自适应"技术可以有效缓解以上难题 。
日前 , 快手凭借一项"多码率自适应"技术的专利——"媒体码率自适应方法、装置、计算机设备及存储介质"获得第六届北京市发明专利三等奖 。 该项专利首次提出短视频场景下的多码率架构及先进的多码率自适应算法 , 可以显著降低观看短视频时的播放卡顿率 , 有效改善因网络条件差导致的视频卡顿现象 。
为保障不同硬件设备和网络环境用户间的畅通交流 , 快手持续就"码率自适应技术"迭代更新 。 2020 年 6 月 , 快手正式对外发布基于流式的直播多码率自适应标准 LAS(Live Adaptive Streaming) , 用于提供低延迟、平滑、流畅的直播多码率体验 。 据悉 , 快手同时开源了 LAS 的端到端解决方案 , 包括服务端、客户端、业界领先的多码率自适应算法等 , 帮助业界实现零门槛接入和使用 LAS 。 在开发技术的同时 , 团队就码率自适应技术持续迭代更新 , 至今已申请相关专利 20 余件 。
快手持续为创新保驾护航
企业的发展离不开技术的创新推动 。
作为一家以人工智能为核心技术的科技企业 , 快手一直重视对研发投入及知识产权保护 , 先后被评为"国家知识产权优势企业""北京市知识产权示范单位""中关村知识产权领军企业" 。
走进快手公司 , 一面专利墙映入眼帘 。 据了解 , 快手持续在先进的短视频生产方法、推荐技术、音视频技术等领域进行专利布局 , 同时围绕专利、商标、著作权和域名建立全方位的、有前瞻性、有策略性的知识产权保护体系 , 为技术创新构建起坚固的护城河 。 经过多年努力 , 目前快手专利申请量达 4000 余件 。

训练方法|世界知识产权日,快手展示音视频创新“绝活”
文章图片

不仅是强化自身知识产权保护 , 快手也非常重视对平台用户或权利人的知识产权保护 。 通过便捷维权举报入口和设立官方维权邮箱等方式 , 建立知识产权维权机制 , 监控和打击各类专利、商标侵权行为 , 切实履行平台责任义务 , 净化内外部市场环境 。
在持续完善知识产权保护体系建设的同时 , 快手积极参与互联网行业的各类技术和知识产权交流探讨活动 , 参与中国人工智能产业发展联盟学术与知识产权工作组组织的《中国人工智能产业知识产权白皮书 2020》部分编写工作 , 携手共建知识产权保护环境 。
"未来 , 我们还将继续依托于技术和产品的不断推陈出新 , 帮助普通用户以更丰富的视角探索世界、发现美好 , 同时也会更加注重知识产权保护 , 用有温度的科技提升每个人独特的幸福感 。 "快手相关工作人员表示 。

    推荐阅读