音视频|融云CTO任杰:强互动,RTC下一个“爆点”场景

前言:实时音视频 RTC(Real-Time Communication) , 是新冠疫情黑天鹅事件中快速普及并崛起的技术与行业 。 资本加码 , 爆款应用 , 让实时音视频的想象空间被放大 。 安全可靠的全球互联网通信云厂商融云CTO任杰近期接受了媒体采访 , 对于RTC技术关键点、创新的使用场景有哪些 , 未来RTC将引爆什么行业 , 开发者的机会又在哪里 , 阐述了自己的看法 。

音视频|融云CTO任杰:强互动,RTC下一个“爆点”场景
文章图片
融云CTO 任杰
【音视频|融云CTO任杰:强互动,RTC下一个“爆点”场景】RTC的新挑战
在RTC普及之前 , 高大上的视频会议和电视电话会议 , 需要用到专网和专有硬件 。 大概在2012年前后 , 随着3G、4G网络的建设和WiFi普及 , RTC技术开始进入互联网 。 不过 , 任杰提到 , 各种手机、PC等设备都开始进入了互联网的视频通信领域 , 设备变得不可控 。 另外 , 从专有网络变成了广域网和互联网以及无线网络、4G网络 , 网络也变得不可控 。
“PC不是为了通信这个场景进行的设计 , 所以在回声消除、降噪、视频采集编码层面都有不同的处理 , 有很多设备适配、算法的重新适配 , 大量细碎的功能要去做;手机在无线网络下 , 丢包和带宽会有瞬时变化 , 这些是新场景下面临的新问题 , 我们要重新去解决它 , 用新算法、新模式去处理它 。 ”任杰说 。
2021年初 , W3C(万维网联盟)和IETF(互联网工程任务组)宣布WebRTC成为官方标准 , 任杰认为WebRTC被标准化组织接纳认可 , 但并不代表着RTC的技术已经成熟 。 “一个行业如果在持续爆发和持续高发展阶段 , 我们很难说它的技术是成熟的 , 因为场景越来越多 , 运用的设备技术也越来越多 。 音视频编码在不断变化 , 新场景下的网络对抗、机器学习、降噪技术 , 都在持续井喷的发展过程中 。 ”任杰如是说 。
新的技术、场景 , 也带来了新的挑战 。 任杰总结了四个融云在现阶段面临的RTC挑战:
1、高清视频:随着WiFi和5G等基础设施的升级 , 用户对音视频质量要求更高 , 融云会跟随新的编码标准去提供高质量、高码率、高帧率的视频体验 。
2、语音还原度:传统算法已经不能满足现有高质量、高还原度的使用体验与要求 , RTC将与AI结合 , 研发降噪、提升智能分辨率、提高整体视觉清晰度的技术 , 这是融云RTC技术研发的一大方向 。
3、大量智能设备适配:除了安卓 , 将有大量实时操作系统RTOS设备进入RTC领域 , 而这些设备有些配置较低 , 标准参差不齐 , 都需要RTC厂商做好适配 , 保证交互体验 。
4、全球节点部署 , 服务出海开发者:互联网市场的人口红利在逐渐消失 , 出海开发者的音视频业务需求量很大 , 融云在做全球节点的部署 , 以及更好的调度算法 , 确保全球任何一个地方、任何一种方式接入 , 都有优越的音视频体验 。
RTC的三大创新场景
虽然疫情让RTC极大普及 , 但是任杰认为 , 疫情本身并未创造新的RTC场景 , 而是推动了音视频在各类场景和行业落地 , 加速了RTC发展进程 。
他举例说明 , 在线教育毫无疑问是疫情中被推动与广泛落地的RTC场景 。 除了k12(kindergarten through twelfth grade , 学前教育至高中教育的缩写 , 代指基础教育)的在线课程外 , 现在素质教育也在向线上迁移 。 不过与基础教育不同的是 , 素质教育涉及经验的传递和指导 , 是更加个人化的过程 , 例如音乐、绘画 , 过程要求比较高 。 RTC技术与使用体验感的提升 , 将有助于素质教育的在线化进程 。
教育的另一个创新场景是在线考试 , 考试一直是严肃的事 , 过程控制更加严格 。 而因为疫情影响 , 考试也开始线上化 , 例如考场设前置摄像头、后置摄像头 , 并全程录像 , 方便监督和考试后抽查 。
除了教育 , 任杰提到第二个RTC创新场景将是强互动型与娱乐应用 。 电商直播、共享电影、线上拍卖、3D虚拟形象的语音社交、在线合唱等等 , 这些强互动型应用将会越来越多 , 值得开发者从产品层面发挥想象力 。
第三个创新场景在行业应用中 , 疫情之后需要“无接触服务”各个行业 , 包括政府办事、金融、保险、交通、海关等等领域 , 都在将办事、审批服务过程转向线上 , 这些也是RTC非常重要的新场景 。
当AI遇见RTC
对于RTC和AI、5G等新技术的融合趋势 , 任杰分别介绍了AI技术对音视频领域四类问题的解决办法 。
AI智能降噪 。 比如在线教育场景下 , (老师/学生)敲击键盘、倒水、咳嗽的声音 , 过去的算法对这些非稳态噪音无能为力 , 而AI技术可以分辨的场景和分辨的噪声更多 , 将帮助RTC在降噪方面有较大提升;
AI超分处理 。 在相同带宽下传输的视频图像 , 利用AI技术可以使其在解码还原后较之前更加清晰;
利用AI技术把不同的视频场景或者音频场景分辨与分开 。 对于静态场景编码、清晰度和帧率的控制 , 对于动态场景下编码和帧率的控制 , 用AI技术都可以将其区分开 , 做不同的处理;以及用AI技术重构带宽估计的算法 。
对于更远的未来 , 在全真互联网时代 , 任杰表示 , 音视频从采集到编码、传输、解码、渲染、互动的整个过程 , 将是全真互联网必须具备的一大块能力 , 而RTC有望成为全真互联网的基础设施 。

    推荐阅读