团队|人民中科入选国家自然科学奖:强化视频理解优势,降低AI技术应用门槛

机器之心报道
机器之心编辑部

在本文中 , 人民中科董事长李兵解读了人民中科在视频理解技术的最新进展 。
近日中国互联网络信息中心(CNNIC)发布了第 48 次《中国互联网络发展状况统计报告》 , 数字社会新形态持续升级 , 截至 2021 年 6 月我国网民规模达 10.11 亿 , 网络视频(含短视频)用户规模 9.44 亿 。 随着互联网内容的视频化以及 VR、元宇宙等应用的兴起 , 海量的非结构化内容正在高速增长 , 这些内容难以被机器快速识别、准确理解和方便检索 。
人民中科团队在视频理解方面积累了多年经验 , 长期处于世界领先水平 。 在不久之前公布的 2020 年度国家科学技术奖中 , 人民中科核心团队中的胡卫明、李兵以《视觉运动模式学习与理解的理论与方法》项目 , 获得国家自然科学奖二等奖 , 也是唯一关于智能视频的获奖项目 。

团队|人民中科入选国家自然科学奖:强化视频理解优势,降低AI技术应用门槛
文章图片

胡卫明、李兵
近日机器之心采访了人民中科董事长李兵 , 了解了人民中科在视频理解技术的最新进展 。
一、“视频理解是人工智能最需要攻克的高峰之一”
人类每天接触到的信息里有 70% 是视觉信息;音视频是人类最自然的交流和表达方式;随着计算技术的发展 , 交互日趋自然化 , 音视频正在改变互联网的表达和交流方式 。 在 Twitter 上 , 平均每天有 80% 的消息包含图像或视频 , 或者仅仅是图像或视频 。 据贝尔实验室研究报告 , 人和设备产生的数据中 , 音视频占主导地位 , 并占据着新增数据流的五分之四 。
亚马逊首席技术官 Werner 在 Invent 全球大会提出 , 2021 年及以后 , 从社交平台到业务运营的所有领域 , 音频、视频和图像的使用将继续取代文字;他认为 , 新兴的用户界面 , 让人类可以用更自然的方式进行人与机器、人与人的交互 。
企业要与客户更好交流 , 也需要更敏锐地意识到这些变化 。 客户不再依靠键盘与企业的产品和服务进行互动 , 企业需要转向更自然的用户界面、更自然的交流方式 。 音视频让服务和信息的获取更加公平 , 交流将不再受文字能力或行动缺陷的限制 。
有观点认为 , 视频智能理解是人工智能的重要战场 , 是体量最大的人工智能 。 「视频理解是人工智能最需要攻克的高峰之一 , 而互联网会是视频理解的最重要应用场景 , 视频理解具有广泛的应用前景 。 」人民中科董事长李兵表示 。 正是因为认识到视频理解的重要性 , 人民中科团队才多年坚持扎根于这个领域 。
视频除了空间特性外还具有时序特性 , 运动信息是其最重要的特征 , 是物体检测、目标跟踪、行为识别以及视频事件分析和理解的核心能力及关键环节 。 有观点认为 , 视频智能理解将是人工智能的重要战场 , 是体量最大的人工智能 。 据李兵介绍:「网络视频的标注、分类、风控 , 监控视频的目标跟踪、行为识别 , 工业视频中的安全检测等 , 都属于视频理解的应用场景」 。

推荐阅读