团队|人民中科入选国家自然科学奖：强化视频理解优势，降低AI技术应用门槛_李兵|论文|优势|应用|智能|技术

机器之心报道
机器之心编辑部

在本文中，人民中科董事长李兵解读了人民中科在视频理解技术的最新进展。

近日中国互联网络信息中心（CNNIC）发布了第 48 次《中国互联网络发展状况统计报告》，数字社会新形态持续升级，截至 2021 年 6 月我国网民规模达 10.11 亿，网络视频（含短视频）用户规模 9.44 亿。随着互联网内容的视频化以及 VR、元宇宙等应用的兴起，海量的非结构化内容正在高速增长，这些内容难以被机器快速识别、准确理解和方便检索。
人民中科团队在视频理解方面积累了多年经验，长期处于世界领先水平。在不久之前公布的 2020 年度国家科学技术奖中，人民中科核心团队中的胡卫明、李兵以《视觉运动模式学习与理解的理论与方法》项目，获得国家自然科学奖二等奖，也是唯一关于智能视频的获奖项目。

文章图片

胡卫明、李兵
近日机器之心采访了人民中科董事长李兵，了解了人民中科在视频理解技术的最新进展。
一、“视频理解是人工智能最需要攻克的高峰之一”
人类每天接触到的信息里有 70% 是视觉信息；音视频是人类最自然的交流和表达方式；随着计算技术的发展，交互日趋自然化，音视频正在改变互联网的表达和交流方式。在 Twitter 上，平均每天有 80% 的消息包含图像或视频，或者仅仅是图像或视频。据贝尔实验室研究报告，人和设备产生的数据中，音视频占主导地位，并占据着新增数据流的五分之四。
亚马逊首席技术官 Werner 在 Invent 全球大会提出， 2021 年及以后，从社交平台到业务运营的所有领域，音频、视频和图像的使用将继续取代文字；他认为，新兴的用户界面，让人类可以用更自然的方式进行人与机器、人与人的交互。
企业要与客户更好交流，也需要更敏锐地意识到这些变化。客户不再依靠键盘与企业的产品和服务进行互动，企业需要转向更自然的用户界面、更自然的交流方式。音视频让服务和信息的获取更加公平，交流将不再受文字能力或行动缺陷的限制。
有观点认为，视频智能理解是人工智能的重要战场，是体量最大的人工智能。「视频理解是人工智能最需要攻克的高峰之一，而互联网会是视频理解的最重要应用场景，视频理解具有广泛的应用前景。」人民中科董事长李兵表示。正是因为认识到视频理解的重要性，人民中科团队才多年坚持扎根于这个领域。
视频除了空间特性外还具有时序特性，运动信息是其最重要的特征，是物体检测、目标跟踪、行为识别以及视频事件分析和理解的核心能力及关键环节。有观点认为，视频智能理解将是人工智能的重要战场，是体量最大的人工智能。据李兵介绍：「网络视频的标注、分类、风控，监控视频的目标跟踪、行为识别，工业视频中的安全检测等，都属于视频理解的应用场景」。