团队|人民中科入选国家自然科学奖:强化视频理解优势,降低AI技术应用门槛( 二 )


【团队|人民中科入选国家自然科学奖:强化视频理解优势,降低AI技术应用门槛】二、“做顶尖的科研 , 做有用的科研”
「运动模式的学习与理解」是理解视频信息的重要技术 , 人民中科的团队围绕目标检测跟踪的鲁棒性和行为模式的可学习性等关键科学问题 , 取得了一系列具有重要国际影响力的创新成果 , 实现了「运动模式的学习与理解」这一难题的部分解决 。 目前已有 90 余篇论文发表在 ACM Transactions、IJCV、TPAMI 等国际顶刊上;公司的胡卫明、李兵以《视觉运动模式学习与理解的理论与方法》项目获得国家自然科学奖二等奖 , 是唯一关于智能视频的获奖项目 , 6 篇代表性论文的他引次数超过 7000 次 。
「团队做研究时的目标都很单纯 , 就是做顶尖的科研 , 做有用的科研 。 」李兵说 , 以前搞科研 , 始终对团队强调两个方面:一是要高水平 , 从不要求论文数量 , 只强调质量、影响力;二是特别看重将科研成果能否真正用在国家重大项目需求和工程实践 , 并通过实际应用检验和提升科研能力 。 「这么多年来 , 我们团队始终能在视频运动分析、内容理解领域保持国际领先 , 一是坚持深耕一个方向 , 不为各种热点所干扰;更重要就是坚持理论研究与实际工程的结合 , 真正把论文写在祖国的大地上」 。 现在创办企业 , 团队希望将人工智能前沿技术与市场需求融合 , 形成低成本、高效率、自主可控的产品体系 , 帮助国内中小型科技企业降低 AI 应用门槛 。
目前 , 人民中科在视频理解的多个方向都具有国际领先的技术成果和储备:
在视频跟踪方向 , 团队在 TPAMI 和 IJCV 等国际权威期刊和会议上发表过数十篇论文 , 获得过多次世界比赛的冠军 , 2020 年获得中国模式识别与计算机视觉大会 PRCV 最佳论文奖 , 并获得吴文俊人工智能科学技术奖一等奖 。 近期主要探索人脑的认知机理 , 研究模拟小脑空间定位和大脑高层认知的协作机制 , 利用相关滤波器在频域上模拟小脑对底层视觉信号的细粒度编码与空间精确定位能力 , 利用卷积反卷积神经网络在时域上模拟大脑对视觉信号的编解码及其高层认知能力 , 逐步实现相关滤波学习和深度特征学习相融合的实时在线自适应的目标跟踪 。
在行为识别和视频内容描述方向 , 团队在 TPAMI 和 IJCV 等顶级期刊和会议上发表论文 40 余篇 , 获得 ICCV2019 VATEX 视频描述中 / 英文双赛道冠军 。 正在模拟大脑的视觉注意力机制 , 并根据视觉系统中表观神经通路和运动神经通路之间的注意力机制设计运动增强模块 , 加强双流卷积神经网络两路分支之间的交互和协同 , 构建有效的基于时空深度耦合的目标行为识别模型 。 在视频内容描述方面 , 提出了新的教师推荐学习策略 , 通过知识蒸馏的方法 , 将外部语言模型的语言学知识传递给描述模型;在原有教师强迫学习的训练过程的基础上 , 配合在大型语料库上预训练的语言模型生成的软目标进行推荐学习 , 在每一步的训练中同时学到了数十倍的知识 , 很好地缓解了由于缺乏特殊视频的训练样本所带来的训练不足问题 。

推荐阅读