定义|时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度

机器之心专栏
作者:张宋扬、彭厚文、傅建龙、卢亦娟、罗杰波

当时间的维度从一维走向二维 , 时序上的建模方式也需要相应的改变 。 本文提出了多尺度二维时间图的概念和多尺度二维时域邻近网络(MS-2D-TAN)用于解决视频时间定位的问题 。 本文拓展自 AAAI 2020 [1] , 并将单尺度的二维时间建模拓展成了一个多尺度的版本 。 新模型考虑了多种不同时间尺度下视频片段之间的关系 , 速度更快的同时精度也更高 。 本文在基于文本的视频时间定位任务中验证了其有效性 。 相关内容将发表在 TPAMI上 。
时间可以是二维的吗?这是一个好问题!
我们常常将物理世界定义为三维空间 , 将时间定义为一维空间 。 但是 , 这不是唯一的定义方式 。 最近 , 罗切斯特大学和微软亚洲研究院的学者们大开脑洞 , 提出了一种新的时间表示方式 , 将时间定义成了二维的!
在二维空间里 , 时间是如何表达的呢?童鞋们给出的答案是这样的:在二维空间中 , 我们定义其中一个维度表示时间的开始时刻 , 另外一个维度表示持续的时间;从而 , 二维空间中的每一个坐标点就可以表达一个时间片段(例如 , 从 A 时刻开始持续 B 秒的时间片) 。
在这种二维空间定义下 , 如果我们把单位时间刻度设置的越小 , 那么可以观测到时域上更加局部和微观的关系 。 而如果把单位时间刻度设置的较大 , 那么观测到的关系将更加全局和宏观 。 如果能有效地结合两者 , 将会对片段间的关系有更丰富的描述 。
(参考自 https://www.msra.cn/zh-cn/news/features/aaai-2020-2d-tan)
基于文本的视频时间定位的目标是 , 给一段文字 , 在视频中找到文本所对应视频片段 , 并给出片段的开始时间和结束时间 。 如图 1 Query A 所示 , 给一段文字 「一个人吹起了萨克斯」和一段视频 , 这个任务希望找到与文字描述最匹配的那个片段 。 许多前人的工作都是独立考虑片段和文本之间的相似程度 , 而忽略了片段与片段之间的上下文信息 。 如图 1 Query C 所示 , 为了定位「这个人再一次吹起了萨克斯」 ,如果只看后半段的视频是很难定位「再」 这个词的 。 此外 , 如图 1 Query B 所示 ,很多高度重合的片段有相似的内容 , 如果不对这些片段进行对比的话 , 很难区分哪个片段与文字描述最匹配 。
为了解决这一问题 , 该研究在 AAAI 2020 的论文中提出了一个二维时域邻近网络(2D-TAN) 。 该网络的核心思想是在一个二维时间图上做视频的时间定位 。 如图 1(a)所示 , 图中(i,j) 表示的是一个从 i 开始持续 j+1 的时间片段 。 对于不同长度的片段 , 我们可以通过坐标上的远近来定义他们之间的邻近关系 。 有了这些关系 , 我们就可以用 2D-TAN 对这种依赖关系进行建模 。 此外 , 因为 2D-TAN 是将这些片段当成一个整体来考虑 , 学出来的片段特征也更具有区分性 。

推荐阅读