选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金

机器之心原创
作者:张倩

在今年的腾讯广告算法大赛中 , 腾讯广告给全球算法圈出了一道难题 , 冠军最高奖励 10 万美元 , 赛题还入选了顶会挑战赛 。 什么赛题有如此含金量?谁拿走了冠军大奖?昨天 , 决赛结果已经出炉……
进入全民视频时代以来 , 广告行业的需求也在发生日新月异的变化 。
国内移动互联网大数据公司 QuestMobile 最近发布的《2020 年中国互联网广告市场洞察》报告显示 , 从广告形式上看 , 视频类信息流增速更快 , 趋向成为主流广告形式 。

选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金
文章图片

图源:https://mp.weixin.qq.com/s/ikrOOmOiKkxl6ZI1b9UHRQ
与此同时 , 用户对广告的创意要求也越来越高:大批视频广告在播放的前 3 秒就会被 60% 的观众划走 , 一个新广告面世不到一周就没有人再去看了 。
为了迎合这种消费习惯的变化和创意需求的升级 , 视频广告创作者需要在短时间内创作出大量有吸引力的广告 。 这意味广告行业的生产模式需要经历一场变革 。
和其他很多行业一样 , 这种变革可以通过解放人力来完成 。
具体到视频广告 , AI 算法可以做什么呢?
一方面 , AI 可以承担一些重复性工作 , 比如批量生产各类素材 。 另一方面 , 一些非重复性的创意工作也可以尝试交给 AI , 比如让它自行理解广告内容亮点 , 并以此为依据生成一个新广告 。
但要把这些都做好 , 首先要让 AI 把视频广告吃透 , 也就是我们常说的视频深度理解 。
而这件事情 , 腾讯广告其实早就在做了 , 而且深知其中的价值与挑战 。 腾讯广告多媒体 AI 中心总监刘威坦言 , 视频深度理解难到令人绝望 , 「假如说图像识别已经开发到中年的水平 , 我觉得视频还是婴儿水平 。 视频的 knowledge domain 太大了 , 你在某个地方加一个小东西 , 特征空间里看到的就已经差了很多 , 所以算法非常脆弱」 。 类似的前沿算法研究 , 腾讯广告内部还有很多 。
在向这些前沿算法发起挑战的同时 , 腾讯广告还会通过各种形式将产、学、研各界聚集到一起 , 共同推进行业技术的演进 , 始于 2017 年的「腾讯广告算法大赛」就是其中之一 。
这一比赛一直聚焦业务最关心的问题 , 今年的赛题更是直面令人头疼的视频广告深度理解 , 而且是高难度的「多模态视频广告秒级解析」 。
由于赛题颇具挑战 , 出题方将其分成了两个赛道:「视频广告秒级语义解析」(赛道一)和「多模态视频广告标签」(赛道二) 。
这两个赛道难在哪儿呢?
先来说说没那么难的赛道二 。 这个赛道以视频、音频、文本三个模态作为输入 , 要求选手针对测试视频样本预测出视频在呈现形式、场景、风格等三个维度上的标签 。

选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金
文章图片

刚才说过 , 视频理解本身就是一个难题 , 而本次比赛不仅要求理解视频 , 还要和音频、文本等模态的信息综合到一起来理解 , 实现多模态融合 。 这一考法令选手叫苦不迭 。

选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金
文章图片

然而 , 赛道一难度还要更高 。 这一赛题同样以视频、音频、文本三个模态作为输入 , 但要求选手将测试视频进行「幕」的分段 , 并且预测出每一段在呈现形式、场景、风格等三个维度上的标签 。 「幕」即场景 , 可能包含多个镜头 , 因此也叫「语义超镜头」 。 这些镜头在语义上相关 , 描绘并传达一个高级概念 。 比如下图中第一个场景(幕)就包含四个镜头 , 共同阐述「打电话」这一高级概念 。 如何将这些镜头归入一个场景、概括出其高级语义信息显然是一个非常综合的问题 。

选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金
文章图片

此外 , 「多模态视频广告秒级解析」这个主题是腾讯广告从真实的业务需求中提炼出来的 , 在算法领域尚未被提出 , 也很少有人进行过深入研究 , 相应的数据、代码、可参考文献都比较少 , 这也增加了比赛的难度 。 怪不得有不少选手反馈说 , 「跑 baseline 都费劲」 。
与赛题难度相匹配的是高额奖金池:本届大赛冠军可以拿到 10 万美元的现金奖 , 总奖金池高达百万级 。
为什么这个赛题如此重要?腾讯公司副总裁蒋杰在决赛致辞中提到 , 「随着5G 技术的逐渐普及 , 以视频为载体的内容越来越受用户欢迎 , 如何深度理解视频广告内容 , 挖掘其潜在价值 , 无疑成了当下广告行业发展的重点 。 而细粒度理解视频时序内容 , 对于广告业务具有积极意义 , 可以真正帮助广告主降本提效 , 让广告更有温度 。 」
今年的比赛吸引了上千家高校和企事业单位的4300余名选手报名 。 在昨天举行的决赛中 , 赛道一的冠军由「GZ」战队摘得 , 他们将视频广告秒级语义解析这个任务分成了 Temporal Segmentation 和 Proposal Tagging 两个子任务来完成 , 具体方案如下:

选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金
文章图片

赛道一冠军解决方案概览 。
赛道二的冠军则由「挥霍的人生」战队摘得 , 他们使用了基于 stacking 的方案 , 预测时可以并行提取每个独立部分的特征 , 模型迭代速度快 。
除了现金奖励 , 通过此次大赛 , 选手还有机会现场参与 2021 ACM MM Grand Challenge Session(以下简称 ACM 多媒体挑战赛) , 同更多算法专家做进一步的现场交流 。
参加腾讯广告算法大赛还有机会拿到顶会挑战赛门票?没错 , 因为本届赛事与 ACM Multimedia 实现了强强联合 , 两道赛题都入选了 ACM 多媒体挑战赛 。
【选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金】ACM Multimedia 是多媒体领域最重要的国际会议 , 也是中国计算机学会(CCF)认证以及多媒体研究领域评级中唯一的 A 类国际顶级会议 。 为了促进工业界和学术界的交流 , 大会设置了 ACM 多媒体挑战赛环节 。 可以说 , 这是多媒体领域工业界和学术界交流活动中最有影响力的一个 。
那么 , 这个挑战赛关注什么样的议题呢?ACM 多媒体挑战赛主席李锡荣给出的答案是:工业界未来 5 年到 10 年关心的问题 。
眼光放得长远 , 难度自然不会低 , 所以大赛也没指望选手通过一场比赛就把问题解决掉 。
「(比赛)解决方案不见得在一两年内就能商业化或者产品化 , 它实际上是对于未来技术的一种探索 。 」李锡荣补充说 。
换句话说 , ACM 多媒体挑战赛探讨的问题必须要有前瞻性和实用性 , 这与腾讯广告算法大赛的两道赛题不谋而合 。
同时 , 赛题入选顶会挑战赛也意味着 , 今年腾讯广告算法大赛的国际影响力进一步扩大 , 比赛中诞生的解决方案、代码、数据集等资源将为国际算法圈提供重要参考 。
当然 , 这些资源也将为视频广告创意业务的发展带来新的助力 。 腾讯广告内部与之相关的就有多尺寸智能裁剪、 模板视频自动剪辑、 视频创意智能混剪等多项视频广告业务 。
多尺寸智能裁剪是指利用一种规格的视频生成多种规格的视频 , 比如输入 16:9 , 输出 9:16、4:3、1:1 等多种格式 。 这里面涉及智能关键帧截取、焦点跟随、视频去填充、图像分割、背景融合等多项视频理解任务 。
举个例子 , 在把一个竖版视频切换成横版的时候 , AI 要截取画面的一部分来保持满屏铺开 , 这就需要 AI 识别出画面的焦点是什么(如下图中的一家三口) , 然后进行焦点跟随 。 这一功能有多实用?要知道 , 各个投放平台对视频广告的规格要求是不一样的 , 一个广告视频可能需要 20 多种规格 。 在没有 AI 介入的情况下 , 这无疑是一项低效的重复性工作 。

选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金
文章图片

模板视频自动剪辑是指复用之前积累的优秀素材快速剪出新的创意 。 此时 , 广告主可能只需要提供若干张商品图 , 而视频的「黄金前 3 秒」、转场、行动指引等片段都可以从素材库调取 。 AI 算法可以为这个素材库提供更加精准的标签(比如一个优秀的前 3 秒素材讲了什么内容) , 从而在再创作时更加精准地匹配新广告需求 。 到目前为止 , 腾讯广告已经积累了 10000 多套这样的模板 , 复用模板每天生产的视频量在 10 万以上 。
视频创意智能混剪是指根据输入的一段视频剪出不同时长的版本 , 同时还要保留视频广告的吸引力、信任力、说服力和行动力 。
举个例子 , 现在有一段 30 秒的产品介绍广告 , 需要让 AI 把它剪成 15 秒的 。 首先 , AI 要把视频切成若干场景 , 然后从这些场景中找到那些可以吸引用户观看、增加用户信任、向用户展示产品优惠信息以及驱使用户下单的片段并保留下来 。 这一过程就是给各个场景进行秒级切分并打上各种标签的过程 , 也是赛道一考察的主要内容 。
这些业务的顺利开展都离不开腾讯广告多年以来积累的多模态 AI 能力 , 包括文本、图像、语音、视频等多个领域 。 同时 , 这些能力的组合也为腾讯广告打造智能审核、智能创作、内容理解等广告业务平台奠定了基础 。 这些平台覆盖创意制作(投前)、广告推荐(投中)、创意复盘(投后)整个链路 , 支持文本、图片、视频、落地页等各种广告类型 , 已经在在游戏、电商、金融、教育、网服等多个行业的广告创作中得到应用 。

选手|让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走10万美元奖金
文章图片

可以预见的是 , 随着 AI 落地的深入 , 未来将有越来越多的 AI 技术应用到广告产品当中 。 或许哪天吸引你看下去的一个广告就是 AI 生成的呢 。

    推荐阅读