|历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军

绝悟AI开始挑战更复杂的开放世界游戏环境了 。
Minecraft (中文译名《我的世界》) 是全球最畅销的开放世界3D游戏 。随机生成的开放地图、自由灵活的玩法、多线程长链条任务 , 给AI研究带来了极大挑战 。针对Minecraft的复杂环境 , 游戏AI赛事MineRL邀请全球程序员在4天时间内用一台计算机训练AI找到游戏中的钻石 。
12月8日 , 第三届MineRL竞赛主赛道 (research track) 发布成绩 , AI 的“钻石之梦”向前踏进了一大步:腾讯AI Lab“绝悟”以76.970分的绝对优势夺冠 。研究成果已发布在Arxiv上 , 算法框架可复用于其他复杂决策环境 。

|历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军
文章图片

文章图片

(论文链接:https://arxiv.org/abs/2112.04907)
|历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军】MineRL竞赛由卡内基·梅隆大学、微软、DeepMind、OpenAI , 联合机器学习顶级会议NeurIPS共同举办 , 极富挑战性的赛题持续吸引全球开发者关注 。今年赛事共有59支团队、近500名选手投身其中 , 其中不乏世界顶级学府和研究机构的科研强队 。竞赛的研究主题是:训练样本高效的Minecraft AI智能体 。
腾讯AI Lab创新性地通过分层强化学习(Hierarchical Reinforcement Learning)、表示学习(Representation Learning)、自模仿学习(Self-imitation Learning)、集成行为克隆(Ensemble Behavior Cloning)等算法高效实现比赛目标 。

|历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军
文章图片

文章图片


|历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军
文章图片

文章图片

(绝悟AI以压倒性优势获得历史最高分 , 今年榜单详见链接)
极度多样的环境、完全靠随机种子生成的地图、长决策序列与复杂的技能学习、高自由度玩法带来的海量策略偏好都增加了Minecraft AI研究的难度 。比如 , 为了让AI在15分钟内找到钻石 , AI需要经历徒手采集原木、合成木板、木棍与木镐 , 采集到铁矿 , 经过一系列加工才能合成钻石 。
此外 , 主办方还制定了种种严苛的规则:包括禁止参赛者编写规则、游戏环境甚至将背包信息与动作空间加密、且不允许使用预训练模型 , 只允许与环境最多交互八百万次 , 每个参赛队伍只能使用6核CPU与半张NVIDIA K80显卡训练4天——这个配置几乎对于所有高校实验室与个人研究者都可以负担的 。
这次比赛的目的在于促进样本高效 (Sample-efficient) 游戏AI算法的发展 。目前流行的强化学习算法一般需要多达成百上千万次的试错来寻找最优流程 , 耗费大量的时间和计算资源 。而纯靠人类数据的模仿学习算法虽然更快 , 但性能上往往不尽如人意 。

推荐阅读