李世|会玩王者荣耀的AI,真的有用么?( 二 )


这套自我博弈的方法就是机器学习理论中的 —— “ 强化学习 ” 。

李世|会玩王者荣耀的AI,真的有用么?
文章图片

强化学习能解决哪些问题?这套方法解决问题的极限在哪里?
研究人员把目光从围棋这种棋牌游戏 , 打量到星际争霸、Dota2 这些复杂策略的游戏身上 。
这类游戏的复杂度可比围棋高多了 , 因为它们可能包含丰富的画面信息 , 还涉及多人对战 , 战争迷雾、即时战略、第一人称射击等元素 。
所以在开发这类AI 时 , 会遇到多智能体协同策略 , 不完全信息等等技术难题 , 更有挑战性 。
AlphaStar 就是 DeepMind 团队
打造的星际争霸 AI ▼

李世|会玩王者荣耀的AI,真的有用么?
文章图片

这几年 , 针对星际争霸、Dota 2等不同游戏的 AI 不断出现 , 当然 , 王者绝悟也是其中之一 。
说起来大家可能会觉得惊讶 ,但王者荣耀这样的游戏中 , 玩家的动作状态空间能高达 10 的 20000 次方 , 远远超过宇宙原子总数的 10 的 80 次方 。
在如此浩瀚的运算空间里 , 要做出王者绝悟那样高效准确的决策 , 可想而知这挑战有多大 。
基于王者绝悟的研究方法和经验 ,王者荣耀和腾讯 AI Lab 还搞了一个 AI 开放研究平台 —— 开悟 。

李世|会玩王者荣耀的AI,真的有用么?
文章图片

最近 , 腾讯举办了一个名为 “ 开悟多智能体强化学习大赛 ” 的活动 , 并邀请国内包括北大、清华、中科大等二十余所国内外顶尖院校的学霸们参加比赛 。

李世|会玩王者荣耀的AI,真的有用么?
文章图片

简单来说 ,这个比赛就是要求高校师生训练出一个属于自己的 mini 版 “ 绝悟 ”, 然后导入王者荣耀一决高下 。
在比赛中 , 各大高校的教授和学霸们会利用开悟平台研究如何用算法解决单、多智能体解决方案 , 模型结构设计 , 强化学习算法设计、奖励函数设计等问题 。
比赛模式包括1v1墨家机关道、3v3长平攻防战 , 规则与我们玩家在王者荣耀日常接触到的一样 , 最先推倒对方水晶的一方获胜 。

李世|会玩王者荣耀的AI,真的有用么?
文章图片

今年已经是第二届比赛了 , 去年第一届赛程还使用过5v5 梦境大乱斗 , 冠军被中科大收入囊中 。
肯定有差友好奇 , AI 到底怎么经过自我博弈 , 最终学会玩王者荣耀的?
那给大家看看鲁班七号AI 的进化之路 , 我们以训练 10 分钟 , 1小时 , 12小时为节点 , 分别看看 AI 的水平有怎样的变化 。

推荐阅读