这套自我博弈的方法就是机器学习理论中的 —— “ 强化学习 ” 。
文章图片
强化学习能解决哪些问题?这套方法解决问题的极限在哪里?
研究人员把目光从围棋这种棋牌游戏 , 打量到星际争霸、Dota2 这些复杂策略的游戏身上 。
这类游戏的复杂度可比围棋高多了 , 因为它们可能包含丰富的画面信息 , 还涉及多人对战 , 战争迷雾、即时战略、第一人称射击等元素 。
所以在开发这类AI 时 , 会遇到多智能体协同策略 , 不完全信息等等技术难题 , 更有挑战性 。
AlphaStar 就是 DeepMind 团队
打造的星际争霸 AI ▼
文章图片
这几年 , 针对星际争霸、Dota 2等不同游戏的 AI 不断出现 , 当然 , 王者绝悟也是其中之一 。
说起来大家可能会觉得惊讶 ,但王者荣耀这样的游戏中 , 玩家的动作状态空间能高达 10 的 20000 次方 , 远远超过宇宙原子总数的 10 的 80 次方 。
在如此浩瀚的运算空间里 , 要做出王者绝悟那样高效准确的决策 , 可想而知这挑战有多大 。
基于王者绝悟的研究方法和经验 ,王者荣耀和腾讯 AI Lab 还搞了一个 AI 开放研究平台 —— 开悟 。
文章图片
最近 , 腾讯举办了一个名为 “ 开悟多智能体强化学习大赛 ” 的活动 , 并邀请国内包括北大、清华、中科大等二十余所国内外顶尖院校的学霸们参加比赛 。
文章图片
简单来说 ,这个比赛就是要求高校师生训练出一个属于自己的 mini 版 “ 绝悟 ”, 然后导入王者荣耀一决高下 。
在比赛中 , 各大高校的教授和学霸们会利用开悟平台研究如何用算法解决单、多智能体解决方案 , 模型结构设计 , 强化学习算法设计、奖励函数设计等问题 。
比赛模式包括1v1墨家机关道、3v3长平攻防战 , 规则与我们玩家在王者荣耀日常接触到的一样 , 最先推倒对方水晶的一方获胜 。
文章图片
今年已经是第二届比赛了 , 去年第一届赛程还使用过5v5 梦境大乱斗 , 冠军被中科大收入囊中 。
肯定有差友好奇 , AI 到底怎么经过自我博弈 , 最终学会玩王者荣耀的?
那给大家看看鲁班七号AI 的进化之路 , 我们以训练 10 分钟 , 1小时 , 12小时为节点 , 分别看看 AI 的水平有怎样的变化 。
推荐阅读
- 王者荣耀|挑战者杯大名单公布,多支kpl队伍首发或成绝唱,冠军是唯一机会
- 王者荣耀|王者荣耀女玩家天生不如男?大锤率队迎战女生队:2分钟越2塔
- 王者之魄|【CF手游】王者武器库全解析,你想知道的都在这!
- 王者荣耀|挑战者杯预报丨选拔赛BO1揭幕,XYG再战巅峰赛大佬
- pokémon go|21年全球八款手游营收破10亿!《王者》《原神》进前三
- 王者荣耀|王者荣耀:赛场上公然打拳?大锤哥一口气欺负五个妹妹
- 王者荣耀&鲁班七号|王者荣耀最奇葩的6个被动技能 第一个“全屏嘲讽”
- 达摩|王者荣耀:体验服28号更新,达摩、橘右京增强,暴君效果伤害数值下调
- 明凯|本想秀实力反被锤?赖神《王者荣耀》对抗路SOLO赛被明凯吊锤!
- 王者荣耀|瑶在KPL赛场也能保持百分百胜率?来Pick你最喜欢的最佳阵容吧~