李世|会玩王者荣耀的AI，真的有用么？( 二 )_比赛|游戏|研究人员|AlphaGo|L

这套自我博弈的方法就是机器学习理论中的 —— “ 强化学习 ” 。

文章图片

强化学习能解决哪些问题？这套方法解决问题的极限在哪里？
研究人员把目光从围棋这种棋牌游戏，打量到星际争霸、Dota2 这些复杂策略的游戏身上。
这类游戏的复杂度可比围棋高多了，因为它们可能包含丰富的画面信息，还涉及多人对战，战争迷雾、即时战略、第一人称射击等元素。
所以在开发这类AI 时，会遇到多智能体协同策略，不完全信息等等技术难题，更有挑战性。
AlphaStar 就是 DeepMind 团队
打造的星际争霸 AI ▼

文章图片

这几年，针对星际争霸、Dota 2等不同游戏的 AI 不断出现，当然，王者绝悟也是其中之一。
说起来大家可能会觉得惊讶，但王者荣耀这样的游戏中，玩家的动作状态空间能高达 10 的 20000 次方，远远超过宇宙原子总数的 10 的 80 次方。
在如此浩瀚的运算空间里，要做出王者绝悟那样高效准确的决策，可想而知这挑战有多大。
基于王者绝悟的研究方法和经验，王者荣耀和腾讯 AI Lab 还搞了一个 AI 开放研究平台 —— 开悟。

文章图片

最近，腾讯举办了一个名为 “ 开悟多智能体强化学习大赛 ” 的活动，并邀请国内包括北大、清华、中科大等二十余所国内外顶尖院校的学霸们参加比赛。

文章图片

简单来说，这个比赛就是要求高校师生训练出一个属于自己的 mini 版 “ 绝悟 ”，然后导入王者荣耀一决高下。
在比赛中，各大高校的教授和学霸们会利用开悟平台研究如何用算法解决单、多智能体解决方案，模型结构设计，强化学习算法设计、奖励函数设计等问题。
比赛模式包括1v1墨家机关道、3v3长平攻防战，规则与我们玩家在王者荣耀日常接触到的一样，最先推倒对方水晶的一方获胜。

文章图片

今年已经是第二届比赛了，去年第一届赛程还使用过5v5 梦境大乱斗，冠军被中科大收入囊中。
肯定有差友好奇， AI 到底怎么经过自我博弈，最终学会玩王者荣耀的？
那给大家看看鲁班七号AI 的进化之路，我们以训练 10 分钟， 1小时， 12小时为节点，分别看看 AI 的水平有怎样的变化。

李世|会玩王者荣耀的AI，真的有用么？( 二 )

推荐阅读

人才上海技能人才平均工资突破12万元引关注技能人才工资标准是什么？

蒸包子的最佳时间怎么蒸包子

猫笼子选择哪种好(猫笼子买什么样的好)

虚实结合的好处及作用

王者荣耀猴子6神装顺风

浅灰色地砖刚铺好，想买红木色的家具，那么踢脚线和门也可用红木色的吗？

2022教师节鲜花祝福语

生活本身就是辛苦的吗

什么叫项目成本管理

90后的生活状态是咋样的

黄香蕉苹果什么时候成熟和黄元帅的区别

医疗期届满能否解除劳动关系

万里程民俗博物馆在哪？万里程民俗博物馆景点介绍

饮品怎么喝才能有健康好肤质

流放之路4.0什么时候出？2021流放之路4.0上线预告

欧联网希腊新冠患者人数突破16万例当局对硬封锁有顾虑

我的世界手机版怎么下载电脑mod 具体方法教程

四氯化碳学名叫什么

荨麻疹怎么治可通过药物进行治疗

为什么有人早恋成绩不下降