Google|DeepMind 打造加强版 AlphaGo:挑战各种最强棋牌 AI,战斗力惊人( 三 )



Google|DeepMind 打造加强版 AlphaGo:挑战各种最强棋牌 AI,战斗力惊人
文章图片

▲苏格兰场的抽象图,Player of Games能够持续获胜
在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次 。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决 。

Google|DeepMind 打造加强版 AlphaGo:挑战各种最强棋牌 AI,战斗力惊人
文章图片

▲不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利 。
尽管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了“人类顶级业余选手”的水平,甚至可能达到了专业水平 。

Google|DeepMind 打造加强版 AlphaGo:挑战各种最强棋牌 AI,战斗力惊人
文章图片


Player of Games在德州扑克比赛中与公开可用的Slumbot对战 。该算法还与Joseph Antonius Maria Nijssen开发的PimBot进行了苏格兰场的比赛 。

Google|DeepMind 打造加强版 AlphaGo:挑战各种最强棋牌 AI,战斗力惊人
文章图片

▲不同智能体在德州扑克、苏格兰场游戏中的比赛结果
结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家 。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量 。
同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是“显著”击败了它 。
三、研究关键挑战:训练成本太高
施密德相信Player of Games是向真正通用的游戏系统迈出的一大步 。
实验的总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模 。
“人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家 。”他谈道,“让这些算法更加通用是一项令人兴奋的研究 。”
当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势 。在语言领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算 。
即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平 。
对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高 。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)的利润 。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币) 。

推荐阅读