Google|DeepMind 打造加强版 AlphaGo：挑战各种最强棋牌 AI，战斗力惊人_DeepMind|打造加强版|Alpha

Google母公司Alphabet旗下顶尖AI实验室DeepMind曾因其AI系统AlphaGo击败顶尖人类围棋选手、AlphaStar赢得星际争霸2而爆红全球。本周，它又披露新的游戏AI系统。与此前开发的游戏系统不同，DeepMind的AI新作Player of Games是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的AI算法。完全信息游戏如中国围棋、象棋等棋盘游戏，不完全信息游戏如扑克等。
这是向能够在任意环境中学习的真正通用AI算法迈出的重要一步。
Player of Game在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖AI智能体对战。
从实验结果来看，DeepMind称Player of Games在完全信息游戏中的表现已经达到了“人类顶级业余选手”水平，但如果给予相同资源，该算法的表现可能会明显弱于AlphaZero等专用游戏算法。
在两类不完全信息游戏中，Player of Games均击败了最先进的AI智能体。

文章图片

论文链接：http://techimg88.easyfang.com/img.php?https://arxiv.org/pdf/2112.03178.pdf
一、深蓝、AlphaGo等AI系统仅擅长玩一种游戏
计算机程序挑战人类游戏选手由来已久。
20世纪50年代，IBM科学家亚瑟·塞缪尔（Arthur L. Samuel）开发了一个跳棋程序，通过自对弈来持续改进其功能，这项研究给很多人带来启发，并普及了“机器学习”这个术语。
此后游戏AI系统一路发展。1992年，IBM开发的TD-Gammon通过自对弈在西洋双陆棋中实现大师级水平；1997年，IBM深蓝DeepBlue在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫；2016年，DeepMind研发的AI系统AlphaGo在围棋比赛中击败世界围棋冠军李世石……

文章图片

▲IBM深蓝系统vs世界棋王卡斯帕罗夫
这些AI系统有一个共同之处，都是专注于一款游戏。比如塞缪尔的程序、AlphaGo不会下国际象棋，IBM的深蓝也不会下围棋。
随后，AlphaGo的继任者AlphaZero做到了举一反三。它证明了通过简化AlphaGo的方法，用最少的人类知识，一个单一的算法可以掌握三种不同的完全信息游戏。不过AlphaZero还是不会玩扑克，也不清楚能否玩好不完全信息游戏。
实现超级扑克AI的方法有很大的不同，扑克游戏依赖于博弈论的推理，来保证个人信息的有效隐藏。其他许多大型游戏AI的训练都受到了博弈论推理和搜索的启发，包括Hanabi纸牌游戏AI、The Resistance棋盘游戏AI、Bridge桥牌游戏AI、AlphaStar星际争霸II游戏AI等。