编译 | 禾木木
【信息|DeepMind打造AI游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表】出品 | AI科技大本营(ID:rgznai100)
谷歌母公司 Alphabet 的人工智能实验室 DeepMind 长期以来一直投资于游戏人工智能系统 。 实验室的理念是 , 游戏虽然缺乏明显的商业应用 , 但却是认知和推理能力的独特相关挑战 。 这使它们成为 AI 进步的有用基准 。
与此前开发的游戏系统不同 , DeepMind 创建了一个名为 Player of Games 的系统 , 是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的 AI 算法 。 与 DeepMind 之前开发的其他游戏系统 , 如国际象棋冠军AlphaZero和星际争霸 II 的 AlphaStar 不同 , 博弈者可以在完全信息游戏(例如中国围棋和国际象棋)和不完全信息游戏(例如 , 扑克)中表现出色 。
无论是解决交通拥堵问题的道路规划 , 还是合同谈判、与顾客沟通等互动任务 , 都要考虑和平衡人们的偏好 , 这与游戏策略非常相似 。 AI系统可能通过协调、合作和群体或组织之间的互动而获益 。 像 Player of Games 这样的系统 , 能推断其他人的目标和动机 , 使其与他人成功合作 。
不完全对完全
不完全信息游戏的信息在游戏过程中对玩家是隐藏的 , 相比之下 , 完全信息游戏在开始时会展示所有的信息 。
要玩好完全的信息游戏 , 需要相当多的预见性和计划 。 玩家必须处理他们在棋盘上看到的东西 , 并决定他们的对手可能会做什么 , 同时努力实现最终的胜利目标 。 不完全信息游戏则要求玩家考虑隐藏的信息 , 并思考下一步应该如何行动才能获胜 , 包括可能的虚张声势或组队对抗对手 。
DeepMind 称 , Player of Games是首个“通用且健全的搜索算法” , 在完全和不完全的信息游戏中都实现了强大的性能 。
Player of Games 有很强通用性 , 不过不是什么游戏都能玩 。 参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说 , 在完全信息游戏中 , AlphaZero比Player of Games更强大 , 但在不完全的信息游戏中 , 就没有那么厉害 。 系统需要考虑每个玩家在游戏中的所有可能观点 。 虽然在完全信息游戏中只有一个视角 , 但在不完全信息游戏中可以有很多这样的视角 , 例如 , 扑克大约有 2,000 个 。 此外 , 与 DeepMind AlphaZero 的继任者 MuZero 不同 , Player of Games 也需要了解它所玩的游戏规则 , 而 MuZero 可以即时掌握完全信息游戏的规则 。
在其研究中 , DeepMind 在国际象棋、围棋、德州扑克和战略棋盘游戏《苏格兰场》上的表现 , 评估了 Player of Games 使用谷歌 TPUv4 加速芯片组进行训练 。 对于围棋 , 它在 AlphaZero 和 Player of Games 之间设置了 200 场比赛 , 而对于国际象棋 , DeepMind 则让 Player of Games 和 GnuGo、Pachi 和 Stockfish 以及 AlphaZero 在内的顶级系统进行了较量 。 Player of Games 的德州扑克比赛使用公开可用的 Slumbot 进行 , 该算法还与 Joseph Antonius Maria Nijssen 开发的 PimBot 进行了苏格兰场的比赛 。 DeepMind 的合著称为“PimBot” 。
推荐阅读
- 建设|这一次,我们用SASE为教育信息化建设保驾护航
- |南安市司法局“加减乘除” 打造最优法治营商环境
- 科技创新平台|云南:打造世界一流食用菌科技创新平台
- 领域|上海市电子信息产业“十四五”规划:以集成电路为核心先导
- 风险|筑牢安全线 打造防护堤 中国移动为5G业务发展保驾护航
- 平台|[原]蚂蚁集团SOFAStack:新一代分布式云PaaS平台,打造企业上云新体验
- Tencent|微信小程序新规则:调用个人敏感信息将需授权
- 汽车|现代汽车公布CES 2022参展主题:打造机器人和元宇宙全新移动出行体验
- 接口|微信小程序用户信息相关接口调整
- 梦芯|梦芯科技:精准时空信息赋能汽车技术创新发展