Google|DeepMind 打造加强版 AlphaGo:挑战各种最强棋牌 AI,战斗力惊人( 二 )
文章图片
▲2019年1月,AlphaStar对战星际争霸II职业选手
这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能 。
DeepMind研发的AlphaZero等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的DeepStack、卡耐基梅隆大学研发的Libratus等算法在扑克等不完全信息游戏中表现出色 。
对此,DeepMind研发了一种新的算法Player of Games(PoG),它使用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能 。
二、更通用的算法PoG:棋盘、扑克游戏都擅长
无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似 。AI系统可能通过协调、合作和群体或组织之间的互动而获益 。像Player of Games这样的系统,能推断其他人的目标和动机,使其与他人成功合作 。
要玩好完全的信息游戏,需要相当多的预见性和计划 。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标 。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手 。
DeepMind称,Player of Games是首个“通用且健全的搜索算法”,在完全和不完全的信息游戏中都实现了强大的性能 。
Player of Games(PoG)主要由两部分组成:1)一种新的生长树反事实遗憾最小化(GT-CFR);2)一种通过游戏结果和递归子搜索来训练价值-策略网络的合理自对弈 。
文章图片
▲Player of Games训练过程:Actor通过自对弈收集数据,Trainer在分布式网络上单独运行
在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,AlphaZero就没那么游刃有余了 。
Player of Games有很强通用性,不过不是什么游戏都能玩 。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角 。
虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个 。
此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,Player of Games也需要了解游戏规则,而MuZero无需被告知规则即可飞速掌握完全信息游戏的规则 。
在其研究中,DeepMind评估了Player of Games使用GoogleTPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现 。
推荐阅读
- Google|谷歌暂缓2021年12月更新推送 调查Pixel 6遇到的掉线断连问题
- |南安市司法局“加减乘除” 打造最优法治营商环境
- 科技创新平台|云南:打造世界一流食用菌科技创新平台
- 风险|筑牢安全线 打造防护堤 中国移动为5G业务发展保驾护航
- 平台|[原]蚂蚁集团SOFAStack:新一代分布式云PaaS平台,打造企业上云新体验
- 汽车|现代汽车公布CES 2022参展主题:打造机器人和元宇宙全新移动出行体验
- 生产线|贵阳经开区打造千亿元级产业园区——做强经济“顶梁柱”
- Apple|韩国要求苹果和Google删除"玩游戏赚钱"的游戏类别
- 运营|Yiwealth面向百家金融机构免费提供百万元智能内容产品及服务,打造财富管理行业智慧运营新基建
- 服贸|京东云助力打造“永不落幕的服贸会”案例入选中国信通院“云安全守卫者计划”