Google|DeepMind 打造加强版 AlphaGo:挑战各种最强棋牌 AI,战斗力惊人( 三 )
文章图片
▲苏格兰场的抽象图,Player of Games能够持续获胜
在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次 。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决 。
文章图片
▲不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利 。
尽管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了“人类顶级业余选手”的水平,甚至可能达到了专业水平 。
文章图片
Player of Games在德州扑克比赛中与公开可用的Slumbot对战 。该算法还与Joseph Antonius Maria Nijssen开发的PimBot进行了苏格兰场的比赛 。
文章图片
▲不同智能体在德州扑克、苏格兰场游戏中的比赛结果
结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家 。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量 。
同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是“显著”击败了它 。
三、研究关键挑战:训练成本太高
施密德相信Player of Games是向真正通用的游戏系统迈出的一大步 。
实验的总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模 。
“人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家 。”他谈道,“让这些算法更加通用是一项令人兴奋的研究 。”
当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势 。在语言领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算 。
即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平 。
对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高 。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)的利润 。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币) 。
推荐阅读
- Google|谷歌暂缓2021年12月更新推送 调查Pixel 6遇到的掉线断连问题
- |南安市司法局“加减乘除” 打造最优法治营商环境
- 科技创新平台|云南:打造世界一流食用菌科技创新平台
- 风险|筑牢安全线 打造防护堤 中国移动为5G业务发展保驾护航
- 平台|[原]蚂蚁集团SOFAStack:新一代分布式云PaaS平台,打造企业上云新体验
- 汽车|现代汽车公布CES 2022参展主题:打造机器人和元宇宙全新移动出行体验
- 生产线|贵阳经开区打造千亿元级产业园区——做强经济“顶梁柱”
- Apple|韩国要求苹果和Google删除"玩游戏赚钱"的游戏类别
- 运营|Yiwealth面向百家金融机构免费提供百万元智能内容产品及服务,打造财富管理行业智慧运营新基建
- 服贸|京东云助力打造“永不落幕的服贸会”案例入选中国信通院“云安全守卫者计划”