AI|清华打造足球AI：首次实现同时控制10名球员完成比赛胜率94.4%_清华打造足球AI：首次实现同时

“只见4号球员在队友的配合下迅速攻破后防，单刀直入，一脚射门，球，进了！”观众朋友们大家好，您现在看到的是GoogleAI足球比赛的现场，场上身着黄色球衣的是来自清华大学的AI球员。这届清华AI可不一般，他们在艰苦训练之下，不仅有个人能力突出的明星球员，也有世界上最强最紧密的团队合作。

文章图片

在多项国际比赛中所向披靡，夺得冠军。
“Oh ，现在7号接过队友传来的助攻，临门一脚，球又进了！”

文章图片

言归正传，以上其实是清华大学在足球游戏中打造的一个强大的多智能体强化学习AI——TiKick 。
在多项国际赛事中夺得冠军则是指， TiKick在单智能体控制和多智能体控制上均取得了SOTA性能，并且还是首次实现同时操控十个球员完成整个足球游戏。
这支强大的AI团队是如何训练出来的呢？
从单智能体策略中进化出的多智能体足球AI
在此之前，先简单了解一下训练所用的强化学习环境，也就是这个足球游戏：Google Research Football（GRF）。
它由Google于2019年发布，提供基于物理的3D足球模拟，支持所有主要的比赛规则，由智能体操控其中的一名或多名足球运动员与另一方内置AI对战。
在由三千步组成的上下半场比赛中，智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等19个动作完成进球。
在这样的足球游戏环境中进行强化学习难度有二：
一是因为多智能体环境，也就是一共10名球员（不含守门员）可供操作，算法需要在如此巨大的动作空间中搜索出合适的动作组合；
二是大家都知道足球比赛中一场进球数极少，算法因此很难频繁获得来自环境的奖励，训练难度也就大幅增大。
而清华大学此次的目标是控制多名球员完成比赛。
他们先从Kaggle在2020年举办的GRF世界锦标赛中，观摩了最终夺得冠军的WeKick团队数万场的自我对弈数据，使用离线强化学习方法从中学习。
这场锦标赛只需控制场中的一名球员进行对战。

文章图片

如何从单智能体数据集学习出多智能体策略呢？