AI 世界上最难的“沙雕”游戏被AI攻破了( 二 )
接下来要做的就是再向AI教授更多技巧,奈何本人技术太渣 。
所以要想进一步提高AI的水平,必须找顶级高手来帮忙 。
顶级高手助阵
Liao观察速通排行榜上的录像,发现顶级玩家的技巧是把左腿抬高可以跑的更快 。
文章图片
△排名第一玩家gunmaneko的踢腿技巧
他开始全球排名前二的玩家gunmaneko和Kurodo请教踢腿技巧的操作 。
文章图片
两位玩家热情地回答了他的问题 。其中Kurodo指出这个技巧的关键在于减少游戏角色在纵向的移动,并提出把保持身体高度加入AI的奖励函数 。
文章图片
Liao向Kurodo分享了他的代码,Kurodo慷慨地使用代码记录了50次自己游戏时的按键记录发给Liao 。
Liao尝试使用这些数据对AI进行预训练,但效果并不好 。AI还没来得及学会踢腿技巧,倒先把基本的跑步方法忘记了 。
文章图片
Liao不得不改变方法,他把Kurodo的数据注入到AI的回放缓存*(Replay Buffer)*中 。这相当于修改AI的记忆,使AI有一半的记忆是自己的,另一半来自Kurodo 。
文章图片
并且是AI每自己玩一次,就注入一次Kurodo的数据,保证AI随机从记忆中选取一段来学习时选到两种记忆的概率相同,避免在学习新技巧的过程中把基本操作忘掉 。
AI使用Kurodo的数据训练了15个小时,终于学会了踢腿,但因为两种记忆无法协调在一起,跑时间长了动作会不稳定 。
Liao此时把Kurodo的记忆移除,又让AI自己训练了25小时,总训练时间达到了65小时 。
最终AI的成绩达到1分08秒,终于进入前十 。
打破世界纪录
Liao把教AI玩这个游戏的过程做成视频发在网上 。一个月前,外媒Gismodo问他:为什么AI还没有打破世界纪录?
文章图片
于是Liao重新训练了一个只为优化速度而存在的新AI 。
新AI改用Prioritized DDQN算法,因为这种算法会给学习效率更高的状态增加权重而不是均匀采样,能使新AI迅速学会旧AI已经掌握了的技巧 。
并且,新AI的奖励函数去掉了身体高度,膝盖弯曲角度等参数,改成只和前进速度相关 。
新AI先用已有数据进行只有几分钟的预训练,随后是40小时的自训练 。最终,新AI每秒所做的动作数在训练环境中由9提高到18,并在测试环境中达到25 。
新AI对踢腿技巧的掌握非常稳定,即使被障碍物影响也能迅速恢复 。
文章图片
快速高效的动作使AI的成绩提高到47.34秒,比人类最高纪录48.34秒刚好快1秒 。
文章图片
这才终于算是,在人工智能超越人类的游戏列表中又增加了一项 。
One More Thing
你以为这就完了?
跑完100米不算完,这款游戏还有一种世界级难度——“是男人就跑完马拉松” 。
文章图片
为Liao提供帮助的玩家Kurodo最近刚刚提交了世界纪录,全球也只有两人完成了这项壮举 。
很难想象他们在电脑前连续按几个小时QWOP的画面 。
另外,QWOP的开发者Bennett Foddy一直在坚持开发这类“变态”难度的独立小游戏 。
文章图片
有一款Getting Over It with Bennett Foddy名气颇高,中文名“掘地求升” 。玩法就是一个装在坛子里的人不停用锤子让自己升高 。
文章图片
Foddy曾经在普林斯顿大学和牛津大学担任博士后研究员,现在是一名独立游戏设计师 。QWOP就是他在普林斯顿大学时期开发的 。
我只能说,学霸开发的游戏,学渣真的玩不起 。
QWOP在线游戏地址:
http://www.foddy.net/Athletics.html
推荐阅读
- 交付 沉了!这艘刚交付的“新”船只跑了3次!船东将遭起诉和高额索赔
- 理论 黑洞是什么,它又是怎样形成的,一起来认识下吧
- 速度 宇宙中比光速更快的四种“速度”,你都知道几个
- 氢能冶金 碳中和正在进行时,炼铁氢还原替代碳还原的新时代已至!
- 约瑟夫·拜登 非要跟中国较量?美国疯狂印钞6万亿,结果搬起石头砸自己的脚
- 初入职场的我们 《初入职场的我们》郑茹心为什么会离开?
- 这就是街舞3 娱乐圈中的团宠,张艺兴凭借偶像特质,征服全网观众,获赞无数
- b《心动的信号4》官宣阵容,baby加盟,郭麒麟、宋祖儿惊喜现身
- 向往的生活5 李诞拥抱张艺兴,后者一脸地抗拒,但张艺兴和杨紫却可以亲密互动
- 心动的信号4 嘉宾阵容大洗牌!baby、宋祖儿加盟,张翰、杨超越退出
