Google 谷歌气球的人工智能为何令开发者自己感到惊奇?( 二 )


【Google|谷歌气球的人工智能为何令开发者自己感到惊奇?】不断带给我们惊奇
人工智能让我们感到惊奇的方式之一,是它们能够使用相同的基本系统来解决根本不同的问题 。最近,一款机器学习工具就被要求执行一项非常不同的功能:下国际象棋 。
该系统被称为“GPT-2”,由非营利的人工智能研究组织OpenAI开发 。GPT-2利用数以百万计的在线新闻文章和网页信息进行训练,可以根据句子中前面的单词预测下一个单词 。开发者肖恩·普莱瑟认为,国际象棋的走法可以用字母和数字的组合来表示,因此如果根据国际象棋比赛的记录来训练算法,这一工具就可以通过计算理想的走法序列来学习如何下棋 。
普莱瑟对GPT-2系统进行了240万场国际象棋比赛的训练 。“看到象棋引擎变成现实真是太酷了,”他说,“我当时根本不确定这能不能行得通 。”但GPT-2做到了 。尽管它的水平还比不上专门设计的国际象棋计算机,但已经能够成功地完成艰苦的比赛 。
普莱瑟表示,他的实验表明GPT-2系统具有许多尚待探索的能力,堪称一个具有国际象棋天赋的专家 。该软件后来的一个版本让网页设计人员大为震惊,当时,一位开发人员对其进行了简单的训练,让它写出用于在网页上显示项目(如文本和按钮)的代码 。尽管只有一些简单的描述,如“表示‘我爱你’的红色文本和带有‘ok’的按钮”,但这个人工智能依然生成了适当的代码 。很显然,它已经掌握了网页设计的基本要领,但所受的训练却少得惊人 。
长期以来,人工智能给人们留下的深刻印象主要来自电子游戏领域 。在人工智能研究界,有无数例子揭示了算法在虚拟环境中所做到的事情有多么令人惊讶 。研究者经常在诸如电子游戏等空间中对算法进行测试和磨练,以了解它们到底有多强大 。
2019年,OpenAI因为一段视频登上了新闻头条 。视频中,一个由机器学习控制的角色正在玩捉迷藏游戏 。令研究人员惊讶的是,游戏中的“寻找者”最终发现,它们可以跳到物品上方进行“冲浪”,从而进入“躲藏者”所在的围栏 。换言之,“寻找者”学会了为了自己的利益而改变游戏规则 。
反复试错的策略会带来各种有趣的行为,但并不总能带来成功 。两年前,DeepMind的研究员维多利亚·克拉科夫娜邀请她博客的读者分享人工智能解决棘手问题的故事,但要求解决问题的方式是不可预测或不可接受的 。
她整理出了一长串很吸引人的例子 。其中有一个游戏算法,在第1关结束时学会了自杀,以避免在第2关死亡,这就实现了在第2个关卡中不死的目标,只不过采用了一种特别令人印象深刻的方式 。另一个算法发现,它可以在游戏中跳下悬崖,并将对手带向毁灭;通过这种方式,人工智能得到了足够的点数以获得额外的生命,从而在无限循环中不断重复这种自杀策略 。
纽约大学坦登工程学院的电子游戏人工智能研究者朱利安·托格里乌斯试图解释这其中发生的一切 。他表示,这些都是“奖励分配”错误的典型例子 。当人工智能被要求完成某件事时,它可能会找到一些奇怪的、出乎意料的方法来实现目标,并最终证明这些方法是正确的 。人类很少采取这样的策略,指导我们如何游戏的方法和规则十分重要 。
托格里乌斯及其同事发现,当人工智能系统在特殊条件下接受测试时,这种目标导向的偏见会暴露出来 。在最近的实验中,他的团队发现,被要求在银行进行投资的游戏人工智能角色会跑到虚拟银行大厅附近的一个角落,等待获得投资回报 。托格里乌斯指出,这个算法已经学会了将跑到拐角处与获得金钱回报联系起来,尽管这种运动与得到多少回报之间并没有实际的关系 。
托格里乌斯表示,这有点像人工智能在发展迷信,在得到了某种奖励或惩罚之后,它们开始思考为什么会得到这些 。
这是“强化学习”的陷阱之一 。所谓“强化学习”,是指人工智能最终会根据它在环境中遇到的情况设计出判断错误的策略 。人工智能不知道自己为什么会成功,它只能将自己的行动建立习得联想的基础上 。这有点像人类文化早期阶段时,将祈祷仪式与天气变化联系起来的行为 。
一个有趣的例子是,鸽子也会出现这样的行为 。1948年,一位美国心理学家发表了一篇论文,描述了一个不寻常的实验:他将鸽子放在围栏里,间歇性地给予食物奖励 。这些鸽子开始将食物与它们当时正在做的事情联系起来,有时是拍打翅膀,有时是舞蹈般的动作 。然后,它们会重复这些行为,似乎期待着奖励会随之而来 。

推荐阅读