模式|考那么多试,拿那么高分,大模型们真的懂语言了吗?
选自quantamagazine
作者:Melanie Mitchell
机器之心编译
编辑:小舟、张倩
关于 GPT-3 等大规模语言模型能否理解人类语言 , 人们一直存在分歧 。十年前 , IBM 的 Watson 获得了答题节目《Jeopardy!》的冠军 , 当时 IBM 宣称:「Watson 能够理解自然语言的所有歧义和复杂性 。 」然而 , 正如我们所看到的 , Watson 随后在试图「用人工智能彻底改变医学」的过程中失败了 , 智能体所具备的语言能力与实际理解人类语言并不能完全划等号 。
自然语言理解一直是人工智能研究的主要目标之一 。 起初 , 研究人员试图手动编程 , 让机器理解新闻故事、小说或人类可能创作的任何其他内容 。 结果就像 Watson 一样 , 这种方法是徒劳的 , 人们不可能归纳出理解文本所需的所有事实、规则和假设 。
近年来一种 AI 领域建立起一种新的范式:我们不建立显性知识 , 而是让机器学习自己理解语言——摄取大量书面文本并学习预测单词 。 这种新范式现在被称作语言模型 , GPT-3 等基于大型神经网络的模型可以生成令人难以置信的人类散文和诗歌 , 并且能够执行复杂的语言推理 。
但是 GPT-3 这样在大量网络文本上训练的模型真的超越了 Watson 吗?它真的理解它生成的语言和推理吗?这是 AI 研究界存在明显分歧的话题 。
此类讨论曾经是哲学的范畴 , 但在过去十年中 , 人工智能已经从学术泡沫中迸发出来 , 进入了现实世界 , 它们对现实世界缺乏了解可能会产生非常严重的后果 。 一项研究发现 IBM 的 Watson 曾提出了「不安全和不正确的治疗建议」 。 另一项研究表明:谷歌的机器翻译系统在为非英语患者翻译医疗说明时出现了重大错误 。
那么我们如何确定机器是否可以理解现实?1950 年 , 计算机科学先驱艾伦 · 图灵试图用「图灵测试」来回答这个问题 。 然而 , 图灵低估了人类被机器愚弄的可能 。 早在上世纪 60 年代 , Joseph Weizenbaum 就构建了一个简单的聊天机器人 Eliza , 试图通过解释句子让 Eliza 模仿心理治疗师讲话 。 结果发现 Eliza 会让人们相信他们正在与理解自己的人交谈 , 即使他们知道和自己对话的是一台机器 。
在 2012 年的一篇论文中 , 计算机科学家 Hector Levesque、Ernest Davis 和 Leora Morgenstern 提出了一个更客观的测试——Winograd 模式挑战 。 这种测试方法已被 AI 语言社区采用 , 是当前评估机器理解的最佳方式之一 。
Winograd 模式挑战中包含一对句子 , 两个句子仅相差一个词 , 每个句子后面跟一个问题 , 例如:
Sentence 1: I poured water from the bottle into the cup until it was full.推荐阅读
- 生物|两项国家标准发布实施 为畜禽生物育种提供技术参考
- ARM|英国监管机构考虑阻止并购交易 英伟达联手Arm反击
- 创事记|游戏行业现最大收购案,Take-Two收购Zynga有何考量?
- CRISPR-Cas|“基因剪刀”治疗人类疾病现曙光!一文看懂治疗模式与新进展
- 模式|华为拍摄月亮专利获授权:可自动识别月亮并对焦
- IT|或考虑进军电动自行车领域:Rivian申请相关商标
- IT|劳动力短缺 英国考虑将隔离期缩至五天
- Tesla|特斯拉全自动驾驶分多种模式:“刺激一把”还有“慢慢开”
- 提前布局|6G为何要跑那么快
- 刘作虎|刘作虎:用户终于真正开始接受、考虑使用折叠屏