模式|考那么多试,拿那么高分,大模型们真的懂语言了吗?( 三 )
然后 , 研究人员通过用相对简单的 AI 方法测试每个句子 , 将太容易解决的句子丢弃 , 以消除可能允许统计相关性捷径的句子 。 与研究人员预期的一样 , 与原始的 Winograd 模式相比 , 剩余的句子对机器提出了更困难的挑战 , 在 Winograd 模式上与人类表现相当的神经网络语言模型在 WinoGrande 集合上得分要低得多 。
然而 , 另一个惊喜很快接踵而至 。 在 WinoGrande 集合问世之后的两年里 , 神经网络语言模型变得越来越大 。 而且 , 模型越大 , 它们在这项新挑战上的得分似乎就越高 。 在本文撰写之时 , 当前最好的模型(在几 TB 的数据和数千个 WinoGrande 实例上训练)已经达到了接近 90% 的准确率(人类是 94%) 。 这种性能的增益几乎全部来自于神经网络语言模型规模的增大和训练数据体量的增加 。
这些大模型真的获得了像人类一样的常识理解能力吗?看起来并没有 。 WinoGrande 反映出的结果有几点需要注意 。 例如 , 由于那些句子依赖于 Amazon Mechanical Turk 平台上的兼职人员 , 句子的质量和流畅度是非常不均衡的 。 同时 , 用来剔除「non-Google-proof」句子的 AI 方法可能过于简单 , 无法发现一个庞大的神经网络可能使用的所有统计捷径 。 而且 , 该方法只适用于单个的句子 , 很多句子最后都会失去自己的「双胞胎」兄弟姐妹 。 一项后续研究表明 , 神经网络语言模型只在两个「双胞」句子上进行测试 , 而且两个测试都要正确 , 它们比人类的准确率要低得多 , 这表明早前 90% 的结果没那么重要 。
那么 , 从 Winograd 的失败中我们能得出什么教训呢?那就是:我们通常很难根据 AI 系统在某项特定挑战中的表现来判断它们是否真的理解了自己所处理的语言 。 我们知道 , 神经网络经常会使用统计方面的捷径来获取高分 , 而不是真正像人类一样去理解 。
在我看来 , 问题的关键在于 , 理解语言就需要理解世界 , 而只接触语言的机器就无法获取这种理解能力 。 举个例子 , 「跑车超过了邮车 , 因为它开得慢一些」 , 理解这句话需要什么前提?首先 , 你要知道跑车和邮车分别是什么、车是可以互相「超过」的 , 甚至你还要知道更基本的常识:交通工具是存在于这个世界并与之交互的对象 , 由人类根据自己的行程驱动 。
以上这些都是我们人类认为理所当然的知识 , 但这些知识并没有内嵌在机器中 , 也不可能被明确地写在任何语言模型的训练文本中 。 一些认知科学家认为 , 在学习和理解语言方面 , 人类依赖于先天的、前语言的关于时空以及世界上其他基本属性的核心知识 。 如果我们想让机器像人类一样掌握语言 , 我们首先需要赋予它们人类与生俱来的原始原则(primordial principle) 。 要评估机器的理解能力 , 我们应该首先评估它们对上述原则的掌握程度 , 有人将其称为「婴儿形而上学(infant metaphysics)」 。
推荐阅读
- 生物|两项国家标准发布实施 为畜禽生物育种提供技术参考
- ARM|英国监管机构考虑阻止并购交易 英伟达联手Arm反击
- 创事记|游戏行业现最大收购案,Take-Two收购Zynga有何考量?
- CRISPR-Cas|“基因剪刀”治疗人类疾病现曙光!一文看懂治疗模式与新进展
- 模式|华为拍摄月亮专利获授权:可自动识别月亮并对焦
- IT|或考虑进军电动自行车领域:Rivian申请相关商标
- IT|劳动力短缺 英国考虑将隔离期缩至五天
- Tesla|特斯拉全自动驾驶分多种模式:“刺激一把”还有“慢慢开”
- 提前布局|6G为何要跑那么快
- 刘作虎|刘作虎:用户终于真正开始接受、考虑使用折叠屏