Google 深度学习如何处理人类语言?探究谷歌多语言模型背后的奥秘( 二 )


Futrell 说:“了解这些模型的工作原理,即它们学到了什么信息以及如何使用这些信息,不仅在科学上很有趣,而且也对于我们想要开发可以使用和信任的 AI 系统至关重要 。如果我们不知道语言模型知道什么,那么我们就不能相信它会做正确的事 。也就是说,我们不相信它的翻译是正确的或者它的总结是准确的,我们也不能相信它没有学到种族或性别偏见等不良信息 。”
由于 mBERT 模型通常是在人类编译的数据集中进行训练的,因此它们可能会发现一些人类在处理与语言相关的问题时常犯的一些错误 。这项由多学科团队进行的研究可能有助于发现 AI 工具在分析语言时所犯的一些错误和其他错误 。
识别不同语言的主语和宾语
为了更加深入地理解 mBERT 模型,研究人员着手研究 mBERT 模型如何代表不同语言中主语和宾语之间的差异 。
Mahowald 说:“当在 mBERT 中输入一个句子时,每个单词都会得到一个矢量表示 。我们建立了一个新模型,这个模型比 mBERT 要小得多,然后我们问:如果我们从 mBERT 得到一个单词矢量,这个模型能告诉我们它是一个主语还是宾语吗?也就是说,该模型能否告诉我们,‘狗’这个字用法是不是句子的主语,就像‘狗追猫’中那样,或句子的宾语,如‘猫追狗’ 。”
人们可能会假设所有语言都描述了主语和宾语的关系,并且它们以相似的方式表示 。但是,在不同的语言中,主语和宾语的构成实际上存在巨大的差异 。
该论文的作者之一、斯坦福大学计算机科学专业的研究生 Isabel Papadimitriou 和她的同事们试图利用这些差异来更好地理解 mBERT 模型是如何处理句子 。
Papadimitriou 说:“如果人们使用英语,那么‘狗追猫’中的‘狗’字似乎与‘狗跑了’中的‘狗’字扮演相同的成分 。在第一种情况下,动词有宾语‘猫’,在第二种情况下,它没有宾语 。但在两种情况下,‘狗’是主语、主体、行为者,而在第一句中,‘猫’是宾语,是正在做的事情 。但是,并非所有语言都如此 。”
Google 深度学习如何处理人类语言?探究谷歌多语言模型背后的奥秘
文章图片

图 | 研究过程说明 (图源:arXiv)
英语和欧洲人所说的大多数语言,都有一种被称为主格对齐的结构,这种结构清楚地描述了句子中的主语和宾语 。
但是,包括巴斯克语,北印度语和格鲁吉亚语在内的语言,使用的是一种代名词对齐 。在代名词对齐中,在没有宾语的句子中,主语在某种意义上被视为宾语,因为它遵循用于宾语的语法结构 。例如,句子 “狗在奔跑” 中的 “狗” 字某种程度上即是主语也是宾语 。
Papadimitriou 说:“我们工作的主要目标是测试 mBERT 是否理解这种对齐、代名词或主语的概念 。换句话说,我们问:mBERT 能否深入理解动词的主语和宾语是什么构成的,以及不同的语言如何将空间分割成主语和宾语?事实证明,同时接受大约 100 种语言培训的 mBERT 会以有趣的语言方式意识到这些区别 。”
机器可以理解人类语言
这些发现为 mBERT 模型以及其他用于语言分析的计算模型如何表示语法信息提供了新的有趣见解 。有趣的是,研究人员研究的基于 mBERT 向量表示的检验模型也发现会产生一致的错误,这些错误可能与处理语言的人类所犯的错误一致 。
Papadimitriou 说:“在不同的语言中,当一个主语是一个无生命的名词时,我们的模型更有可能错误地将该主体称为主语,这意味着该名词不是人类或动物 。这是因为句子中的大多数行为者往往是有生命的名词:人类或动物 。实际上,一些语言学家认为主观性实际上是一个范围 。与人类相比,作为人类的受试者比作为动物的受试者更‘主观’,作为动物的受试者比既不是人类也不是动物的受试者更‘主观’,这正是我们在 mBERT 模型中发现的 。”
总体而言,研究表明 mBERT 模型可以识别句子中的主语和宾语,并以与现有语言学文献一致的方式表示两者之间的关系 。
在未来,这一重要发现可以帮助计算机科学家更好地理解深度学习技术是如何处理人类语言的,从而帮助他们进一步提高性能 。
Mahowald 表示:“我们现在希望继续探索语言的深层神经模型,在它们的连续向量空间中表示语言类别(如主语和宾语)的方式 。具体来说,我们认为语言学的工作可以告诉我们如何看待这些模型以及它们在做什么,语言学的工作试图将主语和宾语等角色描述为一组特征,而不是离散的类别 。”

推荐阅读