Google 深度学习如何处理人类语言?探究谷歌多语言模型背后的奥秘
具有语言能力的深度学习系统已经广泛应用于人们的生活当中 。其中一些系统使用了 Google 发布的特定深度学习模型 —— 多语言 BERT(Multilingual BERT,简称 mBERT) 。mBERT 模型可以同时接受大约 100 种语言的训练,这种多语言的训练使模型可以完成各种语言任务,例如,将文本内容从一种语言翻译成另一种语言 。
虽然已经发现 mBERT 模型在许多语言任务中表现良好,但是
人们对 mBERT 模型 “如何创建文本并如何做出预测” 的相关信息并不清楚 。
为此,来自斯坦福大学、加州大学欧文分校和加州大学圣巴巴拉分校的研究人员联合开展了一项新的研究,研究目的是为了更好地理解基于 mBERT 模型的技术是如何运行的,以及它是如何创建语法特征的 。
相关研究结果以 “Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT” 为题,已发表在论文预印本网站 arXiv 上 。该论文为这些常用模型的基础以及它们在完成各种任务时如何分析语言提供了宝贵的线索 。
文章图片
(来源:arXiv)
【Google|深度学习如何处理人类语言?探究谷歌多语言模型背后的奥秘】神秘莫测的 mBERT 模型
在过去的几十年中,研究人员开发了基于深度神经网络的模型,它们可以完成各种各样的任务 。其中一些技术专门设计用于处理和生成多种语言的连贯文本、翻译文本,并可以回答有关文本的问题,以及创建新闻文章或其他在线内容的摘要 。
比较典型的代表是 Siri、Alexa、Bixby、Google Assistant 和 Cortana 等应用程序,这些程序为实时翻译、分析文本提供了极大的便利 。
文章图片
图 | 多种多样的语音交互系统 (来源:Medium)
而这些应用程序大部分采用了 Google 发布的 mBERT 模型,用户可以使用多种语言(比如英语、西班牙语、法语、巴斯克语和印尼语等)与基于 mBERT 的系统进行交互 。
虽然像 mBERT 这样的模型非常强大,但是与经过预先训练的深度学习模型不同,它们实际上包含的信息并不明显,甚至对它们的创造者来说也是如此 。
这是由于这些模型是经过训练的,而不是经过编程得到的 。因此,探究 mBERT 模型的工作原理,成为了许多使用者关心的问题。理解 mBERT 模型如何对语言进行编码与尝试理解人类如何处理语言并没有太大不同 。
此次研究的主要目的是,确定 mBERT 矢量模型是否包含关于人类语言及其结构的一些更深层次的信息 。更具体地说,他们想确定这些模型,是否能够自动地揭示几十年来语言学研究已经确定的概括,这些概括信息对语言分析来讲是十分有用的 。
致力于理解 mBERT 模型
本质上,mBERT 模型将文本表示为一系列矢量,每个矢量包含数千个数字 。每个矢量都对应一个单词,而单词之间的关系则被编码为高维空间的几何关系 。
加州大学圣巴巴拉分校的语言学家、指导这项研究的高级研究员之一 Kyle Mahowald 表示:“由于这些模型在处理人类语言方面做得很好,因此我们知道这些数字向量一定代表了语言知识 。但是它们是如何编码这些信息的,这与人类大脑中知识的表达方式有什么相似之处?我们的工作是努力理解语言的深层神经模型表示和使用语言信息的方式的一部分 。”
加州大学欧文分校的语言科学家、该项目的另一位高级顾问 Richard Futrell 说:“这是研究计算语言学特别令人兴奋的时刻 。多年来,语言学家一直在谈论诸如‘语义空间(semantic space)’之类的概念,认为单词和短语的意义是某个空间中的点,但这都显得有点模糊和印象主义 。如今,这些理论已经变得非常精确:我们实际上有一个模型,其中一个单词的含义是空间中的某一个点,并且这个模型确实以一种暗示其理解某些人类语言的方式表现 。”
文章图片
(来源:Pixabay)
为了处理人类语言,在深入分析人类语言之后,mBERT 模型和其他基于深度学习的语言分析框架,实际上可能已经重新发现了语言学研究者在深入分析人类语言之后所设计的理论 。或者,它们可能基于全新的语言理论或规则进行预测 。
对此,Mahowald 和他的同事们希望进一步探索这两种可能性,因为理解这些计算技术如何对语言进行编码可能对计算机科学和语言学的研究具有重要的意义 。
推荐阅读
- Google Google人工智能伦理部门动荡不安 已引起外部监管机构关注
- Google Google拟加强Android用户隐私保护并与苹果抗衡
- Google 苹果联合创始人沃兹尼亚克在起诉YouTube的官司中败诉
- Google 前SiriusXM首席产品与技术官将带领谷歌地理产品团队
- Google 神秘卖家在eBay上销售Google Pixel Muskie原型机
- Google YouTube称其在过去12个月中向音乐行业支付了40亿美元的费用
- Google 比特币、以太币大热 Google解除三年前禁令:允许交易所、钱包做广告
- 交易 鸡蛋、甲醇空头流畅,空单学习跟进
- 日本关西深度游有哪些地点推荐
- Huawei 中国唯一、世界第三,深度解密鸿蒙系统的星辰大海