机器之心报道
机器之心编辑部
2021 年伊始 , 百度在自然语言处理领域取得最新突破 , 发布多语言预训练模型 ERNIE-M 。 ERNIE-M 通过对 96 门语言的学习 , 使得一个模型能同时理解 96 种语言 , 该项技术在 5 类典型跨语言理解任务上刷新世界最好效果 。 在权威跨语言理解榜单 XTREME 上 , ERNIE-M 也登顶榜首 , 超越微软、谷歌、Facebook 等机构提出的模型 。 据了解 , 基于飞桨实现的 ERNIE-M 模型也会于近期开源 。
文章图片
论文链接: https://arxiv.org/pdf/2012.15674.pdf
文心平台: https://wenxin.baidu.com/
开源地址: https://github.com/PaddlePaddle/ERNIE
跨语言理解
随着人工智能技术的不断发展 , 搜索引擎、智能客服、智能音箱等人工智能系统不断给人们带来更好的体验 。 然而 , 这些系统的构建往往依赖于大量的标注数据 , 而许多系统使用单一语言训练 , 并不能直接应用于其他语言 , 这对于机器理解标注语料稀少的小语种(比如布列塔尼语、冰岛语)来说无疑是一个巨大的挑战 。 如何构建统一的语言模型 , 理解多种语言 , 是近年来自然语言处理领域研究的热点 。
多语言模型对于小语种这种低资源语言的理解十分有帮助 。 以情感分析系统为例 , 构建情感分析系统往往需要大量有标签数据 , 而小语种语言中的有标签数据十分稀缺 , 因而搭建小语种语言的情感分析系统十分困难 。 依托多语言模型的跨语言迁移能力可以解决该问题 , 在高资源语言标注数据上训练的模型直接对小语种语言进行理解 , 搭建小语种语言的情感分析系统 。
【语料|同时掌握96门语言,取得多项世界突破,百度发布预训练模型ERNIE-M】
文章图片
XTREME 评测是谷歌研究院、DeepMind 和卡耐基梅隆大学于 2020 年 4 月发布的涵盖了 12 个语系 40 种语言的多语言权威评测榜单 。 其包括文本分类、结构化预测、语义检索和阅读理解等四类自然语言处理任务的 9 个数据集 , 自发布以来便引起了纽约大学、谷歌、微软等顶尖国际学术机构和科技公司激烈角逐 。
2021 年 1 月 1 日 , ERNIE-M 在以 80.9 分的成绩登顶榜首 , 刷新了该榜单记录 。
ERNIE-M 背景
当前的技术主要通过单语语料分别学习不同语言的语义 , 再使用双语语料将不同语言的语义对齐 。 然而大部分语种的双语语料十分稀疏 , 限制了多语言模型的效果 。 为了突破双语语料规模对多语言模型的学习效果限制 , 提升跨语言理解的效果 , 百度研究人员提出基于回译机制 , 从单语语料中学习语言间的语义对齐关系的预训练模型 ERNIE-M , 显著提升包括跨语言自然语言推断、语义检索、语义相似度、命名实体识别、阅读理解在内的 5 种典型跨语言理解任务效果 , 并登顶权威跨语言理解评测 XTREME 榜首 。
ERNIE-M 原理
ERNIE-M 基于飞桨 PaddlePaddle 框架训练 , 该模型构建了大小为 25 万的多语言词表 , 涵盖了 96 种语言的大多数常见词汇 , 训练语料包含了汉语、英语、法语、南非语、阿尔巴尼亚语、阿姆哈拉语、梵语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语等 96 种语言 , 约 1.5 万亿字符 。 ERNIE-M 的学习过程由两阶段组成 。 第一阶段从少量的双语语料中学习跨语言理解能力 , 使模型学到初步的语言对齐关系;第二阶段使用回译的思想 , 通过大量的单语语料学习 , 增强模型的跨语言理解能力 。
文章图片
在第一阶段的学习中 , ERNIE-M 提出了 Cross-attention Masked Language Modeling (CAMLM) 预训练算法 。 该算法在少量双语语料上捕捉语言间的对齐信息 。 在 CAMLM 中 , 将一对双语句子记为 <源句子 , 目标句子> 。 CAMLM 需要在不利用源句子上下文的情况下 , 通过目标句子还原被掩盖的词语 。 例如:输入的句子对是 <明天会 [MASK][MASK] 吗 , Will it be sunny tomorrow> , 模型需要只使用英文句子 <Will it be sunny tomorrow> 来推断中文句子中掩盖住的词 <天晴> , 使模型初步建模了语言间的对齐关系 。
在此基础上 , ERNIE-M 又提出了 Back-translation Masked Language Modeling (BTMLM) 预训练算法 。 该方法基于回译机制从单语语料中学习语言间的对齐关系 。 首先 , 通过第一阶段学习到的 CAMLM 模型生成伪平行句子 , 然后让模型学习生成的伪平行句子 。 模型在还原被掩盖的单词时 , 不仅可以依赖原始输入句子 , 也可以依赖生成的伪平行句子 。 例如 , 输入的单语句子是 <我真的很喜欢吃苹果> , 模型首先会依据输入的句子 <我真的很喜欢吃苹果> 生成伪双语平行句子 <我真的很喜欢吃苹果 , eat apples> 。 然后再对生成的伪平行句子 <我真的很喜欢吃[MASK][MASK] , eat apples > 学习 。 通过这种方式 , ERNIE-M 利用单语语料更好地建模语义对齐关系 。
实验效果
ERNIE-M 在跨语言自然语言推断、阅读理解、命名实体识别、语义相似度、跨语言检索等 5 个公开数据集上进行了实验 , 均取得了最优效果 。 百度研究人员通过两种方式评测了 ERNIE-M 的效果 。
1)Cross-lingual Transfer:该方式将英文训练的模型直接在其他语言上测试 , 验证模型的跨语言理解能力 。 例如 , 让模型理解 “这家餐厅环境不错” 是正向情感 , 模型需要判断 “I am very happy.” 也是正向的情感 。 在实际应用中 , 如果缺乏某种语言的标注数据 , 该技术可以通过其他语言的标注数据对多语言模型训练解决该问题 , 降低小语种系统的构建难度 。
2)Multi-language Fine-tuning:该方式使用所有语言的标注数据对模型进行多任务训练 , 验证在有本语言标注数据的情况下 , 模型能否利用其他语言的数据 , 进一步增强该语言的理解效果 。
跨语言检索
跨语言检索任务是在双语语料库中检索语义相同的句子 , 如下图所示 , ERNIE-M 可使得用户只用某一种语言 , 例如汉语 , 便可检索到其他语言的结果 , 如英语、法语、德语等结果 。 该技术使信息跨越不同语言之间的鸿沟 , 帮助全球的网民搜索到更多有价值的信息 。 ERNIE-M 在跨语言检索数据集 Tatoeba 上取得了准确率 87.9% 的效果 。
文章图片
自然语言推断
自然语言推断是自然语言理解中的一项重要的基准任务 , 该任务的目标是判断两句话之间的逻辑关系 。 多语言数据集 XNLI 数据集包含 15 种语言 , 既有英语、法语等常见语言也有斯瓦希里语等小语种语言 。
文章图片
ERNIE-M 在 Cross-lingual Transfer 和 Multi-language Fine-tuning 两种模式下验证了效果 , 研究者用英语对 ERNIE-M 进行微调训练 , 在汉语、德语、乌尔都语等语言上测试 , 能达到平均准确率 82.0% 的效果 。 如果使用所有语言的训练语料 , 准确率可以进一步提升到 84.2% 。
文章图片
阅读理解
阅读理解任务的目标是根据文章回答指定问题 。 为了评测 ERNIE-M 在阅读理解任务上的效果 , ERNIE-M 在 Facebook 提出的 MLQA 多语言阅读理解数据集上进行了评测 。 在该任务中 , 模型需要先在英语上进行训练 , 再在其他语言的数据集上评测 。 此项任务可以评估模型在跨语言问答任务的效果 , 帮助跨语言问答系统的搭建 。 该任务如下图所示 , ERNIE-M 在仅使用英语训练的情况下 , 不同语言的问题中有 55.3% 可以完全回答正确 。
文章图片
命名实体识别
命名实体识别任务的目标是识别出文章中的人名、地名、时间、机构等信息 。 其可以帮助人们快速地从大量文章中提取出有价值的信息 。 如下图所示 , 使用多语言模型可以帮助我们在小语种文章上做信息抽取 。 ERNIE-M 在 CoNLL 数据集上进行评测 , 同时在 Cross-lingual Transfer 和 Multi-language Fine-tuning 两种模式下验证了效果 。 研究者用英语对 ERNIE-M 进行微调训练 , 在荷兰语、西班牙语和德语上进行了测试 , 平均 F1 能达到 81.6% , 如果使用所有语言的训练语料 , 平均 F1 可进一步提升至 90.8% 。
文章图片
结语
打破不同语言之间的隔阂 , 实现机器跨语言理解是人工智能领域攻坚的重要难题 。 此次 , 百度的多语言预训练模型 ERNIE-M 首次提出从单语语料中学习语义对齐关系的预训练算法 , 打破了双语语料大小对多语言模型的效果限制 , 为跨语言的语义理解研究提供了新的思路 。 ERNIE-M 技术具有广泛的应用前景 , 该技术可将基于汉语研发的人工智能系统 , 拓展到我国其他民族的语言理解上 , 帮助我们更好地分析各民族语言 。 此外 , ERNIE-M 技术也可辅助语言学家和考古学家去理解已经濒危或失传的语言 , 更好地保护我们的民族文化 。
在刚刚结束的 Wave Summit + 2020 峰会上 , 百度文心语义理解技术平台(https://wenxin.baidu.com/)又推出了文心 NLP 开发套件 , 其基于业界领先的语义理解技术 , 对外提供更加灵活的 NLP 定制与服务能力 , 面向开发者和企业进行开放赋能 。 目前 , 文心平台已广泛应用于金融、通信、教育、互联网等各行各业 , 助力产业智能化发展 。
推荐阅读
- 下架|APK Installer 和 WSATools 同时躺枪:冒牌应用登陆微软应用商店
- 部落|excel固定显示行列视频:应用冻结窗格同时固定标题行和列
- 颜色|小米 12 旗舰手机正式亮相:小尺寸高端旗舰,可单手轻松掌握
- 手机|微信文件传输助手网页版上线:可与移动、PC端同时在线
- 夏宾|西安大三男生建校内疫情互助文档 :1200人同时访问,更新100多个版本
- 移动|芒果 TV 宣布调整会员价格,同时升级演唱会优先参与等线下特权
- 变化|可掌握格点人为和自然碳通量变化,碳监测核查支持系统来了!
- 数据|陈昌凤:应在善用算法的同时警惕数据主义
- 模型|2019年新手小白快速掌握cura软件【Additions】秘籍
- 核能|我国成为世界少数几个掌握第四代核能技术的国家之一