资源|Facebook开源M2M-100模型: 轻松翻译上百种语言

From: Venture Beat;编译:Shelly
不管是在翻译圈 , 还是在日常生活中 , “机器翻译”已经成了越来越常见的字眼 。 那么 , 现如今的机器翻译已经发展到了什么水平?除了通用语种互译 , 机器翻译究竟能实现多少种语言的互译?它的上限在哪里?
一起来看看Facebook新推出的M2M-100 多语种机翻模型吧!本文将告诉你M2M-100 模型的优势、原理、现存的局限性 , Facebook 科研人员为此所作的努力 , 以及有关该模型的客观的评价 。
Facebook于10月19日开放了 M2M-100模型的源代码 (Github) , 并声称这是首个不以英语为中介就能实现100多对语言互译的算法 。M2M-100机器学习模型经过了2000多对语言翻译的训练 , 在机翻常用评估标准下 , 其翻译质量明显优于其他以英语为中介的模型 。

资源|Facebook开源M2M-100模型: 轻松翻译上百种语言
文章图片

多语种机翻的终极目标就是研发出一款可以任意翻译全世界 7000多种语言的模型 。多语种机翻可以实现相似语言的信息共享 , 在低资源语对、零数据翻译等领域具有显著优势 。
另辟蹊径的训练数据集:
包含100种语言的75亿个句子
模型尺寸越大 , 要建立起相应的数据集也就越繁琐、越困难 。 因此 , 一些科研人员以英语数据集为中介 , 并依赖特定技术实现其他语种的互译 。 比如说 , 要实现100种语言互译 , 就需要包含1000亿个句对的数据集 。
但是通过这种方法建立的模型存在局限性:由于无法体现人们的翻译使用习惯 , 它在非英语互译中的表现往往不尽如人意 。

资源|Facebook开源M2M-100模型: 轻松翻译上百种语言
文章图片

相比之下 , Facebook的M2M-100模型另辟蹊径 , 它在 包含了100种语言的75亿个句子的数据集中进行训练 。
为了构建该模型 , 在语言的选取上 , Facebook的科研人员主要确定了三条标准:

  • 首先 , 他们选取分布在不同地域、隶属于不同语系且被广泛使用的语言;
  • 然后 , 他们进一步缩小选择范围 , 只保留了那些有测评数据库的语言 , 以便评估翻译质量;
  • 最后 , 他们舍去了那些没有可用单语数据库的语言 。
M2M-100的基础是XLM-R模型 。 XLM-R模型是Facebook研发的一款多语种模型 , 它可以学习单语数据库 , 并能用100种语言完成任务 。
拓展互译语种的创意:
与反向翻译
安吉拉·法恩(Angela Fan)是Facebook巴黎AI研究中心的一位数据科学家 , 他在博客里写道:“多年来 , AI研究人员一直致力于研发出统一通用的模型 , 它能在不同的任务中理解所有语言 , 包括各种方言 。 这样的模型将能够为更多的人提供优质服务 , 保持翻译最新 , 并且为数十亿人带来全新体验 。 ”
Facebook科研人员避免使用那些很少进行互译的语对 , 比如冰岛语与尼泊尔语、僧伽罗语与爪哇语 , 并且采取“桥梁挖掘” (bridge mining) 策略 , 基于分类、地理位置和文化相似性将世界语言分为14个语族 。 同一语族的国家中 , 人们的交流会更加频繁 , 对翻译的要求也更高 。 比如说 , 一个印度家庭可能会使用同族的多种语言 , 如孟加拉语、印度语、马拉地语、尼泊尔语、泰米尔语和乌尔都语 。
为了联系不同语族的语言 , Facebook科研人员找出每个语族里最重要的一到三种语言 , 将它们确定为 “桥梁语言” 。例如 , 印度语、孟加拉语和泰米尔语就被确定为印度-雅利安语族中的桥梁语言 。 然后 , 他们从这些桥梁语言的可能组合中挖掘训练数据 , 得到了前文提到的75 亿个句子 。
对于低资源语种 , Facebook采用 反向翻译的方法对数据集进行补充 。反向翻译方法是指在训练已有单语模型的基础上 , 将其翻译为另一语种的对称反向翻译数据库 。 在M2M-100模型的开发过程中 , Facebook为已挖掘的语言添加了合成数据 , 为先前未出现过的语对创建了新数据 。
M2M-100模型使用的开源框架是Fairscale , 用于训练大型模型 。 训练过程中 , 该模型被分割为数百个源数据相同的显示卡 , 因此 , 每个显示卡训练的是一部分模型 , 而非一部分数据 。
为了确保M2M-100模型的性能发挥不受影响 , Facebook科研人员将其参数分为互不重叠的语族 。 这些策略的组合使M2M-100模型的性能提升了100倍 , 并使其能够提供更准确的语言翻译 。
Facebook称 , 在参数值为154亿时 , M2M-100模型的高资源语对翻译质量提升显著 , 毕竟高资源语言在模型训练上有着最多的资源 。

资源|Facebook开源M2M-100模型: 轻松翻译上百种语言
文章图片

正如安吉拉所写:“我们将模型规模与特定语言参数结合起来 , 也就是把大型模型的优势和学习特定语言的能力结合起来 。 ”
局限与提升空间:
低资源语对与偏见观点的困境
M2M-100模型的翻译质量由 母语人士来进行评估 , 且不包括英语母语者。 这些评估人士对翻译成品的忠实度打分较高 , 但是也指出该模型在俚语翻译方面不尽如人意 。 此外 , M2M-100模型还会出一些语法错误 , 包括逗号缺失 , 这些可能会导致读者误解原文 。

资源|Facebook开源M2M-100模型: 轻松翻译上百种语言
文章图片


资源|Facebook开源M2M-100模型: 轻松翻译上百种语言
文章图片

Facebook科研人员在一篇论文中承认了该模型目前的不足:“要达到令人满意的翻译质量 , M2M-100模型还有很大的提升空间 。 对于一些不常见的语种 , 包括非洲的科萨语、祖鲁语 , 欧洲的加泰罗尼亚语、布列塔尼语 , 亚洲的伊洛干诺语、宿雾语等等 , 这些语言在互联网上的语料都十分稀缺 , 导致训练数据数量和质量的不足 。 ”
事实上 , 大量实例已经表明 , 语言模型会放大其训练所用数据库里的偏见观点 , 导致一些不良后果 。 麻省理工、英特尔以及加拿大高等研究院的AI研究人员发现很多现有翻译模型的译文里都包含着大量偏见 。
艾伦AI研究所的科研人员指出 , 现有的机器学习技术都没办法避免这一缺陷 , 人们急需更好的训练模式和模型建构 。 除此之外 , 谷歌也发现其机器翻译模型会产生性别偏见(尽管他们声称这一问题已经解决了) , 特别是那些低资源语种 , 比如土耳其语、芬兰语、波斯语和匈牙利语等等 。
针对这一问题 , M2M-100模型是怎样应对的呢?安吉拉说道:“模型目前仍处于测试阶段 , 在这个研究阶段 , 我们想测试模型的局限性 。 对于那些错误、有害的译文 , 我们尝试过使用侮辱性语言过滤器 , 但是至少现在看来效果并不好……我们现在仍然处于试验阶段 , 这也是该模型还没有正式投入使用的原因 。 ”
安吉拉还强调 , 在当前阶段 , 虽然研究团队还没有采取特别措施来应对性别歧视语言 , 但它在探究M2M-100模型的常见错误类型 。 她说:“我们不仅要关注机器翻译辅助评估工具 (BLEU) 打出的分数 , 更要听取母语者的评价 。 根据模型的当前表现 , 综合而言 , M2M-100模型在大部分语种翻译中都表现优异 , 但是在部分低资源语种的翻译上仍有提升空间 , 比如沃洛夫语、马拉地语 。 ”
re:
【资源|Facebook开源M2M-100模型: 轻松翻译上百种语言】https://venturebeat.com/2020/10/19/facebooks-open-source-m2m-100-model-can-translate-between-100-different-languages/

    推荐阅读