资源|Facebook开源M2M-100模型: 轻松翻译上百种语言_语言|安吉拉·法恩|语族|数据

From: Venture Beat；编译：Shelly
不管是在翻译圈，还是在日常生活中， “机器翻译”已经成了越来越常见的字眼。那么，现如今的机器翻译已经发展到了什么水平？除了通用语种互译，机器翻译究竟能实现多少种语言的互译？它的上限在哪里？
一起来看看Facebook新推出的M2M-100 多语种机翻模型吧！本文将告诉你M2M-100 模型的优势、原理、现存的局限性， Facebook 科研人员为此所作的努力，以及有关该模型的客观的评价。
Facebook于10月19日开放了 M2M-100模型的源代码 (Github) ，并声称这是首个不以英语为中介就能实现100多对语言互译的算法。M2M-100机器学习模型经过了2000多对语言翻译的训练，在机翻常用评估标准下，其翻译质量明显优于其他以英语为中介的模型。

文章图片

多语种机翻的终极目标就是研发出一款可以任意翻译全世界 7000多种语言的模型。多语种机翻可以实现相似语言的信息共享，在低资源语对、零数据翻译等领域具有显著优势。
另辟蹊径的训练数据集：
包含100种语言的75亿个句子
模型尺寸越大，要建立起相应的数据集也就越繁琐、越困难。因此，一些科研人员以英语数据集为中介，并依赖特定技术实现其他语种的互译。比如说，要实现100种语言互译，就需要包含1000亿个句对的数据集。
但是通过这种方法建立的模型存在局限性：由于无法体现人们的翻译使用习惯，它在非英语互译中的表现往往不尽如人意。

文章图片

相比之下， Facebook的M2M-100模型另辟蹊径，它在包含了100种语言的75亿个句子的数据集中进行训练。
为了构建该模型，在语言的选取上， Facebook的科研人员主要确定了三条标准：

首先，他们选取分布在不同地域、隶属于不同语系且被广泛使用的语言；
然后，他们进一步缩小选择范围，只保留了那些有测评数据库的语言，以便评估翻译质量；
最后，他们舍去了那些没有可用单语数据库的语言。

M2M-100的基础是XLM-R模型。 XLM-R模型是Facebook研发的一款多语种模型，它可以学习单语数据库，并能用100种语言完成任务。
拓展互译语种的创意：
与反向翻译
安吉拉·法恩（Angela Fan）是Facebook巴黎AI研究中心的一位数据科学家，他在博客里写道：“多年来， AI研究人员一直致力于研发出统一通用的模型，它能在不同的任务中理解所有语言，包括各种方言。这样的模型将能够为更多的人提供优质服务，保持翻译最新，并且为数十亿人带来全新体验。 ”
Facebook科研人员避免使用那些很少进行互译的语对，比如冰岛语与尼泊尔语、僧伽罗语与爪哇语，并且采取“桥梁挖掘” (bridge mining) 策略，基于分类、地理位置和文化相似性将世界语言分为14个语族。同一语族的国家中，人们的交流会更加频繁，对翻译的要求也更高。比如说，一个印度家庭可能会使用同族的多种语言，如孟加拉语、印度语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。
为了联系不同语族的语言， Facebook科研人员找出每个语族里最重要的一到三种语言，将它们确定为 “桥梁语言” 。例如，印度语、孟加拉语和泰米尔语就被确定为印度-雅利安语族中的桥梁语言。然后，他们从这些桥梁语言的可能组合中挖掘训练数据，得到了前文提到的75 亿个句子。
对于低资源语种， Facebook采用反向翻译的方法对数据集进行补充。反向翻译方法是指在训练已有单语模型的基础上，将其翻译为另一语种的对称反向翻译数据库。在M2M-100模型的开发过程中， Facebook为已挖掘的语言添加了合成数据，为先前未出现过的语对创建了新数据。
M2M-100模型使用的开源框架是Fairscale ，用于训练大型模型。训练过程中，该模型被分割为数百个源数据相同的显示卡，因此，每个显示卡训练的是一部分模型，而非一部分数据。
为了确保M2M-100模型的性能发挥不受影响， Facebook科研人员将其参数分为互不重叠的语族。这些策略的组合使M2M-100模型的性能提升了100倍，并使其能够提供更准确的语言翻译。
Facebook称，在参数值为154亿时， M2M-100模型的高资源语对翻译质量提升显著，毕竟高资源语言在模型训练上有着最多的资源。

文章图片

正如安吉拉所写：“我们将模型规模与特定语言参数结合起来，也就是把大型模型的优势和学习特定语言的能力结合起来。 ”
局限与提升空间：
低资源语对与偏见观点的困境
M2M-100模型的翻译质量由母语人士来进行评估，且不包括英语母语者。这些评估人士对翻译成品的忠实度打分较高，但是也指出该模型在俚语翻译方面不尽如人意。此外， M2M-100模型还会出一些语法错误，包括逗号缺失，这些可能会导致读者误解原文。

文章图片

文章图片

Facebook科研人员在一篇论文中承认了该模型目前的不足：“要达到令人满意的翻译质量， M2M-100模型还有很大的提升空间。对于一些不常见的语种，包括非洲的科萨语、祖鲁语，欧洲的加泰罗尼亚语、布列塔尼语，亚洲的伊洛干诺语、宿雾语等等，这些语言在互联网上的语料都十分稀缺，导致训练数据数量和质量的不足。 ”
事实上，大量实例已经表明，语言模型会放大其训练所用数据库里的偏见观点，导致一些不良后果。麻省理工、英特尔以及加拿大高等研究院的AI研究人员发现很多现有翻译模型的译文里都包含着大量偏见。
艾伦AI研究所的科研人员指出，现有的机器学习技术都没办法避免这一缺陷，人们急需更好的训练模式和模型建构。除此之外，谷歌也发现其机器翻译模型会产生性别偏见（尽管他们声称这一问题已经解决了），特别是那些低资源语种，比如土耳其语、芬兰语、波斯语和匈牙利语等等。
针对这一问题， M2M-100模型是怎样应对的呢？安吉拉说道：“模型目前仍处于测试阶段，在这个研究阶段，我们想测试模型的局限性。对于那些错误、有害的译文，我们尝试过使用侮辱性语言过滤器，但是至少现在看来效果并不好……我们现在仍然处于试验阶段，这也是该模型还没有正式投入使用的原因。 ”
安吉拉还强调，在当前阶段，虽然研究团队还没有采取特别措施来应对性别歧视语言，但它在探究M2M-100模型的常见错误类型。她说：“我们不仅要关注机器翻译辅助评估工具 (BLEU) 打出的分数，更要听取母语者的评价。根据模型的当前表现，综合而言， M2M-100模型在大部分语种翻译中都表现优异，但是在部分低资源语种的翻译上仍有提升空间，比如沃洛夫语、马拉地语。 ”
re:
【资源|Facebook开源M2M-100模型: 轻松翻译上百种语言】https://venturebeat.com/2020/10/19/facebooks-open-source-m2m-100-model-can-translate-between-100-different-languages/

资源|Facebook开源M2M-100模型: 轻松翻译上百种语言

推荐阅读

力推快速祛斑高招美白可以很简单

花样炒卤面的做法（母婴菜谱）

影响网页打开速度的因素有哪些

推拿注意事项和禁忌

我的世界砖怎么获得我的世界中怎么获得砖

扒皮鱼的营养价值有哪些？扒皮鱼有哪些功效作用？

2022杭州第4期实物配租预登记户租赁入住手续办理地点杭州实物配租申请表

子宫切除后可以吃阿胶吗？子宫切除后吃阿胶好吗？

求经典系统流小说

鱼和什么不能一起吃什么食物不能和鱼一起吃

农村粘火勺做法

被禁止的历史怎么样

木瓜是什么时间成熟什么季节

油炸干是哪儿的特产吗？油炸干介绍

黄花菜该如何种植？黄化菜种植管理技术！

健脾疏肝治肠易激综合征袁长津谈

破云里的经典语录

答的多音字组词

水磨地面处理有哪些优点

手工十字绣要如何清洗