输出|国际翻译大赛字节跳动夺魁,“并行翻译”或将引领技术变革

国际翻译大赛字节跳动夺魁 , “并行翻译”或将引领技术变革
从左向右逐词翻译的传统模式面临挑战 , “并行翻译”正在成为机器翻译技术新的发展方向 。
7月15日消息 , 在WMT2021国际机器翻译大赛上 , 字节跳动火山翻译团队以“并行翻译”系统参赛 , 获得德语到英语方向机器翻译比赛自动评估第一名 。 “并行翻译”在国际大赛首次亮相 , 就成功击败了从左向右逐词翻译的“自回归模型”技术 , 打破后者在机器翻译领域的绝对统治地位 。
据悉 , WMT2021是由国际计算语言学协会ACL举办的世界顶级机器翻译比赛 , 德英语向是该赛事竞争最激烈的大语种项目之一 。 自2006年以来 , WMT已连续举办了16届 , 参赛者来自世界各地的顶级企业、高校和科研机构 , 比赛结果被广泛认可为机器翻译技术的风向标 。
火山翻译团队负责人介绍说 , “自回归模型”更接近人类阅读习惯 , 逐词按顺序生成翻译 , 每一个输出的词都依赖于之前的词 , 当输出文本较长或者模型比较复杂时 , 机器翻译的速度很慢;“并行翻译”则是由机器同步输出所有的词 , 可以充分利用并行计算 , 将翻译速度提高数十倍 。 句子越长 , 速度提升越明显 。

输出|国际翻译大赛字节跳动夺魁,“并行翻译”或将引领技术变革
文章图片

左为“自回归模型”从左向右逐词输出 , 右为“并行翻译”同步输出
“并行翻译”的技术难点是如何组成连贯语句 。 对此 , 火山翻译团队采用了一项创新的渐进学习方式 , 由简单到复杂、由片段到整句训练“并行翻译”模型 。 在保持极高翻译速度的同时 , “并行翻译”的质量显著提升 。
火山翻译团队负责人坦言 , 在训练数据量小的场景下 , “并行翻译”的质量相比传统技术处于劣势 。 但是当训练数据规模变大后 , “并行翻译”会逐渐缩小差距 , 甚至反超传统技术 。 目前“并行翻译”技术已应用在火山翻译产品中 , 用以支持字节跳动的部分业务 。
【输出|国际翻译大赛字节跳动夺魁,“并行翻译”或将引领技术变革】在去年的WMT2020比赛中 , 火山翻译获得中英、德英、德法等5个语向翻译冠军 , 今年以全新技术夺魁更是一次重要的突破 。 据介绍 , 火山翻译已支持50多个语种、近3000个语向的翻译 , 不仅应用在飞书、今日头条等字节跳动旗下产品 , 也通过火山引擎向企业客户提供技术服务 。

    推荐阅读