机器之心发布
机器之心编辑部
在 5 月 20 日结束的 2021 深度学习开发者峰会 WAVE SUMMIT 上 , 百度文心 ERNIE 开源了四大预训练模型 。 本文对这四大开源预训练模型进行了详细的技术解读 。2019 年以来 , NLP 预训练模型在技术创新和工业应用上不断取得突破 , 但当前预训练模型仍有一些痛点困扰着开发者 。
- 仅考虑单一粒度语义建模 , 缺乏多粒度知识引入 , 语义理解能力受限;
- 受限于 Transformer 结构的建模长度瓶颈 , 无法处理超长文本;
- 聚焦语言等单一模态 , 缺乏工业真实应用场景针对多个模态如语言、视觉、听觉信息的联合建模能力 。
针对当前预训练模型现存的难点痛点 , 此次文心 ERNIE 开源的四大预训练模型在文本语义理解、长文本建模和跨模态理解三大领域取得突破 , 拥有广泛的应用场景和前景 , 进一步助力产业智能化升级 。
文章图片
- 文心 ERNIE 开源版地址:https://github.com/PaddlePaddle/ERNIE
- 文心 ERNIE 官网地址:https://wenxin.baidu.com/
从 ERNIE 模型诞生起 , 百度研究者们就在预训练模型中引入知识 , 通过知识增强的方法提升语义模型的能力 。 本次发布的 ERNIE-Gram 模型正是通过显式引入语言粒度知识 , 从而提升模型的效果 。 具体来说 , ERNIE-Gram 提出显式 n-gram 掩码语言模型 , 学习 n-gram 粒度语言信息 , 相对连续的 n-gram 掩码语言模型大幅缩小了语义学习空间( V^n → V_(n-gram) , 其中 V 为词表大小 , n 为建模的 gram 长度) , 显著提升预训练模型收敛速度 。
【技术|四大模型革新NLP技术应用,揭秘百度文心ERNIE最新开源预训练模型】
文章图片
图 1-1:连续 n-gram 掩码语言模型 vs 显式 n-gram 掩码语言模型 。
此外 , 在显式 n-gram 语义粒度建模基础上 , ERNIE-Gram 提出多层次 n-gram 语言粒度学习 , 利用 two-stream 双流机制 , 实现同时学习 n-gram 语言单元内细粒度(fine-grained)语义知识和 n-gram 语言单元间粗粒度(coarse-grained)语义知识 , 实现多层次的语言粒度知识学习 。
文章图片
图 1-2:n-gram 多层次语言粒度掩码学习 。
ERNIE-Gram 在不增加任何计算复杂度的前提下 , 在自然语言推断任务 、短文本相似度任务、阅读理解任务等多个典型中文任务上 , 效果显著超越了业界主流开源预训练模型 。 此外 , ERNIE-Gram 英文预训练模型也在通用语言理解任务、阅读理解任务上效果超越主流模型 。
ERNIE-Gram 的方法被 NAACL 2021 主会长文录用 , 论文地址:https://arxiv.org/abs/2010.12148
二、长文本理解模型 ERNIE-Doc
Transformer 是 ERNIE 预训练模型所依赖的基础网络结构 , 但由于其计算量和空间消耗随建模长度呈平方级增加 , 导致模型难以建模篇章、书籍等长文本内容 。 受到人类先粗读后精读的阅读方式启发 , ERNIE-Doc 首创回顾式建模技术 , 突破了 Transformer 在文本长度上的建模瓶颈 , 实现了任意长文本的双向建模 。
通过将长文本重复输入模型两次 , ERNIE-Doc 在粗读阶段学习并存储全篇章语义信息 , 在精读阶段针对每一个文本片段显式地融合全篇章语义信息 , 从而实现双向建模 , 避免了上下文碎片化的问题 。
此外 , 传统长文本模型(Transformer-XL 等)中 Recurrence Memory 结构的循环方式限制了模型的有效建模长度 。 ERNIE-Doc 将其改进为同层循环 , 使模型保留了更上层的语义信息 , 具备了超长文本的建模能力 。
文章图片
图 2-1:ERNIE-Doc 中的回顾式建模与增强记忆机制 。
通过让模型学习篇章级文本段落间的顺序关系 , ERNIE-Doc 可以更好地建模篇章整体信息 。
文章图片
图 2-2:篇章重排序学习 。
ERNIE-Doc 显著提升了长文本的建模能力 , 可以解决很多传统模型无法处理的应用难题 。 例如在搜索引擎中 , ERNIE-Doc 可以对网页整体理解 , 返回用户更加系统的结果 。 在智能创作中 , ERNIE-Doc 可以用来生成更加长篇、语义丰富的文章 。
超长文本理解模型 ERNIE-Doc 在包括阅读理解、信息抽取、篇章分类、语言模型等不同类型的 13 个典型中英文长文本任务上取得最优的效果 。
ERNIE-Doc 的方法被 ACL 2021 主会长文录用 , 论文链接:https://arxiv.org/abs/2012.15688
三、融合场景图知识的跨模态理解模型 ERNIE-ViL
跨模态的信息处理能力需要人工智能模型深入理解并综合语言、视觉、听觉等模态的信息 。 当前 , 基于预训练的跨模态语义理解技术 , 通过对齐语料学习跨模态的联合表示 , 将语义对齐信号融合到联合表示中 , 从而提升跨模态语义理解能力 。 ERNIE-ViL 提出了知识增强的视觉 - 语言预训练模型 , 将包含细粒度语义信息的场景图(Scene Graph)知识融入预训练过程 , 构建了物体预测、属性预测、关系预测三个预训练任务 , 使得模型在预训练过程中更加关注细粒度语义知识 , 学习到能够刻画更好跨模态语义对齐信息 , 得到更好的跨模态语义表示 。
文章图片
图 3-1:知识增强的跨模态预训练 ERNIE-ViL 框架 。
ERNIE-ViL 首次将场景图知识融入跨模态模型的预训练过程 , 为跨模态语义理解领域研究提供了新的思路 。 该模型在视觉问答、视觉常识推理、引用表达式理解、跨模态文本 & 图像检索等 5 个典型跨模态任务上取得了领先的效果 。 ERNIE-ViL 模型也逐步在视频搜索等真实工业应用场景中落地 。
ERNIE-ViL 的方法被 AAAI-2021 主会长文录用 , 论文地址:https://arxiv.org/abs/2006.16934
四、语言与视觉一体的模型 ERNIE-UNIMO
大数据是深度学习取得成功的关键基础之一 。 当前的预训练方法 , 通常分别在各种不同模态数据上分别进行 , 难以同时支持各类语言和图像的任务 。 基于深度学习的 AI 系统是否也能像人一样同时学习各种单模、多模等异构模态数据呢?如果能够实现 , 无疑将进一步打开深度学习对大规模数据利用的边界 , 从而进一步提升 AI 系统的感知与认知的通用能力 。
为此 , 语言与视觉一体的模型 ERNIE-UNIMO 提出统一模态学习方法 , 同时使用单模文本、单模图像和多模图文对数据进行训练 , 学习文本和图像的统一语义表示 , 从而具备同时处理多种单模态和跨模态下游任务的能力 。 此方法的核心模块是一个 Transformer 网络 , 在具体训练过程中 , 文本、图像和图文对三种模态数据随机混合在一起 , 其中图像被转换为目标(object)序列 , 文本被转换为词(token)序列 , 图文对被转换为目标序列和词序列的拼接 。 统一模态学习对三种类型数据进行统一处理 , 在目标序列或者词序列上基于掩码预测进行自监督学习 , 并且基于图文对数据进行跨模态对比学习 , 从而实现图像与文本的统一表示学习 。 进一步的 , 这种联合学习方法也让文本知识和视觉知识互相增强 , 从而有效提升文本语义表示和视觉语义表示的能力 。
文章图片
此方法在语言理解与生成、多模理解与生成 , 4 类场景、共 13 个任务上超越主流的文本预训练模型和多模预训练模型 , 同时登顶权威视觉问答榜单 VQA、文本推理榜单 aNLI 。 首次验证了通过非平行的文本与图像单模数据 , 能够让语言知识与视觉知识相互增强 。
此工作被 ACL2021 主会长文录用, 论文地址:https://arxiv.org/abs/2012.15409
五、破解 NLP 技术难题 , 助力产业智能化
文心 ERNIE 全新开源发布 4 大预训练模型 , 不断推动 NLP 模型技术研究层面的创新与应用 。
语言与知识技术被看作是人工智能认知能力的核心 。 2019 年以来 , 百度凭借在自然语言处理领域的深厚积累取得了系列世界突破 , 发布了文心 ERNIE 语义理解平台 , 该平台广泛用于金融、通信、教育、互联网等行业 , 助力产业智能化升级 。
文章图片
作为「人工智能皇冠上的明珠」 , NLP 领域向来是人工智能技术研发与落地实践的前沿 。 百度文心平台基于领先的语义理解技术 , 帮助企业在 NLP 赛道上跨过技术、工具、算力、人才等门槛 , 对开发者和企业进行开放 , 全面加速 NLP 技术助力全产业智能化升级进程 , 为 AI 工业大生产插上智能的「翅膀」 。
推荐阅读
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 平板|消息称 vivo 平板明年上半年推出:骁龙 870,四边等宽全面屏设计
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 技术|使用云原生应用和开源技术的创新攻略
- 技术|聚光科技旗下临床质谱仪获批医疗器械注册证
- Apple|苹果高管解读AirPods 3代技术细节 暗示蓝牙带宽可能成为瓶颈
- MateBook|深度解析:华为MateBook X Pro 2022的七大独家创新技术
- AirPods|苹果谈论AirPods 3:最大榨取蓝牙技术,希望获得“更多带宽”
- 人物|印度人接管硅谷的背后:技术军团整体作战