模型|飞桨AI训练技术再突破 发布端到端自适应大规模分布式训练技术

12月12日 , 由深度学习技术及应用国家工程实验室主办的WAVE SUMMIT+ 2021深度学习开发者峰会在上海召开 。 此次峰会 , 最让开发者惊艳的是飞桨开源框架v2.2的重磅发布 。 百度深度学习技术平台部高级总监马艳军与百度AI产品研发部总监忻舟 , 就飞桨新版本特性与落地部署应用做了详尽解读 , 框架核心技术持续领先 , 落地部署降低应用门槛 , 飞桨正在为解决AI落地产业提供全新的答案 。
践行融合创新 , 飞桨核心技术持续积累与突破
峰会现场 , 马艳军表示 , 飞桨作为中国首个自主研发、功能丰富、开源开放的产业级深度学习平台 , 核心技术持续积累与突破 , 全新发布的开源框架2.2版本 , 涉及深度学习开发、训练、文本任务极致优化、硬件高效适配、低门槛推理部署等多方面创新性技术 , 赋能开发者 , 为产业应用和前沿探索提供技术源动力 。

模型|飞桨AI训练技术再突破 发布端到端自适应大规模分布式训练技术
文章图片

开发方面 , 飞桨提供丰富的API , 支持开发者便捷、高效地开发深度学习模型 。 飞桨框架v2.2的API更加丰富、高效并保持良好的兼容性 , 有针对性地丰富了100多个API , 可支持更广泛模型开发 , 尤其针对科学计算的模型应用 , 增加了傅里叶变换、Jacobian/Hessian/VJP/JVP等一系列API , 支持量子计算、生命科学、计算流体力学、分子动力学等应用 , 助力前沿技术探索 。
训练方面 , 全新发布端到端自适应大规模分布式训练技术 。 针对不同的模型和硬件 , 抽象成统一的分布式计算视图和资源视图 , 并通过硬件感知切分和映射功能及端到端的代价模型 , 搜索出最优的模型切分和硬件组合策略 , 将模型参数、梯度、优化器状态按照最优策略分配到不同的计算卡上 , 达到节省存储、负载均衡、提升训练性能的目的 。
基于全新的端到端自适应大规模分布式训练技术 , 百度飞桨在鹏城云脑II集群上采用自适应优化 , 训练速度达到优化前2.1倍 。 而近期发布的全球首个知识增强千亿大模型鹏城-百度·文心 , 也是基于端到端自适应大规模分布式训练技术 。
文本任务方面 , 从文本处理、训练、解码到部署进行全面加速 。 升级对字符串张量的支持 , 为开发者提供端到端文本任务开发体验 。 在预训练模型方面 , 针对Transformer Encoder的网络结构实现了极致的性能优化 , 并通过自定义算子功能 , 融合了NVIDIA FasterTransformer的高性能算子 。 基于这些优化 , 框架针对预训练模型形成了训推一体全流程开发体验 , 让部署代码节省94% 。
硬件接入方面 , 多层次、低成本的硬件适配方案降低了框架与芯片的适配成本 。 百度自研Kernel Primitive API、NNAdapter、编译器CINN(预发布)三大优化方案 , 分别对AI算子库、图、编译器后端进行软硬件结合的深度融合优化 , 极大降低了硬件适配成本 , 赋能硬件生态圈 。

推荐阅读