AI 超大规模智能模型“悟道2.0”发布 参数规模达GPT-3的10倍

在1日召开的2021北京智源大会上 , 北京智源人工智能研究院发布了新版超大规模智能模型“悟道2.0” , 这是在今年3月20日发布的“悟道1.0”基础上更新迭代而来 , 具备大规模、高精度、高效率的特点 。
“悟道”模型旨在打造数据和知识双轮驱动的认知智能 , 让机器像人一样思考 , 实现“超越图灵测试的机器认知能力” 。“悟道”团队在大规模预训练模型研发上做了很多基础性工作 , 形成了自主的超大规模智能模型技术创新体系 , 拥有理论、工具、模型构建和测评的完整链条 。

“悟道2.0”模型的参数规模达到1.75万亿 , 是GPT-3的10倍 , 打破了之前由Google Switch Transformer预训练模型创造的1.6万亿参数记录 , 是目前中国首个、全球最大的万亿级模型 。
AI 超大规模智能模型“悟道2.0”发布 参数规模达GPT-3的10倍
文章图片

Google万亿模型的核?技术MoE(Mixture of Experts)与其分布式训练框架和其定制硬件强绑定 。“悟道”团队研究并开源的FastMoE是首个支持PyTorch框架的MoE系统 , 具有简单易用、灵活、高性能等特点 , 并且支持大规模并行训练 。新一代FastMoE , 支持Switch、GShard等复杂均衡策略 , 支持不同专家不同模型 , 是实现“万亿模型”的关键技术 。
“悟道2.0”模型在中英双语共4.9T的高质量大规模清洗数据上进行训练 。训练数据包含WuDaoCorpora中的1.2TB中文文本数据、2.5TB中文图文数据 , 以及Pile数据集的1.2TB英文文本数据 。
据介绍 , “悟道2.0”在世界公认的9项Benchmark基准测试任务上取得较好的成绩 。
【AI|超大规模智能模型“悟道2.0”发布 参数规模达GPT-3的10倍】AI 超大规模智能模型“悟道2.0”发布 参数规模达GPT-3的10倍
文章图片

新版模型的另一突破在于减少了算力资源、训练时间等方面的巨大消耗 。为提升大规模预训练模型的产业普适性和易用性 , 悟道团队搭建高效预训练框架 , 在编码、模型、训练、调参和推理等方面效率大幅提升 。
(1)高效编码:研发了最高效、最抗噪的中文预训练语言模型编码 , 解决生僻字等问题;
(2)高效模型:构建了世界首个纯非欧空间模型 , 只需要一半的参数量即可达到近似欧式模型的效果;
(3)高效训练:世界首创大规模预训练模型融合框架 , 形成高效训练新模式 , 训练时间缩短27.3% , 速度提升37.5%;
(4)高效微调:世界首创多类别Prompt微调 , 只需训练0.001%参数即可实现下游任务适配;
(5)高效推理:世界首创低资源大模型推理系统 , 单机单卡GPU即可以进行千亿参数规模的模型推理 。
“悟道”模型在3月首发时已经预告要和一些龙头企业共同研发应用成果 , 本次发布时就宣布了与新华社、美团、小米、快手、搜狗、360、寒武纪、第四范式、好未来、智谱华章等22家合作企业正式签约 。同时启动“悟道之巅”模型应用大赛 , 鼓励开发者利用该模型开发应用案例 。
AI 超大规模智能模型“悟道2.0”发布 参数规模达GPT-3的10倍
文章图片

    推荐阅读