近日 , 腾讯微信AI团队联合Tencent NLP Oteam于GitHub上发布开源项目派大星“PatrickStar” 。 该开源项目将聚焦解决GPT、BERT等超大模型训练时产生的“GPU内存墙”问题 , 使用更为创新的异构内存管理方法 , 让相同配置的机器能够训练更大的模型 , 以更节能环保的方式让预训练模型普惠每位NLP社区用户 。 经测试结果显示 , 派大星性能表现优于微软DeepSpeed , 在不到5000元价位的个人游戏电脑上 , 即可训练一个7亿参数的GPT模型 。
文章图片
以GPT、BERT为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术 , 但由于GPU硬件的存储空间有限 , PTM的可训练规模难以突破 , 专业人员称之为"GPU内存墙" , 同时 ,PTM预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉154万人民币 , 消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和 。
为攻克该痛点 , 腾讯微信AI团队联合TencentNLPOteam从头搭建了派大星 。 它通过细粒度的方式管理模型数据 , 更有效使用了异构内存空间 , 进一步突破PTM模型规模的极限 。 同时 , 派大星的设计比同类方法占用更低内存使用 , 减少了CPU和GPU之间数据搬移开销 , 从而显著提升了计算资源的利用率 。 并且 , 派大星可以和多种并行训练方式正交使用 。 比如 , 派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行 。
实验结果表明 , 派大星将模型规模上限在目前最佳方案DeepSpeed的基础上提升了 1.5 倍 , 并且展现了明显高于DeepSpeed的计算效率 。 这将极大降低了PTM训练过程中的碳排放 , 以技术优化的方式助力低碳环保事业 。
【模型|腾讯发布超大预训练系统派大星,性能优于微软DeepSpeed】目前 , 派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中 , 助力降低GPU卡使用数量 , 提升机器的利用率 , 减少数据中心的碳排放规模 。 接下来 , 微信AI团队也将持续深化开源技术的研发及应用 , 以创新促进行业发展及生态建设 。
推荐阅读
- Samsung|三星预告1月11日发布Exynos 2200芯片组 RDNA 2 GPU加持
- 手机|一加10 Pro宣传视频曝光:将于1月11日14点发布
- 语境|B站2021个人年度报告发布:你共计看了多少个视频
- 功能|Linux 微信官方版 2.1.1 正式发布
- 硬件|闪极140W多口充电器发布:首发399元 支持PD3.1
- 办公|统信UOS助手发布:支持“一键秒传”
- 芯片|Exynos 2200 来了!三星官宣 1 月 11 日发布新 Exynos 处理器
- 设计|宇瞻发布 NOX 系列 DDR5 电竞内存,速度最高 7200MHz
- 系统验证|以技术革新加速芯片创新效率,EDA软件集成版PNDebug正式发布
- 协议|闪极发布 140W PD 3.1 充电器:2C1A 三口,首发 399 元