技术|寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍( 三 )



技术|寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍
文章图片

思元 370 采用 chiplet 技术 , 可实现不同算力、内存和编解码器的组合 。
尽管寒武纪已经凭借思元 370 验证了自己在 chiplet 技术上的突破 , 但 chiplet 技术 , 仍会面临着诸多挑战 , 例如在封装技术与生产工艺、EDA 工具链、片上互联(NoC)或 Interposer 上互联、chiplet 间接口与协议标准化、chiplet 模块的 DFT、验证、可靠性与 DFM 等方面仍然有较多经验需要积累 。
但寒武纪对 chiplet 技术依然充满信心 , 并希望思元 370 可以通过不同的组合为客户提供更多样化的产品选择 。
处理器架构大幅更新
架构方面的改进是思元 370 的又一个升级重点 , 在 AI 芯片上 , 整型常用于推理 , 浮点运算应用于训练 , 寒武纪自研的智能处理器架构 MLUarch03 拥有新一代张量运算单元 , 全面加强了 FP16、BF16 以及 FP32 的浮点算力 , 同时支持推理和训练任务 。

技术|寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍
文章图片

寒武纪智能芯片架构演进 。
芯片的指令集对于任务执行效率与硬件本身几乎同等重要 , 当年英特尔在摩尔定律减缓的情形下就采取了 Tick Tock 策略——一代提升制程 , 一代改进指令集 。 自研架构的寒武纪对自家芯片拥有完整操控权限 , 也可以实现两条腿走路 , 其在思元 370 上更新了指令集 , 内置的 Supercharger 模块大幅提升了各类卷积效率 。

技术|寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍
文章图片

Supercharger 和多算子硬件融合技术 。
思元 370 采用的全新 MLUv03 指令集功能更加完备 , 效率更高且向前兼容 , 其还采用了全新的多算子硬件融合技术 , 在软件融合的基础上大幅减少算子执行时间 。
新的加速卡还升级了内存 , 从 DDR4 升级为 LPDDR5 , 带宽从 102.4GB/s 提升至 307.2GB/s , LPDDR5 是一种适用于移动端的内存产品 , 是如今中高端手机的标配 。 为什么要把它用在云端 AI 加速卡上?这或许是在带宽、成本和能效比之间进行权衡的结果 。
思元 370 是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片 , 从数据上看 , 其内存带宽达到了上一代产品的 3 倍 , 访存能效达 GDDR6 的 1.5 倍 。
全新推理加速引擎 MagicMind
MagicMind 是寒武纪全新打造的推理加速引擎 , 其定位对标的应该就是英伟达 CUDA 之上的 TensorRT , 但是架构和功能上相对于 TensorRT 更为先进和强大 。 在寒武纪的整体软件栈架构中 , MagicMind 之下是高效软件栈工具和高性能库 , 并且还提供了 Bang 语言支撑定制化开发功能 。
MagicMind 的优势在于可提供极致的性能、可靠的精度以及简洁的编程接口 , 让用户能够专注于业务本身 , 无需理解芯片更多底层细节就可实现模型的快速高效部署 。 与此同时 , 通过 MagicMind 插件化的设计 , 还可以满足在性能或功能上追求差异化竞争力的客户需求 。

推荐阅读