架构|如何让超级算力飞入“云数据中心”?

云计算的灵活、安全与超算的极致性能 , 能否完美融合到一起?
对于很多企业用户来说 , 由于技术架构方面的壁垒 , 长期以来 , 云和超级计算两种服务往往只能二选一 , 不能兼得 。 但近日 , NVIDIA打破了这一说法 。
NVIDIA网络事业部宋庆春表示:“通过NVIDIA云原生超级计算(Cloud Native Supercomputing)技术 , 可以让数据中心拥有了超算技术的高性能 , 同时把云数据中心的灵活性和安全性带进了超算平台 。 ”

架构|如何让超级算力飞入“云数据中心”?
文章图片

NVIDIA网络事业部宋庆春
那么 , NVIDIA如何将超算中心与云更好的结合在一起的呢?
会计算的网络 , 让数据在哪计算就在那
如何把各种云原生的设备高效的连接起来 , 是让超级算力走入千万数据中心首要解决的挑战 。
NVIDIA提供了一个崭新的解决思路:“数据在哪 , 计算就在那” 。
要实现这一解题思路 , 就需要借助InfiniBand网络来实现 。 InfiniBand是会计算的网络 , 不管是在InfiniBand的网卡上、DPU上还是交换机上 , 都赋予更强劲的针对不同业务的引擎 , 这样可以把不同的业务模型和通信模型的计算放到卡上或者交换机上 。

架构|如何让超级算力飞入“云数据中心”?
文章图片

同时 , InfiniBand网络可以很容易扩展到几万、几十万、上百万的节点 , 可以采用不同的拓扑方案而不需要担心拓扑中出现死锁和网络风暴的问题 , 而且InfiniBand的动态路由可以让网络的利用效率变得非常高 。
并且InfiniBand网络可以即插即用 。 在InfiniBand网络中 , 你不用对交换机或网卡做任何特殊设置 , 不需要做IP设置等 。 可以说 , InfiniBand网络天生就是非常适合云原生架构的网络 。
为了给企业客户提供更好的应用InfiniBand网络支撑 ,NVIDIA推出了Quantum-2平台 , 宋庆春表示:“Quantum-2是一个会计算的网络 , 真正契合了超级计算和云原生对网络的需求 , 我们的目标是实现数据在哪里 , 计算就在那里 。 ”
【架构|如何让超级算力飞入“云数据中心”?】
架构|如何让超级算力飞入“云数据中心”?
文章图片

据介绍 , NVIDIA Quantum-2平台有三个非常重要的产品 , 分别是Quantum-2交换机、CONNECTX-7 InfiniBand网卡和基于BlueField-3的InfiniBand DPU , 这三款产品拥有多租户、性能隔离、拥塞控制、超高精度计时器等关键功能 。
Quantum-2平台不但能够实现GPU Direct RDMA对AI业务至关重要的技术 , 增加了PDA (Programmable Datapath Acclerator)来对特定流量进行编程和加速 , 而且还对各种通信模型进行了专门优化 , 提高了Allreduce 和 All-to-All等通信时的通信效率 。

推荐阅读