AI遇到边缘,规范就要向应用妥协

近年来,人工智能从互联网行业渗透到通信、制造、能源、医疗、政府等各行各业,成为社会经济活动中最转型的力量 。由于5G技术的发展,AI在应用于这些传统行业的落地过程中,扩展到网络边缘:通信运营商开始配置MEC,基于基站边缘计算设施为附近设备产生的数据提供AI分析,钢铁厂可以基于边缘计算平台的支持,实现产品智能质量检测模型的发行和数据回传等

据IDC报道,到2023年将有50%以上的新企业基础设施配置在边缘,但目前的比例不足10% 。人工智能走到边缘意味着什么?

IT标准与CT标准的碰撞

AI走到边缘最直接的挑战就是物理环境的变化 。人工智能服务器对云数据中心的空间、散热等有严格的规定 。然而,随着人工智能场景的接近,边缘限制的物理空间和复杂的环境阻碍了人工智能向边缘的广泛着陆 。

在这些不同环境的背后,实际上是云数据中心IT(InformationTechnology)标准和边缘CT(CT(CommunicationTechnology)标准有着本质的不同 。

IT基础设施规模化,如阿里巴巴等网络数据中心,承载其电气商务的服务器数十万台,单一业务呈大规模集中化趋势 。但是,CT的数据中心,也就是传统的电信数据中心没有规模化,运营商不需要收集流量,必须迅速发行,达到5G,因此CT的规模化效果远低于IT 。但是,电信数据中心的多样性远远高于信息技术,因为电信运营商的网络应该完全覆盖,不同的环境应该适应 。例如,青藏高原很少有互联网数据中心,但电信数据中心不可或缺 。可以看出,CT面临多样化的需求 。

之所以追求基本,是因为IT以计算为中心,CT以网络流量为中心 。IT数据中心以服务器等计算设施为核心,需要更强的计算性能,更大的体积,设备一般深度80厘米以上,可达120厘米,也因为IT设备规模化、集中化,所以环境需求单一 。CT以流量为中心,内部扩展要求低,设备更小,深度一般在40厘米左右,可靠性、适应性要求高 。

客户需求对行业规范的挑战

边缘计算是IT和CT的融合,必须在CT规范中履行IT功能 。两个行业标准的融合往往很痛苦,对执行主体制造商尤其如此 。

浪潮接受过某通信大工厂边缘AI计算能力的定制需求 。客户建议开发能够配置在边缘的最强AI算力服务器,使边缘数据中心具有最强的AI训练和推理能力 。因为该服务器必须配置在600mm深的电信柜中,所以服务器设备的体积和内部部件的计划是19英寸宽度、10.5英寸(6U)高度、46厘米深度,支持2个CPU芯片和32个AI芯片 。

浪潮AI边缘服务器前视图

AI芯片以模块方式而不是传统芯片方式供应给设备业者,该模块主要应用于IT场景,其140*78mm的尺寸是根据IT的大机柜场景设计的,在CT标准的狭小机箱中实现32个AI芯片是非常挑战的 。波浪计划采用8个1U宽、5U高的LC槽,每个槽连接4个AI芯片,实现32个AI芯片的规格 。

受物理空间限制,LC板只能放置2个AI芯片模块,如何在这样的槽中实现4个AI模块是达到该产品规格的重要问题 。针对这个问题,波浪提出了桥、按钮、Retimer三种解决方案 。由于芯片放在AI模块上,模块与PCB连接时需要一对连接器,任何方案都与AI芯片的25Gbps多次跨越连接器的问题有关 。根据芯片制造商的规范,4个芯片不能多次跨越连接器,也不能分布在2个单板上 。但是,客户的需求是最强的AI计算能力,如果不能实现单槽的4个AI芯片的连接,服务器的计算能力也会下降,无法满足客户的需求 。只有一个选择,突破制造商的规范,解决25Gbps多次交叉连接器的信号完整性问题,实现4个芯片分布在2个板上 。

三种芯片连接方案

跨板互连方案最大的技术挑战是信号完整性设计 。因为跨板互连方案不仅会导致信号传输距离大幅增加,而且当25Gbps信号多次跨越连接器,会加大25Gbps信号之间的串扰,增大高速信号的抖动 。由于该应用程序不能满足芯片制造商对系统链路的设计规则则的要求,所以很少有制造商敢于尝试这个挑战芯片制造商设计规则的研究开发任务 。但是,为了服务用户,满足客户边缘终极化的AI计算能力需求,浪潮接受了这项难易度高的研究开发任务 。

规范应用妥协

在1U空间实现4个AI芯片之间的25Gbps跨板连接,必须解决信号跨板连接时的信号完整性问题 。引起信号失真的主要因素包括单板材料、传输长度、连接器性能和数量等 。

芯片制造商对芯片板卡的信号损失、损失、串行有明确的要求:

芯片系统的链路总插入损失小于21dB,其中芯片模块本身占8dB,留给系统的损失为13dB 。

最好的PCB板材,信号布线最长不得超过11英寸

线路信号最初为900mV,到达接收端的眼睛高度下降到0mV,需要用芯片内部的补偿机制恢复眼睛图 。传输过程多使用连接器传输距离就要变短,同时链路串扰要增加 。每多使用1个连接器,就需要把总线长缩短0.5英寸 。同时,链路串行障碍小于7mV,多使用一次连接器,串行障碍增加2mV左右 。因此,一般最多支持两个连接器 。

举个例子,信号在PCB线路上传输就像冰壶在冰面上滑动一样,滑动的最长距离取决于冰面本身的光滑度,如果冰壶在冰面上遇到障碍摇晃或与其他冰壶相撞,就会减少冰壶滑动的最大距离 。高速信号通过通道中的连接器,就像冰壶遇到冰面的障碍一样,信号的摇晃和衰减可能会导致信号无法正确传输到接收端 。浪潮研发工程师侯绍铮说明 。

但是,由于边缘空间受到限制,4个AI模块不能放在同一个单板上,跨板连接必须在链接中增加连接器,如何系统地减少链接长度,改善链接反射点的性能,优化信号之间的干扰是结构设计、信号完整性设计能力的重要指标

通过前期的模拟分析,浪选择背扣式,即方案2作为设计方案 。为了保持信号传输路径最短,满足插入损坏的要求,信号线的布线路径不能设计如下图左侧的黄线路径,必须从连接器内部通过 。25Gbps信号通过25Gbps信号的孔(红圈)之间发生混乱 。浪潮工程师通过合理的布线层设计和创新性使用背钻技术,改变孔的长度,避免了从线到孔的信号混乱 。

高速信号孔状况

根据芯片制造商的设计规则,AI模块端连接器的有效孔深度不足50mil,跨板连接器必须满足stub不足10mil的要求,两者在本方案中发生冲突 。为了解决这个问题的浪潮,通过对有效孔长和stub信号完整性的影响逐一模拟分析,根据项目的具体链路状况进行模拟,相继模拟分析了3种不同布线方案的24种布线方式,根据该项目的模拟结果与制造商规范允许的链路设计进行了比较,确定了最终的设计方案 。

浪潮PCBA板布线方案

尽管项目的设计、器件选型、验证无论是难度还是复杂度都很高,但随着设计方案逐渐明晰,设计中的技术风险被一一攻克,浪潮开发的背扣式AI模组跨板互连方案,成功实现4个AI模组多次跨连接器的25Gbps互连,不仅达成了客户的规格需求,也完善了面向边缘端AI应用场景的服务器设计规范 。

眼图结果

从AI到边缘,客户应用打破规范是未来的趋势

2019年正式发行5G商用牌照,5G刚刚开始,边缘计算也刚刚开始 。接近网络边缘的计算是场景化、高应用驱动的,无论是一般的计算还是边缘AI,都需要在实际应用中逐步探索 。这个过程是一个技术创新的过程 。

【AI遇到边缘,规范就要向应用妥协】这种技术创新不仅要满足更强的计算性能,还要满足更低的延迟、更宽的带宽、更实际的需求、客户实际应用驱动的技术标准和规范冲突和调整过程 。随着5G和AI等技术的发展,面对客户不同边缘AI场景下的大量计算需求,越来越多的制造商打破行业规范,为边缘数据中心提供更多的创新解决方案 。

    推荐阅读