Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心( 二 )


接下来的解读中,我们也会逐一涉及这三个方面 。
Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

架构方面,新至强引入了Sunny Cove,也就是轻薄笔记本上Ice Lake-U 10代低功耗酷睿平台的同款(事实上二者处理器代号都是相通的),都是首次结缘10nm,当然这次针对数据中心应用做了调整优化 。
至于为何二者发时间错开了一年半,笔记本端去年都已经进化到第二代10nm Tiger Lake,架构也已升级为Willow Cove,你应该懂的 。
Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

简单来说,Sunny Cove架构改进了前端部分,容量更大,分支预测更精准,加宽加深了流水线,结构和执行资源上规模更大,同时增强了TLB、单线程执行、预取等环节,还针对数据中心重点优化了缓存、矢量吞吐等部分 。
对比二代可扩展至强Cascade Lake,新至强的最大核心数从28个增加到40个 。
对于为何选择40核心这个节点,陈葆立表示,这是根据整个产品迭代所做的一个比较好的平衡,无论是核心数,还是不同工作负载的加速指令、配套的产品,设计芯片需要做很多事情,尤其是把功能做好是最优先的,能够更好地满足客户需要,而不是纯粹选一个核心数 。
当然,不同的设计策略也决定了核心数量 。AMD霄龙是多个小芯片组成,虽然每个小芯片最多也才8个核心,但可以通过“并联”轻松堆砌更多核心 。
Intel则依然坚持单芯片设计,再加上制造工艺、内部架构,天然决定了不容易扩展太多核心,不过Intel也在不断推进各种先进封装技术,未来的芯片规模有望实现突飞猛进 。
Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

每核心缓存一级从32KB增大一半来到48KB,二级从1MB增大四分之一来到1.25MB,三级而从1.375MB小幅增大1.5MB,并支持Hemisphere高性能交错模式 。
内存支持从六通道DDR4-2933扩展到了八通道DDR4-3200,并改进内存调度器实现更低的延迟、更高的带宽,而且还有傲腾持久内存200系列这个杀手锏 。
处理器间互连通道还是两条或三条UPI总线,但是带宽从10.4GT/s扩大到11.2GT/s,同时首次原生支持PCIe 4.0,通道数也从48条增加到64条 。
独家的AVX-512指令集这次增加了大量的新指令,涉及到加解密、压缩解压、安全等各个方面,可扩大应用范围、提升性能,这也是Intel一贯的长项 。
Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

Intel还和新发布的AMD三代霄龙做了正面对比,强调了自己在缓存延迟、内存延迟方面的优势 。
缓存延迟方面,新至强的一二级其实比三代霄龙还稍微高一些,但三级就完全不一样了,毕竟一个是单Die,一个是多芯片,不再同一个数量级,尤其是霄龙涉及到跨Die通信、跨处理器的时候,延迟可以达到新至强的两倍甚至五倍 。
内存方面,新至强的通道数、频率算是追平对手,但是延迟低得多,而且有独家的傲腾持久内存加持,单颗处理器支持最多4TB DDR4内存,或者4TB DDR4+2TB傲腾内存 。
三代霄龙最多支持3TB DDR4,其实也可以搭配傲腾内存,但最大容量仅为1.5TB,而且关乎运行模式、平台联动、指令和应用优化,估计几乎不会有客户会去这么搭配,AMD也坦承一切取决于客户自己的部署 。——有点像Thunderbolt雷电技术 。
Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

Intel Intel 10nm至强隆重登场:性能飙升46%、40核心碾压64核心
文章图片

指令集这个东西,一直都是Intel占据领导地位,这次也新增了大量新指令,包括大数算数(AVX-512整数IFMA)、矢量AES、Caryy-less乘法指令、伽罗华域新指令、SHA-NI、VBMI等等,就不展开讲了,大家只要看看后边的性能提升就明白它们的威力了 。
很多时候,一条指令的加入,很容易就可以在特定负载中带来数倍乃至数十倍的性能提升,远不是单纯改进硬件就能媲美的 。

推荐阅读