Grace CPU超级芯片发布!直接秒杀Intel和AMD
【锚思科技讯】NVIDIA在GTC2022上首次宣布了其Grace CPU和各自的超级芯片设计。Grace CPU是NVIDIA第一款基于定制Arm架构的处理器,该架构将针对服务器/HPC细分市场。CPU有两种超级芯片配置,一种是带有两个Grace CPU的Grace超级芯片模块,另一种是带一个连接到Hopper H100 GPU的Grace+Hopper超级芯片。
今天,在GTC2023上,NVIDIA首次向公众发布了Grace CPU超级芯片。整个装置尺寸为5 x 8英寸,既可以风冷,也可以被动冷却。NVIDIA展示了两者,一个标准的无源散热器和一个大型1U机架散热器设计。两个Grace CPU超级芯片模块可以安装在一个1U风冷服务器中。
该公司还分享了微服务和大数据工作负载的一些新性能指标,其中NVIDIA Grace CPU Superchip能够以高达30%的优势击败英特尔和AMD的最新x86 CPU,同时提供70%的效率和2倍的数据吞吐量。NVIDIA表示,CSP可以为功率有限的数据中心配备1.7倍以上的Grace服务器,每个服务器的吞吐量提高25%。在ISO功率下,Grace CPU超级芯片为CSP提供了2倍的增长机会。
Grace的一些主要亮点包括:
用于HPC和云计算的高性能CPU
超级芯片设计,拥有多达144个Arm v9 CPU内核
全球首款带ECC内存的LPDDR5x,总带宽1TB/s
SPECrate2017_int_base超过740(估计值)
900 GB/s一致接口,比PCIe Gen 5快7倍
是基于DIMM的解决方案的封装密度的两倍
是当今领先CPU每瓦性能的两倍
运行所有NVIDIA软件堆栈和平台,包括RTX、HPC、AI和Omniverse
作为NVIDIA的第一款服务器CPU,Grace拥有72个Arm v9.0内核,可支持SVE2和各种虚拟化扩展,如嵌套虚拟化和s-EL2。CPU是在台积电的4N工艺节点上制造的,这是专为NVIDIA制造的5nm工艺节点的优化版本。新架构可以提供高达7.1 TFLOP的峰值FP64性能。
Grace的设计是成对的,因此,设计的最关键的方面之一是其C2C(芯片到芯片)互连。Grace通过NVLINK实现了这一点,NVLINK用于制造超级芯片,并消除了与典型的交叉插座配置相关的所有瓶颈。
C2C NVLINK互连提供900 GB/s的原始双向带宽(与Hopper上的GPU到GPU NVLINK开关的带宽相同),同时以仅1.3 pJ/bit的极低功率接口运行,比PCIe协议的效率高5倍。
NVIDIA Grace CPU采用可扩展的一致性结构和分布式缓存设计。该芯片具有高达3.225 TB/s的双段带宽,可扩展到72核以上(超级芯片上为144核),每个核集成117 MB的L3缓存或每个超级芯片集成234 MB,并支持Arm内存分区和监控(MPAM)。Grace还允许使用共享页表实现统一的内存体系结构。两个NVIDIA Grace+Hopper超级芯片可以通过NVSwitch互连在一起,一个超级芯片上的Grace CPU可以直接与另一个芯片上的GPU通信,甚至可以以原生NVLINK速度访问其VRAM。
深入了解Grace的内存设计,NVIDIA在32个通道中使用高达960 GB的LPDDR5X(ECC),提供高达1 TB/s的内存带宽。NVIDIA表示,考虑到整体带宽、成本和电源需求,LPDDR5X可提供最佳价值。例如,与DDR5相比,LPDDR5X子系统以每秒八分之一的功率和类似的成本提供了53%的带宽。此外,HBM2e存储器本可以提供更多的带宽和效率,但成本是其3倍。
对于I/O,您可以获得68个PCIe Gen 5.0通道,其中四个可用于128 GB/s的x16链路,其余两个用于MISC。还有12个通道的相干NVLINK通道与两个Gen 5 PCIe x16链路共享。
至于TDP,NVIDIA Grace(仅限CPU)超级芯片针对单核性能进行了优化,并为144核双芯片配置提供了高达1TB/s的内存带宽和500W的TDP。
NVIDIA还证实,Grace CPU Superchip目前正在进行采样,ASUS、ATOS、Gigabyte、HPE、Supermicro、m Wistron、ZT Systems和QCT等领先合作伙伴正在构建系统。