CPU 和 GPU 的融合:现代计算的“8087 时刻”
过去,CPU 依靠外部数学协处理器来提高浮点性能。 今天,这一趋势正在逆转。 随着 NVIDIA GH-200 处理器和 AMD Mi300A APU 的推出,GPU 已被整合到 CPU 架构中。
GPU 嵌入式处理器的兴起。
GPU 以其强大的加速数学处理能力而闻名。 通过将 GPU 集成到 CPU 中,NVIDIA 和 AMD 在 HPC 性能方面取得了显着改进。
吸收外部性能硬件。
这种融合标志着计算领域的“8087时刻”,类似于早期的CPU吸收可选的数学协处理器。 它预示着一种未来趋势,即外部性能硬件逐渐被CPU本身吸收。
再见PCI
GPU 到 CPU 内存连接瓶颈。
传统上,Nvidia 和 AMD 的 GPU 通过 PCI 总线与 CPU 通信。 由于 CPU 和 GPU 具有单独的内存域,因此必须通过 PCI 接口在两者之间移动数据,从而造成带宽瓶颈。
NVIDIA Grace Hopper GH200 图形处理器
NVIDIA 的 Grace Hopper GH200 GPU 通过 900 Gb 秒的 NVLink-C2C 连接解决了这一瓶颈,比传统 PCIe 总线快约 14 倍。 此外,GH200 实现了单个 CPU-GPU 共享内存域,无需移动数据。
GH200 内存架构。
GH200 具有高达 480 GB 的 LPDDR5X CPU 内存和 96 GB 或 144 GB 的 HBM3 GPU 内存。 这些内存加起来为 576 GB 到 624 GB,并且在 CPU 和 GPU 之间完全可互操作。
amd instinct mi300a apu
AMD 的 Instinct Mi300A APU 还具有单个内存域,通过 Infinity Fabric 在 CPU 和 GPU 之间始终共享 128 GB 的 HBM3 内存。 该封装的峰值吞吐量为 53 TB 秒。 虽然目前不支持外部存储器扩展,但 CXL 将为未来的升级提供潜力。
单个存储域的好处。
GH200 和 MI300A 的单一存储域消除了传统方法中的 GPU 内存限制。 这对于高性能计算 (HPC) 和生成式人工智能 (GenAI) 至关重要,它们需要在内存中加载大型模型并在 GPU 上运行它们。
统一内存扩展。
GH200 通过外部 NVLink 连接创建高达 20 TB 的统一内存,进一步突破了内存容量限制。
它离你的桌面不远
从高端技术到低成本商品市场:向高性能计算的转变。
高性能计算 (HPC) 正在经历从昂贵的新技术向更经济的商品市场的转变。 一个值得注意的变化是迁移到单个内存域,将所有组件从多核移动到高级内存,从高端设备转移到“移动”设备。
gptshop.AI 的 GH200 工作站:适用于 HPC 和 GenAI 的低成本解决方案。
在 Linux 基准测试** Phronix 上,测试人员 Michael Larabel 在 GH200 工作站上运行了 HPC 基准测试。 系统使用 GPTshopAI 的 Grace Hopper 超级芯片,提供令人印象深刻的 576GB 内存、双 2000+ W 电源和灵活的配置选项。
低噪声、高功率:非常适合非数据中心环境。
GH200 的一个独特之处在于其 450W 至 1000W 的 TDP 可编程范围(CPU + GPU + 内存),使其成为非数据中心环境的理想选择。 此外,其默认风冷噪音仅为25分贝,提供安静的运行体验。 液体冷却也是一种选择。
经济高效的单域内存解决方案。
虽然GH200不是低价产品,但考虑到目前的Nvidia H100 PCIe GPU在30,000到3之间,它的起价为47,500欧元(约合41,000美元)50,000 美元,加上主机系统的成本,使其成为一个有吸引力的系统。
GPTshop 工作站提供 576GB 的单域内存,这对于需要大量 CPU-GPU 内存的 HPC 和 GenAI 用户来说是一个宝贵的优势,大大超过了 H100 GPU 的 80GB 内存限制。
初步基准
借助 GPTshop,Phoronix 可以远程执行多个基准测试。 基准应被视为初步结果,而不是最终业绩评估。 这些测试仅适用于 CPU,不适用于 Hopper A100 GPU。 因此,基线图不完整。 Phoronix 计划在未来将测试扩展到基于 GPU 的应用程序。
基线环境使用 Ubuntu 2310、linux 6.5 和 gcc-13 作为标准编译器。 为确保测试一致性,在类似的环境中测试了类似的处理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max。 有关完整列表,请参阅 Phronix
遗憾的是,在基准测试运行期间无法获得功耗数据。 根据 Phoronix 的说法,NVIDIA GH200 目前没有在 Linux 上公开,带有 Rapl PowerCap HWMON 接口,可用于读取其功耗和能耗。 虽然系统 BMC 可以通过 Web 界面显示整个系统的功耗,但无法通过 IPMI 访问此数据。
尽管存在这些局限性,但这项研究首次在 NVIDIA 以外的环境中为 GH200 提供了一些关键基准。
好 Ole HPCG
ARM GH200 性能。
在 HPCG 内存带宽基准测试中,ARM GH200 以 42 Gflops 的性能脱颖而出,优于 Xeon Platinum 8380 2P (40 Gflops) 和 Ampere Altra Max (41 Gflops)。
GH200 在 NWCHEM 基准测试中也表现出色,72 核 ARM GH200 运行时间仅为 1404 秒,仅次于领先的 128 核 EPYC 9554(1323 秒)。
值得注意的是,72 核 Arm Grace CPU 的性能几乎是 Ampere Altra Max 128 核 Arm 处理器的两倍。
未来功能
高端 CPU 集成到 GPU 架构中,以推动 AI 的发展。
NVIDIA GH200 和 AMD Mi300A 引入了新的处理器架构,将 GPU 集成到 CPU 中。 与过去吸收数学协处理器类似,这标志着高端CPU开始吸收GPU并成为“专用”处理器。
Genai需求推动了**的下降。
尽管这些高端处理器目前价格昂贵,但对生成式人工智能(GenAI)的巨大兴趣可能会将它们推向商品价格点。 随着更多基准的出现,这一趋势将继续下去。
个人高性能工作站的兴起。
内存充足的个人高性能工作站的出现具有重要意义。 它们可以在办公室运行大型语言模型 (LLM),并支持高内存、GPU 优化的高性能计算 (HPC) 应用程序等工作负载。
数据中心和云仍然很重要,但个人工作站提供了一个“重置按钮”。
数据中心和云仍然是计算的主力军,但个人高性能工作站的出现提供了灵活性。 用户可以在本地运行 LLMS 和 HPC 应用程序,而无需依赖云或数据中心。
- 你对此有何看法? -
- 欢迎留言**并在评论区分享。 -