使用NVIDIA和AMD的新芯片突破PCIe的束缚，解锁超高速传输

CPU 和 GPU 的融合：现代计算的“8087 时刻”

过去，CPU 依靠外部数学协处理器来提高浮点性能。今天，这一趋势正在逆转。随着 NVIDIA GH-200 处理器和 AMD Mi300A APU 的推出，GPU 已被整合到 CPU 架构中。

GPU 嵌入式处理器的兴起。

GPU 以其强大的加速数学处理能力而闻名。通过将 GPU 集成到 CPU 中，NVIDIA 和 AMD 在 HPC 性能方面取得了显着改进。

吸收外部性能硬件。

这种融合标志着计算领域的“8087时刻”，类似于早期的CPU吸收可选的数学协处理器。它预示着一种未来趋势，即外部性能硬件逐渐被CPU本身吸收。

再见PCI

GPU 到 CPU 内存连接瓶颈。

传统上，Nvidia 和 AMD 的 GPU 通过 PCI 总线与 CPU 通信。由于 CPU 和 GPU 具有单独的内存域，因此必须通过 PCI 接口在两者之间移动数据，从而造成带宽瓶颈。

NVIDIA Grace Hopper GH200 图形处理器

NVIDIA 的 Grace Hopper GH200 GPU 通过 900 Gb 秒的 NVLink-C2C 连接解决了这一瓶颈，比传统 PCIe 总线快约 14 倍。此外，GH200 实现了单个 CPU-GPU 共享内存域，无需移动数据。

GH200 内存架构。

GH200 具有高达 480 GB 的 LPDDR5X CPU 内存和 96 GB 或 144 GB 的 HBM3 GPU 内存。这些内存加起来为 576 GB 到 624 GB，并且在 CPU 和 GPU 之间完全可互操作。

amd instinct mi300a apu

AMD 的 Instinct Mi300A APU 还具有单个内存域，通过 Infinity Fabric 在 CPU 和 GPU 之间始终共享 128 GB 的 HBM3 内存。该封装的峰值吞吐量为 53 TB 秒。虽然目前不支持外部存储器扩展，但 CXL 将为未来的升级提供潜力。

单个存储域的好处。

GH200 和 MI300A 的单一存储域消除了传统方法中的 GPU 内存限制。这对于高性能计算（HPC）和生成式人工智能（GenAI）至关重要，它们需要在内存中加载大型模型并在 GPU 上运行它们。

统一内存扩展。

GH200 通过外部 NVLink 连接创建高达 20 TB 的统一内存，进一步突破了内存容量限制。

它离你的桌面不远

从高端技术到低成本商品市场：向高性能计算的转变。

高性能计算（HPC）正在经历从昂贵的新技术向更经济的商品市场的转变。一个值得注意的变化是迁移到单个内存域，将所有组件从多核移动到高级内存，从高端设备转移到“移动”设备。

gptshop.AI 的 GH200 工作站：适用于 HPC 和 GenAI 的低成本解决方案。

在 Linux 基准测试** Phronix 上，测试人员 Michael Larabel 在 GH200 工作站上运行了 HPC 基准测试。系统使用 GPTshopAI 的 Grace Hopper 超级芯片，提供令人印象深刻的 576GB 内存、双 2000+ W 电源和灵活的配置选项。

低噪声、高功率：非常适合非数据中心环境。

GH200 的一个独特之处在于其 450W 至 1000W 的 TDP 可编程范围（CPU + GPU + 内存），使其成为非数据中心环境的理想选择。此外，其默认风冷噪音仅为25分贝，提供安静的运行体验。液体冷却也是一种选择。

经济高效的单域内存解决方案。

虽然GH200不是低价产品，但考虑到目前的Nvidia H100 PCIe GPU在30,000到3之间，它的起价为47,500欧元（约合41,000美元）50,000 美元，加上主机系统的成本，使其成为一个有吸引力的系统。

GPTshop 工作站提供 576GB 的单域内存，这对于需要大量 CPU-GPU 内存的 HPC 和 GenAI 用户来说是一个宝贵的优势，大大超过了 H100 GPU 的 80GB 内存限制。

初步基准

借助 GPTshop，Phoronix 可以远程执行多个基准测试。基准应被视为初步结果，而不是最终业绩评估。这些测试仅适用于 CPU，不适用于 Hopper A100 GPU。因此，基线图不完整。 Phoronix 计划在未来将测试扩展到基于 GPU 的应用程序。

基线环境使用 Ubuntu 2310、linux 6.5 和 gcc-13 作为标准编译器。为确保测试一致性，在类似的环境中测试了类似的处理器，包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max。有关完整列表，请参阅 Phronix

遗憾的是，在基准测试运行期间无法获得功耗数据。根据 Phoronix 的说法，NVIDIA GH200 目前没有在 Linux 上公开，带有 Rapl PowerCap HWMON 接口，可用于读取其功耗和能耗。虽然系统 BMC 可以通过 Web 界面显示整个系统的功耗，但无法通过 IPMI 访问此数据。

尽管存在这些局限性，但这项研究首次在 NVIDIA 以外的环境中为 GH200 提供了一些关键基准。

好 Ole HPCG

ARM GH200 性能。

在 HPCG 内存带宽基准测试中，ARM GH200 以 42 Gflops 的性能脱颖而出，优于 Xeon Platinum 8380 2P （40 Gflops）和 Ampere Altra Max （41 Gflops）。

GH200 在 NWCHEM 基准测试中也表现出色，72 核 ARM GH200 运行时间仅为 1404 秒，仅次于领先的 128 核 EPYC 9554（1323 秒）。

值得注意的是，72 核 Arm Grace CPU 的性能几乎是 Ampere Altra Max 128 核 Arm 处理器的两倍。

未来功能

高端 CPU 集成到 GPU 架构中，以推动 AI 的发展。

NVIDIA GH200 和 AMD Mi300A 引入了新的处理器架构，将 GPU 集成到 CPU 中。与过去吸收数学协处理器类似，这标志着高端CPU开始吸收GPU并成为“专用”处理器。

Genai需求推动了**的下降。

尽管这些高端处理器目前价格昂贵，但对生成式人工智能（GenAI）的巨大兴趣可能会将它们推向商品价格点。随着更多基准的出现，这一趋势将继续下去。

个人高性能工作站的兴起。

内存充足的个人高性能工作站的出现具有重要意义。它们可以在办公室运行大型语言模型（LLM），并支持高内存、GPU 优化的高性能计算（HPC）应用程序等工作负载。

数据中心和云仍然很重要，但个人工作站提供了一个“重置按钮”。

数据中心和云仍然是计算的主力军，但个人高性能工作站的出现提供了灵活性。用户可以在本地运行 LLMS 和 HPC 应用程序，而无需依赖云或数据中心。

- 你对此有何看法？ -

- 欢迎留言**并在评论区分享。 -

使用NVIDIA和AMD的新芯片突破PCIe的束缚，解锁超高速传输

相似文章

突破自我，打破生活的桎梏

如果国产芯片再次突破，就不用担心AMD和NVIDIA了，把CPU之外的动力解放出来

美国霸权被打破了！伊朗和委内瑞拉联手挑战全球巨头

自尊和自信的挑战和突破建立积极自尊的必要性

振兴新突破，保持奋斗姿态，巩固和增强经济复苏积极态势

使用NVIDIA和AMD的新芯片突破PCIe的束缚，解锁超高速传输

相似文章

突破自我，打破生活的桎梏

如果国产芯片再次突破，就不用担心AMD和NVIDIA了，把CPU之外的动力解放出来

美国霸权被打破了！伊朗和委内瑞拉联手挑战全球巨头

自尊和自信的挑战和突破 建立积极自尊的必要性

振兴新突破，保持奋斗姿态，巩固和增强经济复苏积极态势

自尊和自信的挑战和突破建立积极自尊的必要性