使用NVIDIA和AMD的新芯片突破PCIe的束缚,解锁超高速传输

小夏 科技 更新 2024-03-03

CPU 和 GPU 的融合:现代计算的“8087 时刻”

过去,CPU 依靠外部数学协处理器来提高浮点性能。 今天,这一趋势正在逆转。 随着 NVIDIA GH-200 处理器和 AMD Mi300A APU 的推出,GPU 已被整合到 CPU 架构中。

GPU 嵌入式处理器的兴起。

GPU 以其强大的加速数学处理能力而闻名。 通过将 GPU 集成到 CPU 中,NVIDIA 和 AMD 在 HPC 性能方面取得了显着改进。

吸收外部性能硬件。

这种融合标志着计算领域的“8087时刻”,类似于早期的CPU吸收可选的数学协处理器。 它预示着一种未来趋势,即外部性能硬件逐渐被CPU本身吸收。

再见PCI

GPU 到 CPU 内存连接瓶颈。

传统上,Nvidia 和 AMD 的 GPU 通过 PCI 总线与 CPU 通信。 由于 CPU 和 GPU 具有单独的内存域,因此必须通过 PCI 接口在两者之间移动数据,从而造成带宽瓶颈。

NVIDIA Grace Hopper GH200 图形处理器

NVIDIA 的 Grace Hopper GH200 GPU 通过 900 Gb 秒的 NVLink-C2C 连接解决了这一瓶颈,比传统 PCIe 总线快约 14 倍。 此外,GH200 实现了单个 CPU-GPU 共享内存域,无需移动数据。

GH200 内存架构。

GH200 具有高达 480 GB 的 LPDDR5X CPU 内存和 96 GB 或 144 GB 的 HBM3 GPU 内存。 这些内存加起来为 576 GB 到 624 GB,并且在 CPU 和 GPU 之间完全可互操作。

amd instinct mi300a apu

AMD 的 Instinct Mi300A APU 还具有单个内存域,通过 Infinity Fabric 在 CPU 和 GPU 之间始终共享 128 GB 的 HBM3 内存。 该封装的峰值吞吐量为 53 TB 秒。 虽然目前不支持外部存储器扩展,但 CXL 将为未来的升级提供潜力。

单个存储域的好处。

GH200 和 MI300A 的单一存储域消除了传统方法中的 GPU 内存限制。 这对于高性能计算 (HPC) 和生成式人工智能 (GenAI) 至关重要,它们需要在内存中加载大型模型并在 GPU 上运行它们。

统一内存扩展。

GH200 通过外部 NVLink 连接创建高达 20 TB 的统一内存,进一步突破了内存容量限制。

它离你的桌面不远

从高端技术到低成本商品市场:向高性能计算的转变。

高性能计算 (HPC) 正在经历从昂贵的新技术向更经济的商品市场的转变。 一个值得注意的变化是迁移到单个内存域,将所有组件从多核移动到高级内存,从高端设备转移到“移动”设备。

gptshop.AI 的 GH200 工作站:适用于 HPC 和 GenAI 的低成本解决方案。

在 Linux 基准测试** Phronix 上,测试人员 Michael Larabel 在 GH200 工作站上运行了 HPC 基准测试。 系统使用 GPTshopAI 的 Grace Hopper 超级芯片,提供令人印象深刻的 576GB 内存、双 2000+ W 电源和灵活的配置选项。

低噪声、高功率:非常适合非数据中心环境。

GH200 的一个独特之处在于其 450W 至 1000W 的 TDP 可编程范围(CPU + GPU + 内存),使其成为非数据中心环境的理想选择。 此外,其默认风冷噪音仅为25分贝,提供安静的运行体验。 液体冷却也是一种选择。

经济高效的单域内存解决方案。

虽然GH200不是低价产品,但考虑到目前的Nvidia H100 PCIe GPU在30,000到3之间,它的起价为47,500欧元(约合41,000美元)50,000 美元,加上主机系统的成本,使其成为一个有吸引力的系统。

GPTshop 工作站提供 576GB 的单域内存,这对于需要大量 CPU-GPU 内存的 HPC 和 GenAI 用户来说是一个宝贵的优势,大大超过了 H100 GPU 的 80GB 内存限制。

初步基准

借助 GPTshop,Phoronix 可以远程执行多个基准测试。 基准应被视为初步结果,而不是最终业绩评估。 这些测试仅适用于 CPU,不适用于 Hopper A100 GPU。 因此,基线图不完整。 Phoronix 计划在未来将测试扩展到基于 GPU 的应用程序。

基线环境使用 Ubuntu 2310、linux 6.5 和 gcc-13 作为标准编译器。 为确保测试一致性,在类似的环境中测试了类似的处理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max。 有关完整列表,请参阅 Phronix

遗憾的是,在基准测试运行期间无法获得功耗数据。 根据 Phoronix 的说法,NVIDIA GH200 目前没有在 Linux 上公开,带有 Rapl PowerCap HWMON 接口,可用于读取其功耗和能耗。 虽然系统 BMC 可以通过 Web 界面显示整个系统的功耗,但无法通过 IPMI 访问此数据。

尽管存在这些局限性,但这项研究首次在 NVIDIA 以外的环境中为 GH200 提供了一些关键基准。

好 Ole HPCG

ARM GH200 性能。

在 HPCG 内存带宽基准测试中,ARM GH200 以 42 Gflops 的性能脱颖而出,优于 Xeon Platinum 8380 2P (40 Gflops) 和 Ampere Altra Max (41 Gflops)。

GH200 在 NWCHEM 基准测试中也表现出色,72 核 ARM GH200 运行时间仅为 1404 秒,仅次于领先的 128 核 EPYC 9554(1323 秒)。

值得注意的是,72 核 Arm Grace CPU 的性能几乎是 Ampere Altra Max 128 核 Arm 处理器的两倍。

未来功能

高端 CPU 集成到 GPU 架构中,以推动 AI 的发展。

NVIDIA GH200 和 AMD Mi300A 引入了新的处理器架构,将 GPU 集成到 CPU 中。 与过去吸收数学协处理器类似,这标志着高端CPU开始吸收GPU并成为“专用”处理器。

Genai需求推动了**的下降。

尽管这些高端处理器目前价格昂贵,但对生成式人工智能(GenAI)的巨大兴趣可能会将它们推向商品价格点。 随着更多基准的出现,这一趋势将继续下去。

个人高性能工作站的兴起。

内存充足的个人高性能工作站的出现具有重要意义。 它们可以在办公室运行大型语言模型 (LLM),并支持高内存、GPU 优化的高性能计算 (HPC) 应用程序等工作负载。

数据中心和云仍然很重要,但个人工作站提供了一个“重置按钮”。

数据中心和云仍然是计算的主力军,但个人高性能工作站的出现提供了灵活性。 用户可以在本地运行 LLMS 和 HPC 应用程序,而无需依赖云或数据中心。

- 你对此有何看法? -

- 欢迎留言**并在评论区分享。 -

相似文章

    突破自我,打破生活的桎梏

    敢于突破 开启无限可能的生活。有时,我们认为自己已经到了能力的极限,无法实现更多的创新和突破。然而,情况往往并非如此。很多时候,我们之所以无法取得更多成就,是因为缺乏走出去的勇气,给自己的生活设限,徒劳地错过了更多的可能性。开始生活永远不会太晚。很多时候,我们总是在等待一个完美的时刻,一个恰到好处的...

    如果国产芯片再次突破,就不用担心AMD和NVIDIA了,把CPU之外的动力解放出来

    如果再次突破国产芯片,就不用担心AMD和英伟达了,把CPU之外的动力解放出来。近日,摩尔光纤在北京推出了图形处理器,这一领域曾被AMD 英伟达 英特尔等美国公司垄断,如今正被中国企业进入,对中国半导体产业具有重要意义。数据显示,占全球GPU市场 以上的英特尔凭借在PC芯片领域的领先地位和在芯片领域的...

    美国霸权被打破了!伊朗和委内瑞拉联手挑战全球巨头

    美国,是超级大国还是纸老虎?最近,伊朗海军的行动再次引起人们的关注。伊朗的 萨汉德 号和 马克兰 号 突破了美国的封锁,成功进入大西洋,引起了国际社会的广泛关注。这是一场政治秀,还是对美国霸权的真正挑战?伊朗和委内瑞拉 团结起来反对霸权的兄弟。美国一直把伊朗和委内瑞拉视为秉持其霸权的对象。在美国的制...

    自尊和自信的挑战和突破 建立积极自尊的必要性

    自尊和自信是每个人在生活和工作中不可或缺的品质。然而,我们经常会遇到各种挑战和困难,导致我们的自尊和自信受到打击。面对这些挑战,我们如何应对并克服它们以建立积极的自尊?首先,我们需要认识到自尊和自信的重要性。自尊是一个人对自己的价值和能力的评价,而自信是相信自己可以成功完成任务或应对某种情况。自尊心...

    振兴新突破,保持奋斗姿态,巩固和增强经济复苏积极态势

    保持奋斗姿态,巩固和增强经济复苏的积极态势 关于贯彻落实省委经济工作会议精神 刚刚闭幕的省委经济工作会议总结了今年经济工作,认为全面振兴新突破三年行动第一年的主要目标任务有望圆满完成,这是鼓舞士气 鼓舞人心的重大喜讯。伟大的工作必须有结果,奋斗才会得到回报。年回顾辽宁携手走过了一段不平凡的征程。省委...