AI 服务器转型探索接口互连芯片技术的创新突破

根据Trendforce集邦咨询的数据，AI服务器出货量约为13万台，约占全球服务器总出货量的1%。随着Microsoft、Meta、字节跳动等主要厂商推出基于生成式AI的产品和服务，订单数量大幅增加。 **在对 ChatGPT 等应用程序的持续需求的推动下，人工智能服务器市场预计将保持在每年 12 个，这是由于对 ChatGPT 等应用程序的持续需求2%的复合年增长率。在这种背景下，人工智能服务器的发展尤为引人注目。

DGX H100 是 2022 年发布的最新版本的 NVIDIA DGX 系统，也是 NVIDIA DGX Superpod 的核心。该系统配备 8 个 H100 GPU 和 6400 亿个晶体管，可提供上一代 6 倍的 AI 性能，尤其是在新的 FP8 精度方面。此外，DGX 服务器可以提供 900GB 的带宽，展示了 AI 能力的显着提升。

DGX H100服务器使用IP网卡，既可以作为网卡使用，也可以作为PCIe扩展交换机使用，即PCIe 50 标准。此外，该服务器还包括 CX7，它以 2 个卡的形式提供，每个卡包含 4 个 CX7 芯片，并提供 2 个 800G OSFP 端口。对于 GPU 互连（H100），NVSower 芯片起着关键作用。每个 GPU 横向扩展 18 个 NVLint，以实现每个链路 50 GB 秒的双向带宽，总共 900 GB 的双向带宽。这些带宽分布在四个内置 NVswitch 芯片上，每个芯片对应 4-5 个 OSFP 光模块。每个OSFP光模块使用8个光通道，传输速率为100 Gbps通道，因此高速数据传输的总速率为800 Gbps。

PCIe交换机（也称为PCIe集线器）是用于通过PCIe通信协议连接PCIe设备的关键组件。它通过扩展和聚合功能使多个设备能够连接到 1 个 PCIe 端口，从而在很大程度上克服了 PCIe 通道数量的限制。如今，PCIe交换机已广泛应用于传统存储系统，并在各种服务器平台上越来越受欢迎，从而显著提高了系统内的数据传输速率。

随着时间的推移，PCIe总线技术的进步意味着PCIe交换机速率的逐渐提高。最初由英特尔于 2001 年开发，作为第三代 IO 技术"3gio"2002年，经过PCI-SIG的评估后，它更名为PCI-SIG"pci express"。PCIe 1 接口0 成为一个重要的里程碑，支持每通道 250MB s 的传输速率和 2 的总传输速率5 gt/s。2022年，PCI-SIG正式发布PCIe 60 规格，将总带宽增加到 64 GT s。

在AI服务器中，至少需要一个重定时芯片来保证GPU和CPU连接时的信号质量。一些 AI 服务器选择使用多个重定时芯片，例如 Astera Labs，它将四个重定时芯片集成到其 AI 加速器配置中。

目前，PCIe重定时市场潜力巨大，拥有三个领先品牌和许多潜在竞争对手。目前，Parade Technologies、Astera Labs 和 Montage Technology 是这个蓬勃发展的市场的主要参与者。值得注意的是，作为PCIe部署的早期采用者，澜起科技是中国大陆唯一一家能够量产PCIe 4的公司0 重新定时 ** 商。此外，澜起科技还可用于 PCIe 5在“零重定时”的发展中也取得了稳步进展。

此外，瑞萨电子、TI和Microchip等芯片制造商也积极参与PCIe重定时产品的开发。根据官方信息，瑞萨电子提供 2 个 PCIe 30 重定时产品，分别为 89HT0816AP 和 89HT0832P。 TI 提供 16Gbps 8 通道 PCIe 40 重新定时产品 - DS160PT801。此外，2020 年 11 月，Microchip Technology 推出了 XpressConnect 系列重定时芯片，旨在实现 PCIe 50 以 32gt s 速率。

全球各大芯片厂商都非常重视高速连接的推广。其中，英伟达的NVLink、AMD的Infinity Fabric、英特尔的CXL都做出了重要贡献。

NVLink 是 Nvidia 开发的一种高速互连技术。它旨在加快 CPU 和 GPU 和 GPU 之间的数据传输速率，从而提高系统性能。从 2016 年到 2022 年，NVLink 经历了多次升级，并发展到 ***2016 年，NVIDIA 推出了第一代 NVLink，发布了 Pascal GP100 GPU。 NVLink采用高速信号互连（NVHS）技术，主要用于GPU之间以及GPU与CPU之间的信号传输。 GPU 以 NRZ（不归零）的形式传输，使用差分阻抗电信号进行编码。第一代NVLink单链路实现40Gbs双向带宽，单芯片可支持4条链路，总双向带宽为160GbS。

NVLink 技术经历了多次迭代，推动了高速互连的创新。 2017年，基于Volta架构推出第二代NVLink。它实现了每链路 50Gbs 的双向带宽，每个芯片支持 6 条链路，总双向带宽为 300GbS。 2020年，基于Ampere架构的第三代产品发布，总双向带宽为600GB s。 2022年，基于料斗架构的***上线。这次迭代转向使用 PAM4 调制电信号，每个链路保持 50Gbs 的双向带宽，每个芯片支持 18 个链路，总双向带宽为 900Gbs。

2018 年，Nvidia 推出了 NVSowerv 的初始版本，它提供了一种增强带宽、减少延迟并促进服务器内多个 GPU 之间通信的解决方案。第一代 NVCoon 采用台积电的 12nm FinFET 工艺制造，具有 18 个 NVLink 20 接口。通过部署 12 个 NVConos，1 台服务器可以容纳和优化 16 个 V100 GPU 之间的互连速率。

目前，NVSow已发展到第三代，采用台积电的4N工艺制造。每个 NVSower 芯片都配备了 64 个 NVLink 40 端口，使 GPU 之间的通信速率达到 900 Gb s。通过 NVLink Switch 互连的 GPU 可以共同作为具有深度学习功能的高性能加速器运行。

PCIe芯片、重定时芯片、NVSower等接口互连芯片技术的发展，大大增强了与CPU和GPU以及GPU之间交互的能力。这些技术的相互作用凸显了人工智能服务器的动态格局，为高性能计算的发展做出了贡献。

AI 服务器转型探索接口互连芯片技术的创新突破

相似文章

国产服务器网卡与进口芯片服务器网卡性能测试

纬创是AI服务器芯片领域的一颗闪亮之星

人工智能服务器的发展如何在满足需求和减少环境影响之间取得平衡？

AI服务器订单大幅上升，行业领军企业一致称赞

算力投入巨大高端AI服务器市场需求激增

AI 服务器转型 探索接口互连芯片技术的创新突破

相似文章

国产服务器网卡与进口芯片服务器网卡性能测试

纬创是AI服务器芯片领域的一颗闪亮之星

人工智能服务器的发展如何在满足需求和减少环境影响之间取得平衡？

AI服务器订单大幅上升，行业领军企业一致称赞

算力投入巨大 高端AI服务器市场需求激增

AI 服务器转型探索接口互连芯片技术的创新突破

算力投入巨大高端AI服务器市场需求激增