AI 服务器转型 探索接口互连芯片技术的创新突破

小夏 科技 更新 2024-02-05

根据Trendforce集邦咨询的数据,AI服务器出货量约为13万台,约占全球服务器总出货量的1%。 随着Microsoft、Meta、字节跳动等主要厂商推出基于生成式AI的产品和服务,订单数量大幅增加。 **在对 ChatGPT 等应用程序的持续需求的推动下,人工智能服务器市场预计将保持在每年 12 个,这是由于对 ChatGPT 等应用程序的持续需求2%的复合年增长率。 在这种背景下,人工智能服务器的发展尤为引人注目。

DGX H100 是 2022 年发布的最新版本的 NVIDIA DGX 系统,也是 NVIDIA DGX Superpod 的核心。 该系统配备 8 个 H100 GPU 和 6400 亿个晶体管,可提供上一代 6 倍的 AI 性能,尤其是在新的 FP8 精度方面。 此外,DGX 服务器可以提供 900GB 的带宽,展示了 AI 能力的显着提升。

DGX H100服务器使用IP网卡,既可以作为网卡使用,也可以作为PCIe扩展交换机使用,即PCIe 50 标准。 此外,该服务器还包括 CX7,它以 2 个卡的形式提供,每个卡包含 4 个 CX7 芯片,并提供 2 个 800G OSFP 端口。 对于 GPU 互连 (H100),NVSower 芯片起着关键作用。 每个 GPU 横向扩展 18 个 NVLint,以实现每个链路 50 GB 秒的双向带宽,总共 900 GB 的双向带宽。 这些带宽分布在四个内置 NVswitch 芯片上,每个芯片对应 4-5 个 OSFP 光模块。 每个OSFP光模块使用8个光通道,传输速率为100 Gbps通道,因此高速数据传输的总速率为800 Gbps。

PCIe交换机(也称为PCIe集线器)是用于通过PCIe通信协议连接PCIe设备的关键组件。 它通过扩展和聚合功能使多个设备能够连接到 1 个 PCIe 端口,从而在很大程度上克服了 PCIe 通道数量的限制。 如今,PCIe交换机已广泛应用于传统存储系统,并在各种服务器平台上越来越受欢迎,从而显著提高了系统内的数据传输速率。

随着时间的推移,PCIe总线技术的进步意味着PCIe交换机速率的逐渐提高。 最初由英特尔于 2001 年开发,作为第三代 IO 技术"3gio"2002年,经过PCI-SIG的评估后,它更名为PCI-SIG"pci express"。PCIe 1 接口0 成为一个重要的里程碑,支持每通道 250MB s 的传输速率和 2 的总传输速率5 gt/s。2022年,PCI-SIG正式发布PCIe 60 规格,将总带宽增加到 64 GT s。

在AI服务器中,至少需要一个重定时芯片来保证GPU和CPU连接时的信号质量。 一些 AI 服务器选择使用多个重定时芯片,例如 Astera Labs,它将四个重定时芯片集成到其 AI 加速器配置中。

目前,PCIe重定时市场潜力巨大,拥有三个领先品牌和许多潜在竞争对手。 目前,Parade Technologies、Astera Labs 和 Montage Technology 是这个蓬勃发展的市场的主要参与者。 值得注意的是,作为PCIe部署的早期采用者,澜起科技是中国大陆唯一一家能够量产PCIe 4的公司0 重新定时 ** 商。 此外,澜起科技还可用于 PCIe 5在“零重定时”的发展中也取得了稳步进展。

此外,瑞萨电子、TI和Microchip等芯片制造商也积极参与PCIe重定时产品的开发。 根据官方信息,瑞萨电子提供 2 个 PCIe 30 重定时产品,分别为 89HT0816AP 和 89HT0832P。 TI 提供 16Gbps 8 通道 PCIe 40 重新定时产品 - DS160PT801。 此外,2020 年 11 月,Microchip Technology 推出了 XpressConnect 系列重定时芯片,旨在实现 PCIe 50 以 32gt s 速率。

全球各大芯片厂商都非常重视高速连接的推广。 其中,英伟达的NVLink、AMD的Infinity Fabric、英特尔的CXL都做出了重要贡献。

NVLink 是 Nvidia 开发的一种高速互连技术。 它旨在加快 CPU 和 GPU 和 GPU 之间的数据传输速率,从而提高系统性能。 从 2016 年到 2022 年,NVLink 经历了多次升级,并发展到 ***2016 年,NVIDIA 推出了第一代 NVLink,发布了 Pascal GP100 GPU。 NVLink采用高速信号互连(NVHS)技术,主要用于GPU之间以及GPU与CPU之间的信号传输。 GPU 以 NRZ(不归零)的形式传输,使用差分阻抗电信号进行编码。 第一代NVLink单链路实现40Gbs双向带宽,单芯片可支持4条链路,总双向带宽为160GbS。

NVLink 技术经历了多次迭代,推动了高速互连的创新。 2017年,基于Volta架构推出第二代NVLink。 它实现了每链路 50Gbs 的双向带宽,每个芯片支持 6 条链路,总双向带宽为 300GbS。 2020年,基于Ampere架构的第三代产品发布,总双向带宽为600GB s。 2022年,基于料斗架构的***上线。 这次迭代转向使用 PAM4 调制电信号,每个链路保持 50Gbs 的双向带宽,每个芯片支持 18 个链路,总双向带宽为 900Gbs。

2018 年,Nvidia 推出了 NVSowerv 的初始版本,它提供了一种增强带宽、减少延迟并促进服务器内多个 GPU 之间通信的解决方案。 第一代 NVCoon 采用台积电的 12nm FinFET 工艺制造,具有 18 个 NVLink 20 接口。 通过部署 12 个 NVConos,1 台服务器可以容纳和优化 16 个 V100 GPU 之间的互连速率。

目前,NVSow已发展到第三代,采用台积电的4N工艺制造。 每个 NVSower 芯片都配备了 64 个 NVLink 40 端口,使 GPU 之间的通信速率达到 900 Gb s。 通过 NVLink Switch 互连的 GPU 可以共同作为具有深度学习功能的高性能加速器运行。

PCIe芯片、重定时芯片、NVSower等接口互连芯片技术的发展,大大增强了与CPU和GPU以及GPU之间交互的能力。 这些技术的相互作用凸显了人工智能服务器的动态格局,为高性能计算的发展做出了贡献。

相似文章

    国产服务器网卡与进口芯片服务器网卡性能测试

    服务器网卡的主要功能是管理和处理网络流量,这需要稳定 可靠和出色的数据传输。受近两年缺芯浪潮影响,国产芯片快速推进,不断取得新突破 新进展,成为工业以太网控制器领域的一颗冉冉升起的新星,为用户提供了更多选择。一些用户在购买网卡时,在国产产品和进口产品之间犹豫不决,甚至倾向于购买进口产品,认为国产产品...

    纬创是AI服务器芯片领域的一颗闪亮之星

    随着人工智能技术的快速发展,AI服务器芯片市场竞争激烈。近日,天风分析师郭明錤发布的 连锁调查报告显示,在这场三巨头混战中,纬创凭借过硬的技术实力和精准的市场定位,成为年AI服务器业务的主赢家。 AI服务器芯片市场 三巨头混战。目前,AI服务器芯片市场由英伟达 AMD和英特尔三巨头主导。这三家公司都...

    人工智能服务器的发展如何在满足需求和减少环境影响之间取得平衡?

    人工智能服务器的发展需要采取以下措施来平衡满足需求和减少对环境的影响 能效优化 通过开发高效节能的处理器和硬件设备,提高服务器的能效比,降低能耗。使用可再生能源 鼓励使用太阳能或风能等可再生能源发电,以减少对传统能源的依赖并减少碳排放。硬件更新和利用 利用先进的硬件技术优化服务器设计,同时促进旧设备...

    AI服务器订单大幅上升,行业领军企业一致称赞

    本文由Semiconductor Industry Vertical ID icViews 综合。到 年,该行业将对 AI 服务器寄予更多的增长预期。昨日,美国大型AI服务器制造商Supermicro创始人兼总裁梁建厚向员工发出内部信函,强调由于AI服务器订单层出不穷,公司年营收将冲刺至亿美元大关,...

    算力投入巨大 高端AI服务器市场需求激增

    过去,一台 AI 服务器可以容纳四块显卡,但现在客户想要能够容纳八块甚至十块显卡的高端设备。月日,在人工智能技术日暨首届人工智能生态发展峰会上,服务器厂商将展示全新升级的AI大模型服务器。中国第一报记者在现场了解到,AI大模型的迭代速度越来越快,厂商在智能算力方面的投入大幅增加,支持存储和训练的高端...