人工智能是数字经济的核心驱动力,AI模型是人工智能的新引擎。 近年来,随着ChatGPT等生成式人工智能(AIGC)的快速发展,行业大佬竞相推出万亿级、万亿级的大模型,也对底层GPU支持规模提出了更高的要求,达到了万卡级别。 然而,如何应对如此大规模的训练任务,对网络的规模、性能、可靠性和稳定性提出了前所未有的挑战。
AI应用中的计算量呈指数级增长,算法模型正在向巨型量化发展,目前AI超大模型的参数已经达到了千亿万亿级。 毫无疑问,训练这样的模型需要超高的计算能力。 AI超大型模型在GPU上训练,互联网络要求在100Gbps到400Gbit/s之间,采用RDMA协议降低传输时延,提高网络吞吐量。
在AI大模型训练场景中,机上机下集体通信操作将产生大量的通信数据。 流水线并行、数据并行、张量并行模式需要不同的通信操作,对网络的单端口带宽、节点间可用链路数、网络总带宽等都提出了很高的要求。
网络抖动会使集体通信效率低下,从而影响大型AI模型的训练效率。 因此,维护网络稳定和高效是AI大模型训练任务周期中极其重要的目标,这给网络运维带来了新的挑战。
数据通信传输过程中产生的网络时延由静态时延和动态时延两部分组成,其中动态时延对网络性能的影响较大。 动态时延包括交换机内部排队时延和丢包重传时延,通常是由网络拥塞和丢包引起的。
由于 AI 大模型训练中的集群规模较大,这进一步增加了配置的复杂性。 在庞大的架构和配置条件下,业务人员可以简化配置和部署,有效保证整体业务效率。
大型AI模型对网络的要求主要体现在规模、带宽、时延、稳定性等几个方面。 从当前数据中心网络的实际能力来看,要完全满足大型AI模型的要求,在技术上还有一定的差距。
随着大模型训练对算力需求的不断提高,智能计算GPU已经从10000张卡变成了10000张卡,面对超过10000张卡的建设需求,传统的网络解决方案是CLOS架构,通常允许一台服务器配备8张GPU卡, 对应的8张10000张卡连接在单个HB域中的8个服务器叶上,实现一个服务器叶上相同卡号的GPU的通信。同时,为了保证高速,各级要保证1:1不收敛,以128口盒装设备为例,服务器叶和主干设备的端口上下分配64个端口,超级主干设备的128个端口全部用于下行接入, 基于此端口规划,整体网络规模有8个HB域、64个Pod和64个Fabric,网卡接入规模为32768。
直观地看出,整体网络架构极其复杂,不仅网络建设成本高,网络路径跳点大,后续运维和故障排除难度极大。
全网状网络的成本很高。
交叉叶交换机在路径上有 3 个跳,跨 Pod 的跳数更多,大大增加了业务延迟。
网络结构复杂,运维和故障排除难度大。
以 32,768 个 GPU 和 128 个终端为例
CLOS 层数:3 层。
开关:1,280 = ((64 + 64) x 8) + 256 个开关
发光器数量:196608
为了缩小技术差距,星融源推出了星智AI网络解决方案,为LLM大模型场景构建了大规模、低时延、大带宽、高稳定性、自动化部署的AI承载网络。
一、项目介绍
与传统方案相比,行知AI网络消除了不同GPU卡号跨GPU服务器之间的连接,只保留了与GPU连接的Leaf层交换机,并将原来用于上行Spine的所有端口都用于下行GPU,进一步提高了Leaf交换机的连接效率,并且这种网络架构仍可以通过**实现不同HB域之间的通信。
不同计算节点的服务器之间数量相同的网络端口需要连接到同一交换机。 例如,智能计算服务器1的1号RDMA网口、智能计算服务器2的1号RDMA网口、智能计算服务器n的1号RDMA网口都连接到1号交换机。
在智能计算服务器中,上层通信库基于机内网络拓扑进行网络匹配,使相同编号的GPU卡可以与相同编号的网口相关联。 这样一来,两个GPU编号相同的智能计算节点,只需一跳即可相互通信。
借助NCCL通信库中的Rail Local技术,可以充分利用主机中GPU之间的NVSWITCH带宽,将多台机器之间的GPU间互操作性转换为多个CPU之间的GPU间互操作性。
星智AI网络解决方案轻松构建智能计算中心的万卡网络,满足用户对智能计算中心网络建设的需求,避免了智能计算中心传统网络的缺点。
在不影响性能的情况下,简化了网络架构,大大降低了用户网络建设的成本。
网络只需要一跳,减少了业务延迟。
简化网络结构,降低运维和故障排除难度。
以 32,768 个 GPU 和 128 个终端为例
CLOS 层数:1 层(仅限导轨)。
所需开关数:256。
发光体数量:65536
网络成本的最大降低幅度为 75%。
2. 方案优势
性能提升:增加单节点网络带宽
1)增加网卡数量,初期业务量小,可以考虑CPU和GPU共享,后期为CPU准备1-2个单独的网卡,为GPU准备4-8个网卡;
2)增加单个网卡的带宽,使主机PCIe的带宽与网络交换机的带宽相匹配。
性能改进:应用RDMA网络(ROCE)
1)借助RDMA技术,减少了GPU通信过程中的数据复制次数,优化了通信路径,降低了通信延迟。
2)通过Easy ROCE技术,一键提供复杂的ROCE相关配置(如PFC、ECN),有效帮助用户降低运维复杂度。
性能改进:减少网络拥塞
1)降低网络延迟,提高GPU效率:400ns的超低延迟;
2)通过DCB协议组减少网络拥塞:PFC、PFC Watchdog、ECN构建全以太网零丢包、低时延网络;
随着ChatGPT、Copilot、文心一言等大规模模型应用的出现,AI大规模模型下的智能计算中心网络也将带来新的升级。 星荣源持续投入研发,星智AI网络解决方案在客户现场测试中得到认可。 我们将携手AI厂商,逐步推动AI大模型下智能计算中心网络关键技术的成熟和落地,持续追求更好的用户场景解决方案,期待与众多合作伙伴共同构建大规模、高带宽、高性能、低时延、智能AI大模型智能计算中心网络。
关注VX公众号“星荣源Asterfusion”,获取更多技术分享和最新产品动态。