周二,在阿姆斯特丹举行的Cisco Live上,企业网络巨头思科宣布与NVIDIA合作,推出一系列针对当下最热门词汇量身定制的硬件和软件平台——AI ML:人工智能机器学习。
此次合作的关键点之一是使使用标准以太网更容易部署和管理人工智能系统,那些经历过获得CCNA和/或CCNP证书的人将很好地理解这一点。
为 AI 集群提供支持的 GPU 也经常是讨论的焦点,但支持 AI 集群所需的高性能、低延迟网络可能非常复杂。 现代 GPU 节点确实受益于 200Gbs、400Gbs 和即将推出的 800Gbs 高速网络,但这只是故事的一部分,尤其是在训练模型方面。 由于这些工作负载通常需要分布在具有四个或八个 GPU 的多个服务器上,因此任何额外的延迟都会导致更长的训练时间。
因此,NVIDIA 的 Infiniband 仍然主导着 AI 网络部署。 dell'Oro Group 的企业分析师 Sameh Boujelbene 最近在接受采访时估计,大约 90% 的部署使用 NVIDIA Mellanox 的 Infiniband 而不是以太网。
这并不是说以太网没有被认真对待。 新兴技术,如具有深度数据包缓冲区的 SmartNIC 和 AI 优化的交换机、有助于抑制数据包丢失的专用集成电路 (ASIC),使以太网至少更像 Infibland 一样运行。
例如,我们去年夏天谈到的思科硅一号G200交换机ASIC具有许多有利于AI网络的功能,包括高级拥塞管理、数据包喷射技术和链路故障转移。 但是,需要注意的是,这些功能并非思科独有,因为NVIDIA和Broadcom近年来推出了类似的交换机。
dell'Oro**到2027年,以太网在AI网络中的作用将占收入份额的20%左右。 其中一个原因是业界对以太网的熟悉程度。 人工智能部署可能仍需要一些特定的调整,但企业已经知道如何部署和管理以太网基础设施。
对于英伟达来说,仅此一项就使与思科等网络供应商的合作成为一个有吸引力的前景。 虽然这可能会减少 NVIDIA 自己的 Infiniband 或 Spectrum 以太网交换机的销售,但回报是能够为企业提供更多的 GPU,否则这些企业可能会对部署完全独立的网络堆栈持怀疑态度。
为了支持这些工作,思科和NVIDIA推出了参考设计和系统,旨在确保兼容性,并帮助解决部署网络、存储和计算基础设施方面的知识差距,以支持其AI部署。
这些参考设计面向企业可能已经投资的平台,包括 Pure Storage、NetApp 和 Red Hat 的套件。 该参考设计还有助于驱动思科的 GPU 加速系统。 其中包括将其 FlexPod 和 FlashStack 框架应用于 AI 推理工作负载的参考设计和自动化脚本。 许多人预计推理,特别是对于小型的、特定于领域的模型,将成为企业 AI 部署的主要部分,因为它的运行和训练成本相对较低。
FlashStack AI Cisco Verified Design (CVD) 是使用 Pure Storage 闪存阵列部署思科网络和 GPU 加速 UCS 系统的指南。 FlexPod AI ( CVD )似乎遵循类似的模式,将 Pure 换成了 NetApp 的存储平台。 思科表示,这些产品将于本月晚些时候上市,未来将推出更多基于NVIDIA的DVD。
值得一提的是思科的 UCS 计算平台,该平台还引入了采用 NVIDIA 最新 GPU 的以边缘为中心的 X 系列刀片系统。
X Direct 机箱有 8 个插槽,可以配置一个插槽或四个插槽计算刀片组合,或者配置用于 GPU 计算的 PCIe 扩展节点。 其他 X-Fabric 模块也可用于扩展系统的 GPU 容量。
不过,值得注意的是,与 NVIDIA 来自 Supermicro、Dell、HPE 等最强大的 SXM 模块不同,思科的 UCS X Direct 系统似乎只支持功耗更低的基于 PCIe 的 GPU。
根据UCS X Direct数据表,每台服务器最多可配备6个紧凑型GPU,或最多2个插槽全长全高GPU。
对于想要运行消耗数百 GB GPU 内存的大型语言模型的用户来说,这可能是一个限制。 但是,在运行较小的推理工作负载(例如边缘数据预处理)时,这可能就足够了。
思科的平台面向制造业、医疗保健业和运行小型数据中心的企业。