“传统架构已经使用了几十年,但在人工智能时代,这样的架构已经不够用了。 近日,在北京举行的ARM技术研讨会年度技术大会上,ARM高级副总裁兼基础设施事业部总经理Mohamed Aad发表了这样的表态。
目前,在人工智能的推动下,云计算基础设施正在经历一波变革。
底层架构需要完全创新
下面的图 1 展示了传统的服务器体系结构。 在过去的几十年里,几乎所有服务器都遵循以通用、现成的 CPU 为中心的架构,两端都连接着内存和多个加速器。
在人工智能时代,这样的架构已经不够用了。 根据AWAD的说法,“在这样的架构下,CPU和加速器之间的接口直接限制了产品的最终性能水平,因为所有的加速器都必须通过单个CPU访问额外的内存,这并不能实现内存一致性,这意味着加速器的性能无法得到充分利用, 因此不能很好地支持生成式人工智能时代的需求。 ”
传统云计算服务器架构与新架构(**ARM)的比较。
为了应对日益复杂多样的市场需求,基础设施专业化正在成为行业趋势。 越来越多的云计算厂商开始定制甚至开发自己的芯片,其主要目的是为其服务器集群提供最合适的基础设施,以实现最佳性能。 从阿里平头革推出易天710,昆仑芯推出K100、K200、R200系列AI加速卡,到谷歌云推出全新AI芯片Cloud TPU V5E,以及近期云计算巨头Microsoft也发布了AI加速芯片MAIA100和CPU芯片Azure Cobalt 100,正式加入核心制造行列。 据了解,上述芯片产品目前主要用于服务于公司或母公司的云计算业务。
云计算供应商正在构建更适合其业务需求的服务器集群。
通信基础设施专业化的需求不仅存在于云计算提供商中,也存在于5G云网络基础设施提供商中。 联想集团副总裁、云网融合事业部总经理关洪峰介绍了目前5G专网建设情况,来自教育、制造、交通、零售、环保、政务等不同领域的客户对5G专网有着不同的要求。 关洪峰表示,不同垂直行业的客户对个性化服务有强烈需求,希望通过更多定制化的基础设施建设解决方案,降低5G专网的建设成本。
关洪峰介绍了云网融合在行业的发展情况。
如何优化计算基础设施?
为了应对AI给云计算基础设施带来的巨大计算压力,需要从架构的底层对系统进行创新。 以现代系统架构为例,将单个存储器和单个CPU连接到多个加速卡的结构进行了调整,以存储器、定制CPU和加速卡对应的结构。 这样一来,加速卡就可以有效地与CPU和内存联动,实现整个设备的内存一致性。 这个思路下更重要的是定制能力,也就是上图中定制的CPU和加速卡是否能够灵活配置。 这也是云计算厂商面临的一个共性问题:产品中需要突出哪些功能,必须实现哪些功能,必须有足够的灵活性。
ARM为云计算厂商优化性能、定制功能提供了助推器:一方面提供了功能强大的核心,另一方面又允许用户在此基础上进行个性化改造,从而帮助客户快速实现产品上市。 例如,英伟达GH200 Grace Hopper超级芯片采用ARM架构,使用72个ARM Neoverse内核,结合英伟达自家的GPU,进一步优化芯片的性能,其AI性能相比基于x86架构的系统可以提升10倍。 近日,AWS发布的GR**ITon4也是基于Arm Neoverse平台的处理器设计。 与 GR**iton3 相比,处理器速度提高了 30%,核心数量增加了 50%,内存带宽增加了 75%。
Mohamed Awad 在北京举行的 Arm Tech Symposia 年度技术大会上发表了主题演讲。
自主研发的芯片可以更大程度地满足自身的业务需求。 对于像AWS和阿里云这样的云计算服务提供商来说,他们是应用端,因此这类企业会根据自己的用例和工作负载,围绕服务器、机架甚至数据中心进行定制。 然而,并不是每家公司都拥有AWS成熟的技术实力,在芯片研发上实现高度的自主性。
为此,ARM为其合作伙伴提供了另一件“法宝”——ARM Neoverse计算子系统(CSS),一方面可以充分发挥Neoverse平台的性能和每瓦效率优势,另一方面可以帮助芯片企业减轻芯片压力,提高上市时间效率。
在接受《中国电子报》采访时,AWAD表示:“通过使用我们的Neoverse CSS,有一个合作伙伴的项目从概念到流片只用了13个月。 ”
借助Neoverse CSS,ASIC设计公司可以快速启动设计项目,并使其设计随时提供给他们需要的客户IP** 供应商可以为 Neoverse CSS 预集成、预验证和预优化高级 IP商业固件解决方案公司可以在芯片流片之前开始开发芯片。 Microsoft上个月发布的最新Azure Cobalt 100也是建立在Neoverse CSS之上的。
除此之外,ARM在优化云计算的性价比方面也做了很多努力。 记者在活动现场展台了解到,在相同的网络、相同的内存比例、相同的VCPU数量、相同的磁盘和应用负载下,基于ARM平台的实例相比x86至少具有20%的性能优势,并且还能实现至少20%的成本节约。 在一些特定的计算密集型场景下,如H265**编码,其性能是x86云实例的两倍。
ARM架构追求更高的性能和更低的成本。
完整的生态系统为芯片设计提供了“加速器
在ARM的发布会上,有两个数字给记者留下了深刻的印象:13和80。
13 指的是通过使用 Neoverse CSS,芯片设计在短短 13 个月内就完成了从概念到流片的整个过程。 而 80 是指通过使用 Neoverse CSS,企业节省了相当于 80 名工程师一年的开发时间。
当被问及为什么CSS可以帮助企业缩短芯片设计周期时,ARM中国全球副总裁邹婷表示:“一个完整的生态系统是关键,ARM的生态系统可以为芯片开发的各个阶段保驾护航。 ”
Arm中国全球副总裁邹婷在北京举行的ARM技术研讨会年度技术大会上发表演讲。
在设计工具方面,Cadence 和 Synopsys 等公司提供经过验证的 EDA 工具在IP设计方面,RAMBUS提供了预集成IP,已经集成了存储器、安全和外设等功能在芯片设计方面,AdTechnology、Alphaw**e Semi、Broadcom、Capgemini、Faraday Technology等公司可以提供NeoverseCSS和其他ARM IP和方法的设计服务和专业知识在芯片代工方面,有来自英特尔IFS(Foundry Services)和台积电等代工合作伙伴的技术,可以为芯片设计公司提供领先的工艺节点和先进的封装技术。
用邹婷的话说,选择ARM就等于选择了一条久经考验的产业链。 从EDA工具到芯片设计再到代工流片,ARM及其现有合作伙伴已经实现了全程的跑通和验证,新客户可以在常规流程中“抄作业”,从而专注于产品创新,打造差异化竞争力。
在ARM年度技术大会上,台积电相关负责人表示:“作为制造环节,我们与包括ARM在内的设计生态伙伴保持长期紧密合作,为客户提供经过验证的设计解决方案。 台积电与ARM多年来积累了大量合作经验,在开发新技术的同时,实现了客户与合作伙伴同步开发与优化,加速产品设计开发与市场投放。 ”
在中国,越来越多的企业看到了ARM现有的生态优势,于是纷纷加入到这个生态圈中,成为其中的一部分。 例如,国内汽车电子软件公司智聪科技,为汽车芯片等汽车相关产品提供基础软件和工具软件,也最大程度适配ARM核心的芯片。 这与ARM建立了良好的生态连接有很大关系。
ARM 的生态系统使合作伙伴能够更轻松地构建定制芯片并对其进行改进,以跟上时代和客户需求的步伐。 ARM 及其生态系统合作伙伴正在积极开展许多计划,例如 AMBA、Chi、C2C 和 UCIE。 ARM 正在推动底层接口和系统架构之间的行业一致性,以实现创新的多芯片 SoC 设计。 目前,半导体行业最热门的技术路线探索,也是ARM及其合作伙伴的到场。 例如,SocioNext基于Neoverse CSS技术的多核CPU芯片,正在台积电的2nm工艺节点上设计和开发,为服务器CPU、数据中心AI边缘服务器和5G 6G基础设施提供解决方案。 展望未来,Arm 将继续与各方合作,确保高性能、高效率的解决方案广泛可用,以帮助满足对 AI 的巨大需求。
作者丨季晓婷编辑丨张欣怡梅 编辑丨Maria 制片人丨连晓东