近日,亚马逊、Microsoft、Meta、谷歌等科技巨头纷纷加大对自研芯片的投入,希望减少对英伟达的依赖。 值得注意的是,在人工智能和自动驾驶等应用的驱动下,大多数科技巨头选择定制芯片来满足自己的需求。 定制芯片的重要性日益凸显。
定制AI芯片的趋势正在上升
在人工智能模型热潮的推动下,英伟达这家占主导地位的公司正在迫使越来越多的科技巨头自己制造人工智能芯片。 11 月 28 日,亚马逊云科技 (AWS) 在 2023 年 Re:Invent 全球大会上宣布推出专为训练 AI 系统而设计的第二代 AI 芯片 Trainium2 和通用 GR**ITon4 处理器。 根据亚马逊网络服务首席执行官亚当·塞利普斯基(Adam Selipsky)的说法,Trainium2的功能是第一代Trainium的四倍,能效是其前身的两倍。 这相当于每个芯片 650 teraflops(每秒 1 万亿次浮点运算)的计算能力。 一个由100,000个钋芯片组成的集群可以在几周内训练出具有3000亿个参数的大型语言模型。
在 11 月 16 日举行的 Ignite 开发者大会上,Microsoft 还宣布推出两款自研芯片 MAIA100 和 COBALT100。 MAIA 100 用于加速 AI 计算任务,帮助 AI 系统更快地执行识别语音和图像等任务。 Cobalt 100 集成了 128 个计算核心。 这两款芯片均采用台积电的5nm工艺生产,预计将于明年初用于软数据中心。
除了亚马逊,英伟达的Microsoft、Meta、谷歌、特斯拉等主要客户今年都在投入更多资源进行AI芯片的研发,甚至OpenAI也开始准备芯片项目。 随着越来越多的企业进入大模领域,A100、H100等高端GPU需求急剧增加,科技巨头投资定制化AI芯片的趋势也愈演愈烈。
追求芯片性能和成本
高端GPU的短缺是科技巨头加大力度开发AI大规模模型芯片的原因之一。 随着越来越多的企业进入大机型领域,越来越多的大机型发布,导致市场上对A100、H100等高端GPU的需求急剧增加。 OpenAI 首席执行官 SAM Altman 一再抱怨计算能力不足。 根据《巴伦周刊》此前的报道,英伟达高端GPU的交付计划到2024年。 为了减少对 NVIDIA GPU 的依赖,有能力的公司已经加大了芯片开发力度,以创建、训练和迭代大型模型产品。
那么,为什么亚马逊、Microsoft等都朝着自主开发定制芯片的道路前进呢? 主要原因之一是各大厂商希望优化芯片性能,寻求差异化解决方案。 在摩尔定律放缓的背景下,之前依靠摩尔定律来驱动性能效率的路径越来越难以为继,最佳的计算性能必须依赖于特定应用和数据采集的架构。 特别是在AI大模型领域,不同的厂商有不同的差异化需求,越来越多的企业发现,一刀切的解决方案已经不能满足他们的计算需求。
Arm高级副总裁兼基础设施业务部总经理Mohamed Aad表示,阿里巴巴、AWS和Microsoft等超大规模云服务提供商已经开始开发自己的芯片,主要目的是最大限度地提高每个芯片的性能和效率,并实现最佳优化。 他们根据自己的用例、工作负载甚至自己的数据中心,围绕服务器、机架甚至自己的数据中心进行个性化设置。 随着 GPTS 等技术的发展,数据和计算量只会增加。 通过芯片定制,制造商可以进行优化,以支持不断增长的数据和计算量。
对于各大巨头来说,降低成本也可能是一个现实的考虑因素。 根据 Bernstein 分析师 Stacyrasgon 的分析,如果 ChatGPT 的查询量增长到谷歌搜索量的十分之一,它最初将需要价值约 480 亿美元的 GPU 和每年约 160 亿美元的芯片才能维持生计。 面对高昂的运营成本,自主研发的定制化芯片成为各大技术厂商的一致选择。 有分析人士表示,与使用英伟达的产品相比,Microsoft开发了代号为Athena的芯片,用于处理大型模型,有望使每颗芯片的成本降低1 3。
未来从云端延伸到边缘
Mohamed Awad认为,未来,越来越多的制造商将在基础设施领域采用定制化的芯片解决方案。 传统的服务器系统大多采用架构模型,其中单个CPU通过标准总线连接到多个加速器。 但在人工智能时代,这种架构一直难以跟上对数据和计算不断增长的需求,因为它无法获得足够的内存带宽。 为此,越来越多的模型制造商开始选择定制芯片,以便灵活调整芯片架构和重建系统。
事实上,定制芯片对主要技术制造商来说并不陌生。 亚马逊云科技于 2018 年开始设计定制 AI 芯片,推出了自研的 AI 推理芯片 Inferentia,并于 2023 年推出了 Inferentia 的迭代版 Inferentia 2,计算性能提升了三倍。 日前,亚马逊云科技发布了训练芯片trainium2。 上一代 Trainium 于 2020 年底推出。 谷歌定制芯片的历史甚至更早。 2020 年,谷歌实际上已经在其数据中心部署了 AI 芯片 TPU V4。 目前,谷歌已将负责AI芯片的工程团队转移到谷歌云,旨在提升谷歌云开发AI芯片的能力。
谈及定制芯片市场的未来发展,相关专家指出,随着AI大模型、汽车等热门应用的推广,定制芯片市场将进一步扩大,目前特斯拉等汽车制造商纷纷投入定制芯片的研发和商业化使用。 未来,定制芯片将从云计算和HPC延伸到边缘计算。 虽然这些应用可以由通用芯片处理,但为特定工作量身定制的芯片可以以更好的成本和能效优化性能或功能。 专家也表示,这种趋势对一般芯片厂商来说并不是很有利。 但是,对于IC产业链上的其他厂商来说,如EDA厂商、IP厂商、晶圆代工厂等,却是一件好事。