英伟达市值超过2万亿位居全球第三后,谁能挑战它所依赖的GPU芯片?
一种称为 LPU 的 AI 推理芯片可能是答案。
在使用大模型的过程中,很多人会发现大模型回答问题很慢,答案通常一个字一个字或一句一句地跳出来,伴随着口吃。 不过,在LPU的加持下,大模型得到了极大的加速,每秒可以输出500个代币,远高于ChatGPT每秒40个代币的性能。 常用的大模型都是基于GPU加速的,平均速度为每秒20个代币。
自 2 月 19 日以来,这款 LPU 继续成为热点,扮演着 Nvidia GPU 挑战者的角色。 英伟达的主力芯片H100很难找到,这给Groq带来了机会。
LPU来自独角兽公司Groq,该公司成立于2016年,拥有一支明星研发团队。 Groq 的团队来自谷歌,一手打造了谷歌的 TPU 芯片项目。 英伟达曾经发明了“GPU(图形处理单元)”这个术语来销售显卡,而Groq专门发明了“LPU”,指的是“语言处理单元”,专门用于大型语言模型推理任务。
Groq表示,LPU芯片的速度比H100快10倍,成本只有它的十分之一,可以说是将大机的速度从“功能机”级别提升到了“智能手机”级别,在NVIDIA最尴尬的时刻成功成为市场的“新宠”。
被撬开的裂缝
围绕 Groq LPU 的讨论形成了两个方向。 国外开发者纷纷借助GroQ LPU开始了各种DIY,不同应用的开发者都发出了同样的感叹:速度太快了! 国内技术界就GROQ LPU的成本进行了辩论,并对LPU背后的技术进行了深入解读。
Groq 提供数据,其 LPU 可以提供 10 倍于 Nvidia H100 的速度,而推理成本仅为十分之一。
这种说法引发了质疑。 AI科学家贾阳青的计算表明,Groq LPU虽然速度很快,但每年的电费却比H100高出10倍。 更多的讨论证实,Groq LPU既没有运营成本的优势,也没有采购成本的优势。
原因很简单:Groq 提到的“推理成本”主要用于衡量性能,它指的是“节能”。 该行业描述成本并使用“电源效率”,这与电力消耗直接相关。 这意味着LPU与H100测试相比的数据是好的,但实际参考值并不高。
此外,Groq LPU 的内存容量为 230MB,H100 的内存容量为 80GB。 然后,运行相同大小的大型模型需要大量 Groq LPU。
Groq LPU 集群具有惊人的计算能力,带来了非常高的吞吐量和容量,同时也会导致非常高的功耗,这反映在我们在推理中看到的非常高的输出速度和非常低的延迟。
然后,这并没有成为Groq LPU进入市场的障碍。
爆料后,GroQ创始人乔纳森·罗斯(Jonathan Ross)在社交平台X上炫耀了芯片交付,暗示自己已经成功打开了AI芯片市场的局面。
几乎在一周内,Groq 成立了一个新的部门 Groq Systems,专注于为客户和开发人员构建生态系统; 同时,它宣布收购初创公司Definitive Intelligence,以加强GroqCloud业务; 随后,他与沙特阿美合作,构建了GroqCloud的推理能力。
此外,Groq LPU 不依赖三星或海力士的 HBM 以及台积电的 CODOS 封装,**链完全在北美,采用成熟的 14nm 工艺。 可以说,几乎所有导致主流芯片紧张的因素都被绕过了。 创始人罗斯进一步表示,420,000 个 LPU,目标是通过合作将部署范围扩大到 220,000 个,到明年部署 150 万个。
看来,英伟达主导的AI芯片市场的裂缝已经被撬开了。
AI专用芯片领域有100多家初创公司,其中许多声称他们的芯片可以与H100相媲美,但很少有人能经得起Groq LPU所经历的讨论。 Groq创始人乔纳森·罗斯(Jonathan Ross)对市场有自己的理解,他认为“没有人买东西是因为它更好,而是因为他们有未解决的问题。 Groq 做事的方式非常不同。 ”
与 CPU 或 GPU 相比,GroQ LPU 设计的“软件定义”方法正在成为自动驾驶、网络、存储和其他硬件的趋势。
专用芯片的确定性
经典的“软件吞噬世界”对互联网进行了总结和预测。 在com和app时代,特斯拉前人工智能总监安德烈·卡帕西(Andrej Karpathy)强调,“软件20“,即”软件吞噬世界,AI吞噬软件”。
过去的软件是用Python、C++等语言编写的,程序员能够解释它的每一行,代表“软件10”。安德里亚·卡帕斯(Andrea Karpas)认为,“软件2“0”指的是一个抽象的神经网络,程序员只能在其中编写框架,几乎没有办法深入研究它们。 与二进制文件或脚本相比,神经网络的矩阵乘法可以在许多计算配置上运行。 随着神经网络成为标准商品,软件优先、软件定义的硬件成为可能。
安德烈·卡帕斯(André Karpas)帮助特斯拉推出了基于这一理念的自动驾驶系统,从一开始,他就坚定地致力于使用基于视觉的算法,不依赖激光雷达和高清地图。
如今,神经网络算法被用于解决科学、交通、安全等领域的各种问题,并且由于深度神经网络需要大量的矩阵计算,因此通常是计算密集型任务。 大模型的爆炸式增长进一步增加了计算的规模和复杂度,给传统的CPU和GPU架构带来了挑战。
CPU 和 GPU 的微架构不是为深度神经网络设计的,但它们的许多固有特性使指令执行的顺序和时间不确定且难以推理。 例如,在大型语言模型中,计算处理通常是串行的,而不是并行的,如果没有第n个值,则无法实现n+1个值。 因此,采用并行设计的 GPU 无法在大型语言模型中运行完全高性能。
Groq表示,它“受到软件优先思维的启发”,更新了芯片架构,针对串行任务进行了优化,并消除了芯片中的无关电路。 这种设计与GPU形成鲜明对比,GPU就像一个大型车间,工人在工作的不同部分移动。 LPU提供了一条装配线,可以按顺序和有组织的方式处理数据任务。
Groq 花了很长时间才想出这些想法,GroQ 的风险投资家 Chamath Palihapitiya 在播客中分享了 Groq 团队在创业期间是如何失败的。
Groq在早期考虑激光雷达解决方案时曾寻求与特斯拉合作,但遭到“善意拒绝”。 后来,该团队试图将该技术出售给高频交易客户和三信机构,但均以失败告终。 直到他们看到 NVIDIA 的 CUDA,Groq 团队才意识到他们必须构建一个能够适应各种模型的高级编译器。 自成立以来,Groq 将近一半的时间都花在了编译器开发上。
Groq LPU实现了软件定义的硬件,芯片将管理权移交给编译器,编译器负责调度和执行控制,承担非确定性的任务,从而确保芯片硬件可以专注于确定性计算。 这种方法从根本上绕过了传统的、以硬件为中心的架构模型的局限性,并成为 Groq LPU 低延迟和高吞吐量的基础。
“软件定义”并不是一个新概念,但近年来它再次流行起来。 例如,英特尔在基辛格的领导下提出了“软件定义、芯片增强”的战略。 基辛格说,软件间接定义了英特尔的代工战略和工厂生产加速器芯片的能力。 在智能驾驶领域,软件定义汽车几乎是所有参与者共同决定的方向。
Groq将“软件定义”应用于芯片设计,并进一步扩展到芯片集群。 据GroQ介绍,与其他云算力相比,Groq Cloud加速的大模型速度可以提升18倍。
通用芯片的瓶颈
如今的大型模型由A100、H100等通用GPU支撑,可以提供巨大的FLOPS算力,满足大型模型对训练数据的需求。 但是,一旦达到训练后的推理应用,通用GPU的瓶颈就会进一步放大。
Transformer 所代表的自回归模型在推理过程中需要多轮重复计算,并且每个生成的 Token 都会重复计算所有输入的 Token。 然后,生成的每个令牌都需要与内存进行交互以获取数据,这个过程称为“内存检索”。 如果生成了长序列的内容,则内存访问的速度决定了生成的速度。
即使对于像 H100 这样的通用 GPU,推理过程也存在局限性。 财通**在报告中提到,全球最先进的AI芯片的计算速度比内存带宽“快得多”。 内存访问速度限制了推理速度,导致计算能力利用率低。
换句话说,大型模型制造商和公司排队购买的H100实际上并不能完全使用。 算力利用率降低,相当于增加了芯片采购成本。
在行业中,通常采用分支还原、蒸馏、算子优化等方法提高利用率,这不可避免地影响了模型的质量。
英伟达H200芯片搭载美光新一代HBM3E内存,峰值内存带宽大幅提升44%。
GroQ的方法是用SRAM代替HBM,借助SRAM自身优势,单片机内存带宽提升至80TBS,直接将推理速度提升几个数量级。 这个想法在Graphcore和平投的产品中已经出现过,Groq做得更彻底,完全使用了SRAM。
此外,Groq LPU 采用 14nm 芯片工艺,2025 年推出的下一代将使用三星的 4nm,以换取更多的计算矩阵和 SRAM。 Next Platform 估计,目前需要 576 个 LPU 才能完成 70B 大型模型推理,到 2025 年可能只需要大约 100 个。
同时,Groq将使用三星在北美的4nm工厂,最大程度的避免了**瓶颈。 这就是为什么 Groq LPU 仍有市场的原因。 黄仁勋在财报发布会上表示,AI芯片整体形势正在改善,但预计供不应求的局面将持续到2024年。
Groq 风险投资家 Chamas 认为,今天的人工智能更像是一种概念验证,或者说是一种玩具应用程序,很难作为商业产品广泛地提供给企业客户。 究其原因,很大程度上是大模型不够好,速度太慢,需要太多的基础设施和成本。 在商业化商业化的过程中,LPU适合各种规模的开发者,Groq将有机会在商业化方面实现飞跃。
Groq 将其客户分为三类:大型数据中心、财富 3000 强公司和其他所有公司。 Chamas透露,在Groq LPU爆炸的短时间内,大多数注册客户来自大型公司。
在接受 The Futurum 采访时,Groq 高管透露,他们认为 Global 3000 代表了 LPU 的重要市场。 财富 3,000 强以外的公司倾向于尝试基于云的产品,例如 API。 越来越多的企业告诉Groq,他们希望独立拥有自己的专有数据,许多企业正在考虑增加本地数据中心,而不仅仅是与数据中心供应商合作。