近日,“史上最快大模型”爆火。 海外AI芯片创业公司Groq利用自研LPU(语言处理单元)作为推理芯片,让大型模型以接近每秒500个代币(文本的最小单位)的速度生成,碾压GPT-3每秒 5 个令牌 40。
这意味着大模型处理请求得到响应所需的时间大大减少,有网友喊“它响应得比我眨眼还快”; 一些人认为 GROQ 的 LPU 可能是 Nvidia GPU 芯片的有力替代品; 甚至有一种自称**的说法是,Nvidia 被 GROQ 的 LPU “压垮”了。
但随后一些行业专家质疑GROQ LPU的成本效益和竞争力,并否认它可能会影响NVIDIA。 计算显示,Groq LPU的硬件成本约为Nvidia H100 GPU的40倍,能源成本约为Nvidia H100 GPU的10倍。
Groq 多年来一直致力于颠覆 GPU 和 CPU 等传统架构。
根据 GroQ 的官方网站,LPU 代表语言处理单元,这是一种新型的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序提供最快的推理,例如大型语言模型 LLM。
简化 LPU 架构。
Groq官方网站。
至于为什么 LPU 在用于 LLM 和生成式 AI 时比 GPU 快得多,GroQ 的官方网站解释说,LPU 旨在克服 LLM 的两个瓶颈:计算密度和内存带宽。 对于 LLM,LPU 的计算能力大于 GPU 和 CPU,并且通过减少计算每个单词所需的时间,可以更快地生成文本序列。 此外,通过消除外部内存瓶颈,LPU 推理引擎可以在 LLM 上提供比 GPU 高几个数量级的性能。 Groq成立于2016年。 早在2021年,外界就称Groq为“英伟达最强挑战者”。 2021年,Groq获得3亿美元融资,由Tiger Global Management**和D1 Capital领投,总融资额为367亿美元。
2023 年 8 月,Groq 推出了 Groq LPU,它可以以每秒超过 100 个代币的创纪录速度运行具有 700 亿个参数的企业级语言模型。 Groq 估计,与其他系统相比,它的速度优势是 10 到 100 倍。
GroQ创始人兼首席执行官乔纳森·罗斯(Jonathan Ross)表示:“人工智能受到现有系统的限制,其中许多系统正在被新进入者所遵循或逐步改进。 无论你在这个问题上投入多少钱,GPU 和 CPU 等传统架构都难以跟上对 AI 和机器学习日益增长的需求......我们的使命更具颠覆性:Groq 寻求通过将计算成本降低到零来释放 AI 的潜力。 “专家们质疑Groq LPU的成本效益和竞争力。
清华大学集成电路学院副教授何胡表示,LPU属于推理芯片,目前供不应求、主要用于大模型训练的GPU芯片不能算是同一条赛道。 从推理芯片轨道来看,LPU目前可能已经达到了高性能,但运行成本并不低。 高性能、低成本的推理芯片可以降低推理成本,拓宽AI大模型的应用范围。 其市场前景主要取决于市场选择的推理需求,不涉及太多的技术竞争。
顾名思义,训练芯片主要用于训练大型模型,而推理芯片主要用于AI应用。 业内人士认为,随着垂直大模型在各行各业的迎来,AI大模型应用的逐步落地,用于推理的算力将与训练算力一样受到重视。
然而,即使是推理,一些专家也会根据 LPU 和 GPU 的内存容量以及大型模型进行吞吐量计算,LPU 在性价比和能效方面都无法与 NVIDIA 的 GPU 竞争。
Facebook前AI科学家、阿里巴巴前技术副总裁贾扬青在海外社交平台发布分析称,Groq LPU的内存容量非常小(230MB)。 一个简单的计算表明,运行一个 700 亿参数模型需要 305 张 Groq 卡,相当于使用 8 个 NVIDIA H100。 从目前**的角度来看,这意味着在相同的吞吐量下,Groq LPU的硬件成本约为H100的40倍,能源成本约为H100的10倍。 国内某龙头AI芯片公司的负责人也对上述计算结果表示赞同。 他认为,与使用HBM(高带宽内存)的GPU不同,LPU使用SRAM(静态随机存取存储器)作为存储,这意味着必须堆叠许多卡才能运行大型模型。
腾讯科技芯片专家姚金鑫直言不讳地表示:“英伟达在这场AI浪潮中的绝对领先地位,让世界对挑战者充满期待。 每一篇文章引起关注,一开始总会被相信,除了这个原因之外,也是因为做比较时的“套路”,刻意忽略其他因素,用单一维度来做比较。 ”