记者 李玉阳 上海报道
由英伟达主导的AI芯片市场已经很久没有消息了,但龙年农历新年刚过,一家名为Groq的创业公司从前者手中夺走了“最快”AI推理芯片的称号。
Groq 声称其 LPU(语言处理单元)的推理性能是 NVIDIA GPU 的 10 倍,而成本仅为十分之一。 此外,GROQ凭借自主研发的推理芯片LPU,使大模型生成速度接近500个代币/秒(文本中最小的单位),碾压GPT-3每秒 5 个令牌 40。
这在社交媒体上引发了很多讨论。 2月19日,Groq向用户开放了产品体验入口,“快”是Groq加速的开源模型带来的最直观的体验。 一个用户登录了这家公司的**,输入了一个问题,它以闪电般的速度给出了答案,每秒 278 个代币! 对此,有人评论说:“它的反应比我眨眼还快。 ”
不过,虽然GROQ的LPU推理速度很快,但这个速度也非常昂贵,成本也远高于通用GPU。 此外,LPU也有些专业化,现在只能运行两个mixtral 8 7B-32K和LLAMA 2-70B-4K开源模型。 至于GROQ的LPU未来可以运行什么车型,第一财经记者联系了该公司进行采访,但截至发稿时尚未收到回复。
电子创新网CEO张国斌告诉记者:“任何AI算法都可以使用NVIDIA的H100,但只有Mictral和LLAMA 2可以使用GROQ的LPU。 LPU是ASIC(特殊芯片),只能应用于特定型号,通用性差,性价比不高,所以不值得大肆炒作,以免误导芯片企业在人工智能领域的发展方向。 ”
用“快”震撼世界。
虽然它被称为“历史上最快的大型模型”,但 Groq 澄清说:“我们不是一个大型语言模型。 我们的 LPU 推理引擎是一种新颖的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序(例如 AI 语言应用程序)提供最快的推理能力。 ”
据了解,Groq 由谷歌第一代张量处理单元 (TPU) 的创建者之一乔纳森·罗斯 (Jonathan Ross) 于 2016 年创立。 他认为,芯片设计应该从软件定义网络(SDN)中汲取灵感。
罗斯说,Groq的存在是为了缩小“贫富差距”,并帮助人工智能社区中的每个人茁壮成长。 他还表示,推理对于实现这一目标至关重要,因为速度是将开发人员的想法转化为业务解决方案和改变生活的应用程序的关键。
2021年,Groq获得3亿美元融资,由Tiger Global Management**和D1 Capital领投,总融资额为367亿美元。
在 2023 年高性能计算大会 SC23 上,Groq 以每秒超过 280 个代币的速度生成响应,创下了 LLAMA-2 70B 推理的新性能记录。 2024 年 1 月,Groq 首次参与公开基准测试,并在 Anyscale 的 LLMPERF 排名中取得了优异的成绩,远超其他基于 GPU 的云服务提供商。
2 月 13 日,Groq 在 ArtificialAnalysisAI 在其最新的 LLM 基准测试中再次获胜,在延迟和吞吐量等关键性能指标上击败了 8 名参与者,处理吞吐量是其他推理服务的 4 倍,而 Mistral 自己的收费不到 1 3。
GroQ 创新的核心是其 LPU,旨在以前所未有的速度加速 AI 模型,包括 ChatGPT 等语言模型。 根据 GroQ 官网,LPU 代表语言处理单元,是一种新型的端到端处理单元系统,可以为具有顺序组件的计算密集型应用程序提供最快的推理服务,例如大型语言模型 LLM。
为什么 LPU 在用于 LLM 和生成式 AI 时比 GPU 快得多? Groq 网站解释说,LPU 旨在克服 LLM 中的两个瓶颈:计算密度和内存带宽。 对于 LLM,LPU 的计算能力大于 GPU 和 CPU,并且通过减少计算每个单词所需的时间,可以更快地生成文本序列。 此外,通过消除外部内存瓶颈,LPU 推理引擎可以提供比 LLM 上的 GPU 高几个数量级的性能。
速度快的代价有点高
值得注意的是,与使用高带宽内存 (HBM) 的 GPU 不同,GroQ 的 LPU 使用 SRAM 进行数据存储。 不过,这种设计并不是创新的突破,据说昆仑和英国的Graphcore也采用了类似的内部存储方式。
此外,Groq LPU 基于新的张量流处理器架构,其内存单元与向量和矩阵深度学习功能单元交错,以加速机器学习工作负载固有的并行性推理。
在计算处理的同时,每个TSP还具有网络交换功能,无需依赖外部网络设备即可通过网络直接与其他TSP交换信息,提高了系统的并行处理能力和效率。
GroQ 支持多种用于模型推理的机器学习开发框架,包括 PyTorch、TensorFlow 和 OnnX,但不支持使用 LPU 推理引擎进行 ML 训练。
至于 Groq 芯片的独特性,据接近 Groq 的投资者 K Zeros 透露,在他的 X 平台账户中,LPU 的运行方式与 GPU 不同,使用时间指令集计算机架构,这与 GPU 使用的 SIMD(单指令、多数据)不同。 这种设计使芯片不必像 GPU 那样频繁地从 HBM 内存中过载数据。
Groq 芯片使用 SRAM,比 GPU 使用的内存快约 20 倍。 这也有助于避免HB的短缺并降低成本,因为HBM目前除了三星和海力士之外,还依赖台积电的COWOS技术,以及封装。
更多信息显示,Groq芯片采用14nm工艺制造,配备230MB SRAM以确保内存带宽,片上内存带宽高达80TBS。 在算力方面,该芯片的整数(8位)运行速度为750TOPS,浮点(16位)运行速度为188Tflops。
震荡过后,不少行业大佬发现GroQ的价格有点高。
前 Facebook AI 科学家、阿里巴巴前技术副总裁贾阳青分析说,Groq LPU 的内存容量非常小(230MB)。 一个简单的计算表明,运行一个 700 亿参数模型需要 305 张 Groq 卡,相当于使用 8 个 NVIDIA H100。 从目前**的角度来看,这意味着在相同的吞吐量下,Groq LPU的硬件成本约为H100的40倍,能源成本约为H100的10倍。
芯片专家姚金鑫(J叔)在接受记者采访时表示,从同等算力的角度来看,如果都用INT8进行推理,GROQ方案需要9个包含72块的服务器集群,如果是H100,大约需要2个8卡服务器才能达到同样的算力, 而此时的INT8算力已经达到了64P,可以同时部署的7B大模型数量已经达到了80余个。从成本的角度来看,9台Groq服务器的成本远高于2台H100服务器的成本。
在第三方**上,搭载GROQ芯片的加速卡售价超过2万美元,差不多15万元,比250,000-30,000 美元。 综上所述,Groq 的架构是建立在小内存和大算力之上的,因此要处理的内容量有限,对应着极高的算力,从而产生了非常快的速度。 相反,GroQ 的极高速度是基于单张卡非常有限的吞吐量,为了确保与 H100 相同的吞吐量,需要更多的卡。
lpu有点专业
需要指出的是,目前 Groq 仅支持三种开源大型模型:Mixtral 8 7B-32K、Llama 2-70B-4K 和 Mistral 7B-8K,其中前两个是开放使用并在其编译器上运行的。
对此,张国斌表示:“任何AI算法都可以使用NVIDIA的H100,但只有Mixtral和LLAMA 2可以使用GROQ的LPU。 如果一个大型模型公司想要使用Groq的产品,首先需要确定要求和规格,然后进行功能验证,最后生产的产品才能使用。 ”
张国斌指出,GROQ的LPU是大型机型专用芯片,所以速度快,性能正常。 “它更快,效率更高,而且节省电力更便宜。 未来应该有市场前景,比如支持大模型的那种智能孪生和便携式终端。 他说。
不过,张国斌表示,他并不看好LPU,因为它的局限性太大,只能在特定车型上使用。 “未来有可能支持更多的大型模型,但不如通用模型。 目前,我看到一些测试说它不够准确。 张国斌用一个比喻来解释不准确,在一个交通复杂的城市里,LPU收集了大家早上上班的方向,然后用软件决定了红绿灯,关掉了一条路上所有的红绿灯,让所有同方向的车都在这条路上往前开。
它是一种ASIC芯片,只能应用于特定型号,通用性差,性价比不高,不值得大肆炒作,以免误导芯片企业在人工智能领域的发展方向。 张国斌还表示,人工智能应该深入到千行百业,每个场景都有一个ASIC,或者一个通用GPU,其实它需要一个可以多场景使用的人工智能处理器。
Groq的商业模式是针对大型系统的,也针对企业部署,它不是单卡芯片。 因为它拥有从芯片到系统的整个技术栈,并且没有中间商,所以它可以产生单位代币的最大优势。 在 2023 年底的一次采访中,Ross 表示,鉴于 GPU 短缺和高成本,他相信 GroQ 未来的增长潜力:“在 12 个月内,我们可以部署 100,000 个 LPU,在 24 个月内,我们可以部署 100 万个 LPU。”
一般与专用,谁更好? 必须让子弹再飞一会儿。 不过,美国当地时间2月22日**,受最新财报超出预期的刺激,英伟达股价报报785$38, 上涨 164%,市值单日飙升2733亿美元(约合人民币2万亿元),创下美股史上最大单日市值涨幅纪录。
英伟达的市值一夜之间增长,相当于将整个Netflix或Adobe的市值加起来,或者接近摩根大通或两家高盛市值的一半。 英伟达市值创历史新高,接近2万亿美元,成为仅次于Microsoft和苹果的全球第三高市值。
编辑:吴青 校对:闫景宁)。