来自凹飞寺量子比特的白蛟 | qbitai
如果想实现史上最快的大规模模型推理,需要1171万美元(8410万元人民币)??
在同一项目下,使用 NVIDIA GPU 的成本仅为 300,000 美元......
关于最强AI芯片的所有权变更,GroQ可能要让子弹飞一会儿。
这两天,格罗克惊艳亮相。 它使用被称为“100 倍性价比 NVIDIA”的芯片,实现每秒 500 个代币的大型模型生成,而不会感到任何延迟。 再加上谷歌TPU团队这样的高科技人才的加持,很多人都喊:英伟达要被碾压......
在一片喧嚣之后,开始有一些理性的讨论,主要是关于GroQ的收益成本。
据网友粗略计算,现在演示需要568个芯片,耗资1171万美元。
于是,行业内外各界人士无一例外地发起了算术**。
甚至有一位分析师带着**......
然后叹了口气:好吧,这周每个人都在做公共数学
不过,Groq也第一时间在社交网络上做出了回应。
每个人都在做数学”。
参与讨论 Groq 成本的人包括计算机专业的学生、提供推理服务的云供应商,甚至是前 Groq 员工与现任员工......它并不热闹。
让我们来看看大家的想法。
首先粗略估计一下,一张卡的**大约是20000美金,内存只有023gb。
对于单个 LLAMA 70B 型号,您需要购买大约 320 张卡(实际上更多),这将花费大约 1000 万美元......包括服务器
如果将其与 Nvidia 的 H100 进行比较,情况如何?
轻顿的贾阳青也参与进来,做了一个算计。 除了基础知识,他还从能耗、性能、运营成本等角度进行了分析。
最后,总结了这些核心要点:
对于LLAMA 70B型号,使用572张卡来计算,每年的电费将花费2540,000 美元; Groq 的一半性能可以通过 4 张 H100 卡来实现,而今天一个 8 张卡的 H100 盒子的成本约为 300,000 美元。 如果运营三年,Groq 的硬件采购成本将为 1,144 万美元,运营成本为 76 美元20,000 美元。 相比之下,H100 的采购和运营成本较低。 值得一提的是,在 Groq 给出的基准测试中,包括 Lepton,推理速度大约是 Lepton 的三倍。
贾阳青还透露,他和Groq的创始人是老熟人:
我们在 Google 工作时就认识彼此。
但是,这些讨论中还有其他算法。
比如有网友反应,根据单个代币的维度**,情况如何?
没关系,有更多专业的分析师会采取行动。
然而,根据他的计算,每 100 万个代币,GroQ 更具成本效益。
除此之外,还有一些其他的讨论,比如是否支持加速任何变压器?
GroQ&A。
由于众人的过度关注,格罗克忍不住自己回答了。
是时候让另一篇常见问题解答帖子澄清了。
主要观点如下:
采用开源模型,适应我们的编译器,然后运行它,仅此而已。 我们的代币**非常实惠和高效,因为从芯片到系统,我们自己做,没有中间人; 不会是芯片,第三方供应商除外; 公布的销售数据是有偏差的。 我们的目标客户不是单卡用户。 此外,它仍然......在连续的问答中
所以Groq是否真的能撼动英伟达的地位,估计我们还要再等一会儿。
然而,昨天,英伟达的股价发生了一波......
参考链接:[1]。