作者:毛朔。
几乎只要您按下发送按钮,大型模型就会以惊人的速度生成回复。 这一次,GROQ 模型以每秒 500 个代币彻底颠覆了 GPT-4 的 40 Tok s 速度记录!
Groq之所以“出圈”,是因为它的速度惊人,号称是“史上最快的车型”! 使其在大型模型圈中表现最好的响应速度来自驱动模型的新型AI芯片——LPU(语言处理单元)。
Groq 家族的 LPU “不走寻常路”。
LPU 旨在克服两个大型语言模型 (LLM) 的瓶颈——计算密度和内存带宽。 与 GPU 和 CPU 相比,LPU 具有更强的计算能力来处理 LLM。 这减少了计算每个单词所需的时间,从而可以更快地生成文本序列。 此外,消除外部存储器瓶颈使 LPU 推理引擎能够实现性能提升一个数量级。
与专为图形渲染而设计的 GPU 不同,LPU 采用全新的架构,旨在为 AI 计算提供确定性性能。
GPU 使用 SIMD(单指令多数据),而 LPU 采用更线性的方法,避免了对复杂调度硬件的需求。 这种设计允许有效地利用每个时钟周期,确保一致的延迟和吞吐量。
简单地说,如果 GPU 就像一个精英运动队,每个成员都擅长多任务处理,但需要复杂的协调才能发挥最佳性能,那么 LPU 就像一个项目的专家团队,每个人都在自己的专业领域以最直接的方式完成任务。
对于开发人员来说,这意味着性能可以精确**和优化,这在实时 AI 应用程序中至关重要。
在能源效率方面,LPU也显示出其优势。 通过减少管理多个线程的开销并避免内核利用效率低下,LPU 能够以更低的功耗完成更多的计算任务。
GroQ 还允许多个 TSP 无缝连接,避免了 GPU 集群中常见的瓶颈,实现了极高的可扩展性。 这意味着性能会随着更多 LPU 的添加而线性扩展,从而简化大规模 AI 模型的硬件要求,并使开发人员能够更轻松地扩展其应用程序,而无需重新构建系统。
例如,如果将 GPU 群集视为由多个网桥连接的孤岛,则网桥的容量会限制性能提升,即使可以通过这些网桥访问更多资源也是如此。 另一方面,LPU就像一种新型的运输系统,旨在通过允许多个处理单元无缝连接来避免传统的瓶颈。 这意味着性能会随着更多 LPU 的添加而线性扩展,从而大大简化了大规模 AI 模型的硬件要求,使开发人员能够更轻松地扩展其应用程序,而无需重新构建整个系统。
闪电般的 Groq 更好吗?
虽然LPU的创新令人瞠目结舌,但对于一般模型来说,好不好才是关键。
我们对 ChatGPT 和 Groq 有同样的要求,但没有进行第二次对话。
不管内容正确与否,单从语言风格的角度来看,从两个模型给出的反馈中不难发现,GroQ的回复有点生硬,有很强的“AI味”,而ChatGPT相对自然,对人类语言(中文)习惯有更透彻的“理解”。
然后我们问了几乎相同的问题,他们的回答是这样的:
GPT 的语言风格是彻底的“人类复杂性”,而 GROQ 仍然是“AI 风味”。
它可以取代 Nvidia 的 GPU 吗?
在 GroQ 高速竞速的同时,有一个声音——Nvidia 的 GPU 已经落后了吗?
然而,速度并不是人工智能发展的唯一决定性因素。 在讨论大型模型推理部署时,7b(70 亿个参数)模型的例子非常有启发性。
目前,部署这样的模型大约需要 14GB 的内存。 基于此,大约需要 70 个专用芯片,每个芯片对应一个计算卡。 如果采用通用配置,即一台4U服务器有8个计算卡,那么部署7B型号需要9台4U服务器,这几乎填满了一个标准的服务器机柜。 总共需要 72 个计算芯片,在 FP16 模式下,这种配置的计算能力达到了惊人的 13 个5p (petaflops) 和 INT8 模式下高达 54p。
以英伟达的H100为例,它拥有80GB的高带宽内存,可以同时运行五个7B型号。 在FP16模式下,稀疏性优化的H100的算力接近2P,在INT8模式下,算力接近4P。
一位外地博主做了对比,结果显示,在 INT8 模式下使用 Groq 进行推理的解决方案需要 9 台服务器。 9 台 Groq 服务器的成本远高于 2 台 H100 服务器的成本。 Groq 解决方案的成本超过 160 万美元,而 H100 服务器的成本为 600,000 美元,这还不包括与机架相关的费用和电力成本。
对于较大的模型,例如 70b 参数模型,使用 INT8 模式可能需要至少 600 个计算卡,接近 80 台服务器,成本是天文数字。
事实上,对于 Groq 的架构来说,可能需要建立在小内存和大算力之上,这样要处理的有限内容对应着非常高的算力,从而产生非常快的速度。
对于部署推理能力的大型模型,最具成本效益的仍然是 NVIDIA 的 GPU。