Groq 的 LPU 将成为继 NVIDIA GPU 之后的另一个“新宠”?

小夏 科技 更新 2024-02-21

作者:毛朔。

几乎只要您按下发送按钮,大型模型就会以惊人的速度生成回复。 这一次,GROQ 模型以每秒 500 个代币彻底颠覆了 GPT-4 的 40 Tok s 速度记录!

Groq之所以“出圈”,是因为它的速度惊人,号称是“史上最快的车型”! 使其在大型模型圈中表现最好的响应速度来自驱动模型的新型AI芯片——LPU(语言处理单元)。

Groq 家族的 LPU “不走寻常路”。

LPU 旨在克服两个大型语言模型 (LLM) 的瓶颈——计算密度和内存带宽。 与 GPU 和 CPU 相比,LPU 具有更强的计算能力来处理 LLM。 这减少了计算每个单词所需的时间,从而可以更快地生成文本序列。 此外,消除外部存储器瓶颈使 LPU 推理引擎能够实现性能提升一个数量级。

与专为图形渲染而设计的 GPU 不同,LPU 采用全新的架构,旨在为 AI 计算提供确定性性能。

GPU 使用 SIMD(单指令多数据),而 LPU 采用更线性的方法,避免了对复杂调度硬件的需求。 这种设计允许有效地利用每个时钟周期,确保一致的延迟和吞吐量。

简单地说,如果 GPU 就像一个精英运动队,每个成员都擅长多任务处理,但需要复杂的协调才能发挥最佳性能,那么 LPU 就像一个项目的专家团队,每个人都在自己的专业领域以最直接的方式完成任务。

对于开发人员来说,这意味着性能可以精确**和优化,这在实时 AI 应用程序中至关重要。

在能源效率方面,LPU也显示出其优势。 通过减少管理多个线程的开销并避免内核利用效率低下,LPU 能够以更低的功耗完成更多的计算任务。

GroQ 还允许多个 TSP 无缝连接,避免了 GPU 集群中常见的瓶颈,实现了极高的可扩展性。 这意味着性能会随着更多 LPU 的添加而线性扩展,从而简化大规模 AI 模型的硬件要求,并使开发人员能够更轻松地扩展其应用程序,而无需重新构建系统。

例如,如果将 GPU 群集视为由多个网桥连接的孤岛,则网桥的容量会限制性能提升,即使可以通过这些网桥访问更多资源也是如此。 另一方面,LPU就像一种新型的运输系统,旨在通过允许多个处理单元无缝连接来避免传统的瓶颈。 这意味着性能会随着更多 LPU 的添加而线性扩展,从而大大简化了大规模 AI 模型的硬件要求,使开发人员能够更轻松地扩展其应用程序,而无需重新构建整个系统。

闪电般的 Groq 更好吗?

虽然LPU的创新令人瞠目结舌,但对于一般模型来说,好不好才是关键。

我们对 ChatGPT 和 Groq 有同样的要求,但没有进行第二次对话。

不管内容正确与否,单从语言风格的角度来看,从两个模型给出的反馈中不难发现,GroQ的回复有点生硬,有很强的“AI味”,而ChatGPT相对自然,对人类语言(中文)习惯有更透彻的“理解”。

然后我们问了几乎相同的问题,他们的回答是这样的:

GPT 的语言风格是彻底的“人类复杂性”,而 GROQ 仍然是“AI 风味”。

它可以取代 Nvidia 的 GPU 吗?

在 GroQ 高速竞速的同时,有一个声音——Nvidia 的 GPU 已经落后了吗?

然而,速度并不是人工智能发展的唯一决定性因素。 在讨论大型模型推理部署时,7b(70 亿个参数)模型的例子非常有启发性。

目前,部署这样的模型大约需要 14GB 的内存。 基于此,大约需要 70 个专用芯片,每个芯片对应一个计算卡。 如果采用通用配置,即一台4U服务器有8个计算卡,那么部署7B型号需要9台4U服务器,这几乎填满了一个标准的服务器机柜。 总共需要 72 个计算芯片,在 FP16 模式下,这种配置的计算能力达到了惊人的 13 个5p (petaflops) 和 INT8 模式下高达 54p。

以英伟达的H100为例,它拥有80GB的高带宽内存,可以同时运行五个7B型号。 在FP16模式下,稀疏性优化的H100的算力接近2P,在INT8模式下,算力接近4P。

一位外地博主做了对比,结果显示,在 INT8 模式下使用 Groq 进行推理的解决方案需要 9 台服务器。 9 台 Groq 服务器的成本远高于 2 台 H100 服务器的成本。 Groq 解决方案的成本超过 160 万美元,而 H100 服务器的成本为 600,000 美元,这还不包括与机架相关的费用和电力成本。

对于较大的模型,例如 70b 参数模型,使用 INT8 模式可能需要至少 600 个计算卡,接近 80 台服务器,成本是天文数字。

事实上,对于 Groq 的架构来说,可能需要建立在小内存和大算力之上,这样要处理的有限内容对应着非常高的算力,从而产生非常快的速度。

对于部署推理能力的大型模型,最具成本效益的仍然是 NVIDIA 的 GPU。

相似文章

    2024年,USB C将成为欧盟电子设备的通用标准

    欧盟委员会今天下午正式宣布,USB C将从年起成为欧盟电子设备的通用标准。它旨在推动电子设备充电领域的技术创新,并阻止市场 从年开始,所有手机 平板电脑 数码相机 耳机 耳机 便携式音箱 掌上游戏机 电子书阅读器 耳塞 键盘 鼠标 便携式导航系统都将采用USB C 通用充电 溶液。而在年,笔记本电脑...

    小米汽车必将成为市场上炙手可热的黑马

    也就是说,小米汽车最近非常火爆,这个从手机到汽车转型的新品牌,在整个汽车市场引起了轰动。今天就来聊聊,看看这辆小米车背后到底有什么故事呢?当然,我们得先说说小米汽车的团队。令你惊讶的是,这些人并不简单。根据CNMO的报告,这些工程师在技术上是可靠的,有些人甚至愿意为加入团队而减薪。在短短的时间内,成...

    金融科技革命,谁将成为行业的颠覆者?

    随着信息技术的飞速发展和金融业的逐步开放,金融科技已成为最受关注的领域之一。金融科技的出现给传统金融行业带来了前所未有的冲击和变革,也给行业参与者带来了巨大的机遇和挑战。本文将重点关注金融科技革命的主题,以及谁将成为该行业的颠覆者。.传统金融机构。传统金融机构是金融行业老字号,拥有丰富的经验和客户资...

    谁将成为新的征服者康?

    乔纳森 梅杰斯被判有罪后,迪士尼只能选择解约,而谁将成为新的征服者康今天也登上了各大平台的热搜,根据各方消息的总结,目前有几位候选人可能接替梅杰斯担任这个最重要的角色。第一位候选人是 星球大战 续集三部曲的约翰 博耶加,网友表示,博耶加此前在 原力觉醒 首映式上穿过紫色连衣裙,网友表示很适合征服者康...

    在战争时期,这些省份将是胜利的关键!

    目前,中国的实力正在崛起,但国际社会对此持怀疑态度。在这种复杂多变的国际形势下,如果发生战争,哪些省份将承担重要任务已成为人们关注的问题。战争需要全方位支援,保障食物等基本生活物资尤为重要。因此,粮食主省黑龙江备受关注。即使战争爆发,在基本粮食安全方面还有很长的路要走。然而,许多国家对中国的成就仍然...