译者:布加迪。
OpenAI 的 GPT-4 和 Anthropic 的 Claude 2 等大型语言模型 (LLM) 以其生成类级文本的能力激发了公众的想象力。 企业也很热情,许多企业都在探索如何使用 LLM 来改进他们的产品和服务。 然而,严重限制在生产中采用最先进的 LLM 的一个主要瓶颈是速率限制。 有一些方法可以打破这个速率限制,但如果不改进计算资源,可能不会取得真正的进展。
公共 LLM API 允许用户访问来自 OpenAI 和 Anthropic 等公司的模型,对每分钟可处理的令牌(文本单元)数量、每分钟请求数和每天请求数施加严格限制。
对 OpenAI GPT-4 的 API 调用目前限制为每分钟 3 个请求 (rpm)、每天 200 个请求和每分钟最多 10,000 个代币 (TPM)。 最高档位允许限制为 10,000 rpm 和 300,000 tpm。
对于需要每分钟处理数百万个令牌的大型生产级应用程序,这种速率限制使企业几乎不可能使用最先进的 LLM。 请求数量不断增加,需要几分钟甚至几小时,而且没有实时处理。
大多数组织仍在努力安全有效地大规模采用 LLM。 但是,即使他们解决了数据敏感性和内部流程方面的挑战,速率限制也成为一个顽固的障碍。 随着产品使用和数据的积累,围绕LLM开发产品的初创公司很快就会遇到瓶颈,但拥有庞大用户群的大型企业受到的限制最大。 如果没有特殊的访问机制,他们的应用程序根本无法运行。
该怎么办? 一种方法是完全绕过速率限制技术。 例如,有一些专门构建的生成式 AI 模型没有 LLM 瓶颈。 DiffBlue是一家总部位于英国牛津的初创公司,它依赖于没有速率限制的强化学习技术。 它做得很好,非常有效,并且可能覆盖数百万行**。 它创建 j**a 单元测试的速度比开发人员快 250 倍,编译速度比开发人员快 10 倍。
由 DiffBlue Cover 编写的单元测试使您能够快速了解复杂的应用程序,使大型企业和初创公司能够充满信心地进行创新,这是将传统应用程序迁移到云的理想选择。 它还可以自主编写新内容、改进现有内容、加速 CI CD 管道,并提供对变更相关风险的洞察,而无需人工审查。 还不错。
当然,有些公司必须依赖 LLM。 他们有什么选择?
一种选择是要求提高公司的利率限制。 到目前为止,这是一个很好的做法,但潜在的问题是,许多LLM提供者实际上没有额外的能力来提供良好的服务。 这是问题的症结所在。 GPU 的可用性取决于台积电等代工厂的硅晶圆总数。 占主导地位的 GPU 制造商 Nvidia 无法采购足够的芯片来满足 AI 工作负载带来的一流需求,而大规模推理需要组合数千个 GPU。
增加 GPU 数量**的最直接方法是建造新的半导体制造晶圆厂,即所谓的晶圆厂。 但一座新晶圆厂耗资200亿美元,需要数年时间才能建成。 英特尔、三星代工、台积电、德州仪器等主要芯片制造商正在美国建设新的半导体生产设施。 目前,大家只能等待。
因此,使用 GPT-4 的实际生产部署很少。 GPT-4 实际部署的环境范围是有限的,他们使用 LLM 作为辅助功能而不是核心产品组件。 大多数公司仍在评估试点和概念验证。 在考虑速率限制之前,您需要将 LLM 本质地集成到您的企业工作流程中。
GPU 限制限制了 GPT-4 的处理能力,这促使许多公司使用其他生成式 AI 模型。 例如,AWS有自己的芯片,专门用于训练和推理(训练后运行模型),为客户提供更大的灵活性。 重要的是,并非每个问题都需要最强大和最昂贵的计算资源。 AWS 提供了一系列更便宜、更简单的调整模型,例如 Titan Light。 一些公司正在探索替代方案,例如微调开源模型,例如 Meta 的 LLAMA 2。 对于涉及检索增强生成 (RAG) 的简单用例,较弱的模型就足够了,在这些用例中,需要将上下文附加到提示并生成响应。
其他技术也可以提供帮助,例如跨多个具有高限制的传统 LLM 并行处理请求、数据分块和模型蒸馏。 有几种技术可以降低推理的成本和速度。 量化会降低模型中权重的准确性,这些权重通常是 32 位浮点数。 这不是一种新方法。 例如,Google 的推理硬件张量处理单元 (TPU) 仅适用于权重量化为 8 位整数的模型。 该模型会失去一些精度,但要小得多,运行速度也快得多。
一种称为“稀疏模型”的流行技术可以降低训练和推理的成本,比模型蒸馏需要更少的人力。 LLM 就像许多较小的语言模型的集合。 例如,当你用法语向 GPT-4 提问时,你只需要使用模型的法语部分,稀疏模型就利用了这个功能。
您可以进行稀疏训练,只需要训练模型的法语子集,也可以进行稀疏推理并仅运行模型的法语部分。 当与量化一起使用时,这会从 LLM 中提取一个较小的专用模型,该模型可以在 CPU 而不是 GPU 上运行。 GPT-4 之所以出名,是因为它是一个通用的文本生成器,而不是一个更窄、更具体的模型。
在硬件方面,专门针对AI工作负载的新处理器架构有望提高效率。 Cerebras 开发了一款针对机器学习进行优化的巨型晶圆级引擎,而 MantiCore 正在改造制造商丢弃的“废弃”GPU 芯片,以提供实用的芯片。
最终,最大的成果将来自需要更少计算的下一代 LLM。 结合优化的硬件,未来的 LLM 可以突破当今的速率限制障碍。 目前,生态系统被急于利用 LLM 功能的急切公司所淹没。 那些希望在 AI 领域开辟新道路的人可能需要等到 GPU** 进一步放慢速度。 具有讽刺意味的是,这些限制可能只是有助于消除围绕生成式人工智能的一些泡沫炒作,并让行业有时间适应积极的模式,以便高效且经济地使用它。