AI算力短缺危机基础设施成本分析与建议

小夏 社会 更新 2024-02-15

今天,我将解开A16Z研究报告的包装。应对人工智能计算的高成本

人工智能(AI)领域正在经历一场由计算能力驱动的革命。 不同于传统的研发投入与产品价值之间的亚线性关系人工智能的发展呈现出一个独特的特点:计算资源的增加直接导致产品性能的提高

但目前最大的挑战是高昂的计算成本计算资源的要求要高出十倍这使得获取计算资源成为人工智能公司成功的关键因素。

事实上许多人工智能公司将超过80%的资金用于计算资源。这种情况凸显了当今人工智能行业面临的主要问题之一:计算能力成本。 本文的目的是深入了解构成人工智能公司计算成本的各种因素,并提供一个有助于了解当前行业格局的框架。

人工智能 (AI) 模型,尤其是基于 Transformer 的架构,例如 GPT-3、GPT-J 或 BERT 等大型语言模型 (LLMS)模型的计算成本与模型的参数数量和输入输出令牌的长度密切相关

在 Transformer 模型中,对于具有 p 参数的模型,n 个令牌的输入和输出序列长度的前向传递(即推理)需要大约 2*n*p 浮点运算 (FLOPS)。 而要训练相同的模型,每个令牌大约需要 6 x p FLOPS

除了计算成本外,内存要求还因模型的大小而异。 推理过程需要将模型参数 p 加载到内存中,而学习过程(即反向传播)还需要为每个参数存储额外的中间值。 例如,对于一个拥有 1750 亿个参数的模型,在训练过程中需要在内存中保留超过 1 TB 的数据,这超出了任何现有 GPU 的能力,并且模型需要拆分到多个显卡上。

以 GPT-3 为例,它大约有 1750 亿个参数,对于 1024 个代币的输入和输出,计算成本约为 350 万亿次浮点运算 (TFLOPS)。 大约需要 3 个14*10 23 个浮点运算。 训练这样的模型已成为人类有史以来计算量最大的任务之一。 生成单个单词的算法比对数百万条记录进行排序的数据库表要复杂得多。

GPU(图形处理单元)在 AI 模型的计算中起着核心作用。 未来,AI加速卡或将成为独立的产品系列

虽然从理论上讲,A100 的性能可以将 GPT-3 的推理时间缩短到 1 秒左右,但瓶颈通常是将数据从专用图形内存传输到张量核心的能力。 此外,1750 亿个权重将占用 700GB 的存储空间,需要分区和加权流技术。

由于训练数据集的大小大约是推理提示的 300 万倍,训练时间会更长,大约是推理时间的10亿倍。这个过程需要在大型计算集群、专用数据中心或更可能的云中完成,通常使用高速互连和专用网络架构。

GPT-3 的一个推理大约需要 A100 时间的 1 秒,其原始计算成本为每 1000 个代币 0 美元0002 到 $00014相比之下,OpenAI 的价格为 0 美元002 1000 个代币。

训练 GPT-3 的成本要高得多。 只有 3 个我们可以估算出 14*10 23 次浮点运算的计算成本A100 卡的培训费用约为 560,000 美元,因为不能满负荷运转,成本实际上会更高。 这只是单次运行的成本,而不是总成本。

外部基础架构与内部基础架构的选择

许多初创公司,尤其是应用程序公司,在初始阶段不需要构建自己的 AI 基础设施。 相反,OpenAI或Hugging Face(用于语言模型)和Replicate(用于图像生成)等托管模型服务使创始人能够快速找到产品与市场的契合度,而无需管理底层基础设施或模型。

这些服务足够好,以至于许多公司永远无法摆脱对它们的依赖。 这些服务的定价是基于消费的,因此通常比运行独立的基础结构更经济。 年收入超过 5000 万美元、估值超过 10 亿美元的应用公司正在使用托管模型服务。

另一方面,一些初创公司,尤其是那些训练新的基础模型或构建垂直集成的 AI 应用程序的初创公司,无法避免直接在 GPU 上运行自己的模型。

云计算与数据中心建设

在大多数情况下,云计算是 AI 基础设施的正确选择。 较低的前期成本、扩展和缩减的能力、区域可用性以及避免构建自己的数据中心的干扰对大多数初创公司和大公司都很有吸引力。

但此规则也有一些例外:

如果您的运营规模非常大,那么建立自己的数据中心可能更经济。

如果您需要云提供商无法提供的非常特定的硬件。 例如,未广泛使用的 GPU 类型,以及异常的内存、存储或网络要求。

如果出于地缘政治原因,您找不到可接受的云平台。

当然,您需要有足够的 A100 来建造自己的 A100。 因此,绝大多数初创公司都将使用云计算。

比较云服务提供商

亚马逊网络服务(AWS),Microsoft Azure和谷歌云平台(GCP)都提供GPU实例,但出现了专门针对AI工作负载的新提供商。 以下是许多创始人用来选择云提供商的框架:

:下表显示了截至 2023 年 4 月 7 日的一些主要和较小的专业云的定价。 这些数字仅供参考,可能会有所不同。

可用性:12 个多月来,NVIDIA A100 等最强大的 GPU 一直供不应求。

计算交付模型目前,大型云仅提供具有专用 GPU 的实例,而专用 AI 云提供额外的 AI 模型,可以处理单个任务,而不会产生实例的启动和拆卸成本。

网络互联:特别是对于培训,网络带宽是选择提供商的主要因素。 对于图像生成,出口流量费用也可能是主要的成本驱动因素。

客户支持:大型云提供商服务大量客户,难以及时响应小客户。 许多专门的 AI 云甚至为小型客户提供响应式支持。

比较 GPU

顶级 GPU 在几乎所有工作负载上都表现最佳,但最好的硬件也要贵得多。 为您的特定应用程序选择正确的 GPU 类型可以显著降低成本,并且可以成为商业模式可行性的决定性因素。

培训需求:训练大型模型是在服务器场上完成的,最好使用多个 GPU、大量 VRAM 和高带宽服务器间连接(即使用顶级数据中心 GPU 构建的集群)。

推理需求:大型 LLMS 的参数数量太多,即使 LLM 推理也可能需要 H100 或 A100。 但较小的型号(例如 Stable Diffusion)需要的 VRAM 要少得多,即使使用 RTX 卡也是如此。

硬件支持绝大多数工作负载都在 NVIDIA 上运行,但有些工作负载开始尝试使用其他供应商的硬件,例如 Google TPU。

模型优化和调度

软件优化可以极大地影响模型的运行时间,并且通常可以产生高达 10 倍的收益。 但是,您需要确定哪种方法最适合您的特定模型和系统。

有些技术适用于相当广泛的模型。 通常可以使用较短的浮点表示(即,FP16 或 FP8 与原始 FP32 相比)或量化(INT8、INT4、INT2)来实现与位数减少呈线性关系的加速。

其他优化是高度特定于模型的。 例如,Stable Diffusion 在推理所需的 VRAM 量方面取得了重大进展。

还有一类特定于硬件的优化。 NVIDIA 的 TensorRT 包括许多优化,但仅适用于 NVIDIA 硬件。

AI 任务的调度也可能造成重大的性能瓶颈或改进。 将模型分配给 GPU,以最大程度地减少权重交换如果有多个 GPU 可用,请选择最佳 GPU 来执行任务通过提前批处理工作负载,最大限度地减少停机时间是一种常见的技术。

总之,模型优化仍然有点神奇,我们讨论的大多数初创公司都在与第三方合作,以帮助解决其中一些软件方面的问题。

目前,被广泛接受的观点是:最优参数的数量与训练数据集的大小之间存在关系,即尺度定律。目前最好的大型语言模型 (LLMS) 是在 Common Crawl 上训练的,Common Crawl 是 45 亿个网页的集合,约占所有网页的 10%。 培训语料库还包括维基百科和一系列书籍,尽管两者都要小得多(据估计,只有大约1亿本书存在)。 目前还不清楚我们是否能得到一个比已经使用的数据集大 10 倍的非合成训练数据集。

GPU 性能将继续提高,但增长可能会放缓。 摩尔定律仍在发挥作用,允许放置更多的晶体管和更多的内核,但功率和IO正在成为限制因素。

即使模型和训练集的增长放缓,人工智能行业的增长和人工智能开发者数量的增加也将推动对更多更快的GPU的需求。 在模型开发阶段,开发人员使用了大量的 GPU 容量进行测试,目前没有迹象表明当前的 GPU 短缺会在不久的将来缓解。

人工智能基础设施的持续高成本是否会造成障碍,使新进入者难以赶上资金充足的现有企业? 我们还没有答案。 LLM 的训练成本似乎是一个障碍,但像 LLAMA 或 Stable Diffusion 这样的开源模型带来了更多的变量。

归根结底,这将是一件好事:历史已经证明了这一点这导致了生态系统的快速创新,并为企业家提供了大量机会。

如果您觉得这篇文章对您有帮助,欢迎点赞、收藏和分享。 同时,请关注我以获取有关人工智能的更多更新和见解!

2月** 动态激励计划

相似文章

    AI算力报告:算力网络的基础知识

    今天分享AI算力系列深度研究报告 AI 算力报告 算力网络的基础知识 报告制作人 新鲜枣教室 报告总页数 页。专题报告 人工智能学院 计算能力的字面意思是计算能力 具体来说,计算能力是 通过对信息数据的计算处理实现目标结果输出 的能力。传统算力仅指信息算力。当今的算力通常包括信息算力 数据存储算力和...

    AI算力专题:算力路由CATS技术标准进展与展望

    今天分享AI算力系列深度研究报告 AI算力专题 算力路由 CATS 技术标准进展与展望 报告由中国移动研究院出品 报告总计 页。专题报告 人工智能学院 近两年来,中国移动不断创新,全力推动算力网络的发展,在业界达成了广泛共识,理念深入人心。算力网络是以计算为中心,以网络为基础,深度融合网络 云 数据...

    AI算力报告 中国算力研究报告

    今天分享AI算力系列深度研究报告 AI算力报告 中国算力服务研究报告 报告由中国信息通信研究院制作 报告共页。专题报告 人工智能学院 年算力规模将达到eflops,中美差距正在缩小,全球算力竞争日趋激烈。算力服务侧重于将算力转化为服务能力,这将成为计算技术升级的重要变革。算力是设备集群平台处理数据的...

    AI算力专题“PARFAITE”算力开启计算新纪元

    今天分享AI系列深度研究报告 AI算力 PARFAITE 算力开启计算新时代 报告由毕马威会计师事务所编制 报告总计 页。专题报告 人工智能学院 历史在重演,技术总是在前进。纵观过去的三次科技革命,都是由一些基础的通用技术 GPTS 驱动的,站在ChatGPT爆发的当下,通用人工智能极有可能成为新一...

    边缘计算平台上的AI算力有多大

    不同的边缘计算平台会有不同的AI算力。该版本的 AI 平台具有 顶级 B 的 AI 计算能力,并由 GPU 和 DSP 提供支持,因此您可以开箱即用地开始学习和构建应用程序。在加速模组和终端产品的形式上,均采用华为昇腾 SoC。对于CPU和NPU的细节,没有官方公布,但其AI算力高达TOPS。使用 ...