12月7日凌晨,谷歌(Google)在发布多模态大模型Gemini的同时,还推出了全新的面向云端的AI加速TPU V5P,这也是谷歌迄今为止功能最强大、性价比最高的TPU(Cloud Tensor Processing Unit)。
据报道,每个 TPU V5P Pod 由多达 8,960 个芯片组成,使用最高带宽的芯片到芯片连接(每个芯片 4,800 Gbps)互连,以确保快速传输速度和最佳性能。
在 AI 性能方面,TPU V5P 能够提供 459 teraflops(每秒 459 万亿次浮点运算)的 Bfloat16(16 位浮点格式)性能或 918 teraops(每秒 918 万亿次整数运算)的 INT8(8 位整数执行)性能,支持 95GB 高带宽内存,并且能够在 276 TBS 用于数据传输。
与 TPU V4 相比,新发布的 TPU V5P 具有两倍的 FLOPS(每秒浮点运算)和三倍的高内存带宽提升,这在人工智能领域是惊人的。
此外,在模型训练方面,TPU v5P显示2.在LLM(大型语言模型)训练速度上与 TPU V5E 相比,代际改进了 8 倍,提高了 50%。 谷歌也在榨取更多的计算能力,因为 TPU V5P “就每个 pod 的总可用 FLOP 而言,可扩展性是 TPU V4 的 4 倍”。
综上所述,TPU v5P 与 TPU v4:
浮点运算增加 2 倍(459 TFLOPS BF16 918 TOPS INT8)。
内存容量比 TPU v4 (95 GB HBM) 高 3 倍。
LLM训练速度提升28次。
嵌入密集模型训练为 19次。
带宽增加 225 倍(2765 GB 秒对 1228 GB 秒)。
带宽是芯片到芯片互连的两倍(4800 Gbps vs. 2400 Gbps)。
谷歌在拥有最好的硬件和软件资源方面取得了明显的成功,这就是为什么该公司拥有一台人工智能超级计算机,这是一组旨在协同工作以实现现代人工智能工作负载的元素。 谷歌集成了性能优化计算、优化存储、液冷等功能,充分利用了庞大的功能,输出性能确实处于行业领先水平。
在软件方面,谷歌已经加强了对开放软件的使用,以调整其人工智能工作负载,以确保其硬件的最佳性能。
以下是 AI Hypercomputer 新软件资源的概要:
对 Jax、TensorFlow 和 PyTorch 等流行 ML 框架的广泛支持开箱即用。 JAX 和 PyTorch 都由 OpenXLA 编译器提供支持,用于构建复杂的 LLM。 XLA 作为基础骨干,支持创建复杂的多层模型(使用 PyTorch XLA 在云 TPU 上进行 LLAMA 2 训练和推理)。 它优化了跨各种硬件平台的分布式架构,确保针对不同的 AI 用例(AssemblyAI 利用 JAX XLA 和 Cloud TPU 进行大规模 AI 语音)的易用且高效的模型开发。
开放独特的多切片训练和多主机推理软件,分别使扩展、训练和服务工作负载变得顺畅和简单。 开发人员可以扩展到数以万计的芯片,以支持要求苛刻的 AI 工作负载。
与 Google Kubernetes Engine (GKE) 和 Google Compute Engine 的深度集成提供了高效的资源管理、一致的操作环境、自动扩展、节点池自动配置、自动检查点、自动恢复和及时的故障保护。
谷歌对人工智能的革命性方法通过其新的硬件和软件元素显而易见,这些元素将打破限制行业的障碍。 看看新的Cloud TPU V5P处理单元将如何帮助AI超级计算机正在进行的AI开发,这将是一件有趣的事情,但有一点是肯定的,它们肯定会加剧竞争。
编辑:新知勋-流氓剑。