谷歌周四(12 月 7 日)发布了新的张量处理单元 (TPU V5P)、超级计算机架构的 AI Hypercomputer 和资源管理工具 Dynamic Workload Scheduler,以帮助组织执行和处理 AI 任务。
谷歌于今年 11 月开始推出 Cloud TPU V5E,本周发布了强调性价比的 Cloud TPU V5P,以及号称迄今为止功能最强大的 TPU Cloud TPU V5P。 与上一代 TPU V4 相比,Cloud TPU V5P 的每个 TPU V5P Pod 具有 8,960 个芯片,互连速度为 4,800 Gbps,可提供 2 倍的 FLOPS 和 3 倍的高带宽内存 (HBM)。
由于 Cloud TPU V5P 是以性能为导向的,因此在训练大型 LLM 模型时,它比 TPU V4 快 2%TPU V5P 在第二代 Sparsecores 的帮助下,训练嵌入式密集模型的速度比 TPU V4 快 1 倍9次。
另一方面,人工智能超级计算机是一种超级计算机架构,集成了性能优化的硬件、开源软件、主要机器习框架和灵活的消费模式。 谷歌解释说,虽然人工智能超级计算机传统上用于通过加强不同的组件来处理要求苛刻的人工智能任务,但人工智能超级计算机在系统上使用协同设计来提高人工智能在训练、微调和服务方面的效率和生产力。
在硬件性能优化方面,AI Hypercomputer 基于超大规模数据中心基础设施,对计算、存储和网络设备进行了优化设计它还允许开发人员访问硬件,通过开源软件微调和管理AI任务,包括支持Jax、TensorFlow和PyTorch等机器习框架,以及多切片训练和多主机推理等软件,以及与Google Kubernetes Engine(GKE)和Google Compute Engine的深度集成。
除了承诺使用折扣 (CUD)、按需和 Spot 之外,AI Hypercomputer 还通过新的 Dynamic Workload Scheduler start 和 calendar 提供了两种专为 AI 任务设计的消费模型。
Dynamic Workload Scheduler 是一个资源管理和任务调度平台,支持 Cloud TPU 和 NVIDIA GPU 同时调度所需的所有加速器,以帮助用户优化支出。 Flex Start 主要用于微调模型、实验、短期训练任务、蒸馏、离线推理和批处理任务,在准备执行请求的 GPU 和 TPU 容量时是一个相对经济的选择。
而日历模式可以预留AI任务的开始时间,适用于需要精确开始时间和特定时长的训练和实验任务,可以请求固定时间区域的GPU容量,可以持续7天或14天,最多可以提前8周购买。
***google cloud