12 月 14 日,AMD 在本月初推出了其最强 AI 芯片 Instinct Mi300X,其 8-GPU 服务器的 AI 性能比 Nvidia H100 8-GPU 提升了 60%。 在这方面,NVIDIA最近发布了一组最新的H100与Mi300X性能对比数据,展示了H100如何使用正确的软件来提供比Mi300X更快的AI性能。
根据AMD此前公布的数据,MI300X的FP8 FP16的性能已经达到了英伟达H100的1比 H100 快 3 倍,可同时运行 Llama 2 70B 和 FlashAttention 2 型号。 在运行 Llama 2 70B 型号的 8v8 服务器中,Mi300X 比 H100 快 40%;运行 Bloom 176B 型号,MI300X 比 H100 快 60%。
但是,应该指出的是,AMD在将Mi300X与NVIDIA H100进行比较时使用了最新的ROCM 300这些数字是从 0 套件中的优化库中获得的,这些库支持 fp16、bf16 和 fp8 等最新的计算格式,包括稀疏性等。 相比之下,NVIDIA H100 没有在没有使用 NVIDIA 的 Tensorrt-LLM 等优化软件的情况下进行测试。
AMD 对 Nvidia H100 测试的隐含声明表明使用了 VLLM V。02.2.2 推理软件和NVIDIA DGX H100系统,LLAMA 2 70B查询的输入序列长度为2048,输出序列长度为128。
以及 Nvidia 最新发布的 DGX H100(配备 8 个 NVIDIA H100 Tensor Core GPU,80 GB HBM3)使用公开提供的 NVIDIA TensorRT LLM 软件 v0 进行测试5.0 表示批处理 1,v06.1 用于延迟阈值测量。 工作负载详细信息和脚注与 AMD 之前的测试相同。
结果显示,在优化软件时,NVIDIA DGX H100 服务器的性能比 AMD MI300X 8-GPU 服务器快 2 倍以上,比 AMD MI300X 8-GPU 服务器快 47%。
DGX H100 可在 1在不到 7 秒的时间内处理单个推理任务。 为了优化响应时间和数据中心吞吐量,云服务为特定服务设置了固定的响应时间。 这允许他们将多个推理请求组合成更大的“批处理”,并增加服务器每秒的推理总数。 MLPERF 等行业标准基准测试也使用此固定响应时间指标来衡量性能。
响应时间的微小权衡可能会导致服务器可以实时处理的推理请求数量的不确定性。 使用固定的 2凭借 5 秒的响应时间预算, NVIDIA DGX H100 服务器每秒可以处理超过 5 次 LLAMA 2 70B 推理,而 Batch-1 每秒不到一次。
显然,Nvidia 使用这些新的基准测试是相对公平的,毕竟 AMD 也使用其优化的软件来评估其 GPU 的性能,那么在测试 Nvidia H100 时为什么不这样做呢?
重要的是要知道,NVIDIA 的软件堆栈围绕着 CUDA 生态系统展开,经过多年的努力和开发,CUDA 生态系统在 AI 市场上拥有非常强大的地位,而 AMD 的 ROCM 60 是新的,尚未在实际场景中进行测试。
根据AMD此前披露的信息,它已经与Microsoft和Meta等大公司达成了很大一部分交易,这些公司将其Mi300X GPU视为Nvidia H100解决方案的替代品。
AMD最新的Instinct Mi300X预计将在2024年上半年大量出货,然而,英伟达更强大的H200 GPU也将在届时出货,英伟达也将在2024年下半年推出新一代Blackwell B100。 此外,英特尔还将推出其新一代AI芯片高迪3。 接下来,人工智能领域的竞争似乎将变得更加激烈。
编辑:新知勋-流氓剑。