为什么贪婪的 GPU 需要快速的对象存储?

小夏 科技 更新 2024-02-02

链的强度取决于其最薄弱的环节,就像您的 AI ML 基础设施的速度取决于最慢的组件一样快。 如果您使用 GPU 来训练机器学习模型,您的弱点可能是您的存储解决方案。 结果就是我所说的“饥饿的GPU问题”。

当您的网络或存储解决方案无法足够快地向训练逻辑提供训练数据以充分利用您的 GPU 时,就会出现 GPU 饥饿问题。 症状非常明显。 如果你正在监控你的GPU,那么你会注意到它们永远不会被充分利用。 如果您对训练进行了检测**,您会注意到总训练时间主要由 io 主导。 不幸的是,对于那些正在处理这个问题的人来说,有一个坏消息。 让我们来看看 GPU 使用方面的一些进步,看看这个问题在未来几年会如何变得更糟。

GPU 的速度越来越快。 不仅原始性能有所提高,内存和带宽也有所提高。 让我们来看看 NVIDIA 最新 GPU 的三大功能:A100、H100 和 H200。

注意:以上**使用对应于A100的PCIe(外围组件互连Express)插槽解决方案和H100和H200的SXM(服务器PCI快速模块)插槽解决方案的统计数据。 A100 不存在 SXM 的统计数据。 关于性能,比较使用浮点 16 张量核心的统计数据。 )

上述统计数据中的一些观察结果值得注意。 首先,H100 和 H200 的性能相同(1,979 Tflops),是 A100 的 317次。 H100 的内存是 A100 的两倍,内存带宽也增加了同样多——这是有道理的,否则 GPU 会挨饿。 H200 可以处理高达 141GB 的内存,其内存带宽也随着内存的增加而成比例增加。 让我们更详细地了解这些统计数据,并讨论它们对机器学习的意义。

性能 - 1 万亿次浮点运算 (tflops) 是每秒一万亿次(10 到 12 次)浮点运算。 这是一个 1 后跟 12 个零 (1,000,000,000,000)。 在模型训练期间发生的浮点运算包括简单的张量数学以及损失函数的一阶导数(即梯度)。 但是,由于统计数据中 TFLOPS 和 IO 需求之间的相对比较,可以进行一些估计。 从上面的统计数据来看,我们可以看到 H100 和 H200 的性能都达到了 1,979 Tflops,速度提高了 3 倍——如果其他一切都能跟上,数据处理理论上可以快 3 倍。

GPU 内存 - 也称为内存或图形内存。 GPU 内存与系统的主内存 (RAM) 分开,专用于处理图形卡执行的密集型图形处理任务。 GPU 内存决定了训练模型时的批大小。 过去,当训练逻辑从 CPU 迁移到 GPU 时,批量大小会减小。 但是,由于 GPU 内存与 CPU 内存容量相当,因此 GPU 训练的批量大小会增加。 当性能和内存容量都增加时,结果是更大的请求和更快的每 GB 数据处理速度。

内存带宽 - 连接 GPU 内存和计算核心的“高速公路”。 它决定了每单位时间可以传输多少数据。 正如更宽的高速公路允许更多的汽车在给定的时间内通过一样,更高的内存带宽允许更多的数据在内存和 GPU 之间移动。 正如你所看到的,这些GPU的设计者在每个新版本中都增加了内存带宽与内存的比率,因此芯片内部的数据显示不会成为瓶颈。

2023 年 8 月,NVIDIA 宣布了其下一个用于加速计算和生成式 AI 的 GPU 平台,即 Grace Hopper 超级芯片平台。 新平台使用 Grace Hopper 超级芯片,该芯片可以通过 NVIDIA NVLink 连接,使它们协同工作以进行模型训练和推理。 虽然 Grace Hopper 超级芯片的所有规格都代表了对前代芯片的改进,但对 AI ML 工程师来说,最重要的创新是其统一内存。 Grace Hopper 使 GPU 能够完全访问 CPU 的内存。 这对于曾经想要使用 GPU 进行训练的工程师来说非常重要。 因为在过去,想要使用 GPU 进行训练的工程师首先必须将数据提取到系统内存中,然后从那里将数据移动到 GPU 内存中。 Grace Hopper 消除了使用 CPU 内存作为数据到达 GPU 的回弹缓冲区的需要。 对于任何负责升级 GPU 并确保其他一切都能跟上的人来说,对几个关键的 GPU 统计数据以及 Grace Hopper 的能力进行简单的比较可能会有点令人不安。 存储解决方案肯定需要以更快的速度提供数据,以跟上这些 GPU 改进的步伐。 让我们来看看常见的 Tiger GPU 问题的解决方案。

对于这个问题,有一个常见且明显的解决方案,它不需要组织更换或升级现有的存储解决方案。 您可以保持现有存储解决方案不变,以便利用组织所需的所有企业功能。 此存储解决方案可能是一个包含组织所有非结构化数据的数据湖,因此它可能非常大,并且总拥有成本是一个考虑因素。 它还具有许多支持冗余、可靠性和安全性的功能,所有这些都会影响性能。 但是,可以做的是在数据中心中设置一个与计算基础设施相同的存储解决方案——理想情况下,该解决方案应该与计算集群相同。 确保您拥有高速互联网和最好的存储设备。 从那里,仅复制用于 ML 训练的数据。 亚马逊最近发布的Amazon S3 Express One Zone就是这种方法的例证。 它是一种针对高吞吐量和低延迟进行了优化的存储桶类型,仅限于单个可用区(无复制)。 亚马逊的目的是让客户使用它来保存需要高速访问的数据副本。 因此,它是专门为模型训练而设计的。 据亚马逊称,它提供对 S3 标准数据的访问速度快 10 倍,成本是 S3 标准的 8 倍。 详细了解我们对 Amazon S3 Express One Zone 的评估。

我上面概述的常见解决方案要求 Amazon 通过提供增加成本的专用存储桶来定制其 S3 存储解决方案。 此外,一些组织(不是minio客户)正在购买专业的存储解决方案来实现我上面描述的简单事情。 不幸的是,这增加了现有基础设施的复杂性,因为需要一种新产品来解决一个相对简单的问题。

具有讽刺意味的是,minio的客户一直有这个选择。 您可以通过在高速网络上安装新的 minio 实例并使用 NVMe 驱动器来完成我所描述的所有操作。 Minio 是一种软件定义的存储解决方案,相同的产品可以使用各种存储设备在裸机或您选择的集群上运行。 如果您的企业数据湖在裸机上使用 minio 并从 HDD 工作,并且适用于所有非 ML 数据,则没有理由替换它。 但是,如果 ML 数据集需要更快的 IO,因为您使用 GPU,请考虑我在这篇文章中概述的方法。 确保为 Minio 的高速实例制作 ML 数据的副本 - 始终在 Minio 坚不可摧的安装中提供黄金副本。 这将允许您关闭 minio 高速实例中的复制和加密等功能,从而进一步提高性能。 使用 minio 的镜像功能复制数据非常容易。

Minio 能够满足饥饿的 GPU 所需的性能——最近的一项基准测试在 Gets 上实现了 325 Gibs,在 Pits 上实现了 165 Gibs,而标准 NVMe SSD 只有 32 个节点。

立即加入 Minio,了解构建数据湖仓一体是多么简单。 如果您有任何问题,请务必与我们联系!

相似文章

    为什么当你坐在一辆快速行驶的汽车里时,你会觉得自己在扔掉?

    你有没有坐过快速行驶的汽车,不管是公共汽车 出租车 私家车 地铁 高铁 飞机,当车辆转弯时,你会感觉到一股力量向外抛出,以至于你不得不抓住扶手或靠在座位上,以免被甩出去?你有没有想过,为什么这种力量来自 它有什么影响?如果您对这些问题感兴趣,那么您应该继续阅读本文。我将从物理学 生物学和心理学等不同...

    为什么你需要学会在正确的时间无动于衷?

    当每个人来到这个世界时,他们心中都渴望快乐和幸福。现实往往与梦境相去甚远,人们只能在幻想中寻找慰藉。社会是一个庞大而复杂的社会动物,互联互通是维持正常生活的必然选择。然而,这种联系不可避免地导致人际关系中的摩擦和问题。比如小明下班后筋疲力尽,想找片刻的宁静来解压。然而,兄妹俩却纷纷找上门来,诉说自己...

    萨哈林岛之争 为什么日本对库页岛的占有欲比中国人强?

    在俄罗斯的最东端,有一个面积超过万平方公里的大岛,是俄罗斯最大的岛屿,也是世界上最长的岛屿。它的名字是萨哈林岛,或者你可能更熟悉它的另一个名字 萨哈林岛。这个岛屿曾经是中国 日本和俄罗斯之间争夺的对象,它的历史充满了战争 流血 悲剧和变化。现在它完全是俄罗斯领土的一部分,但日本仍然痴迷于它,即使以牺...

    萨哈林岛之争 为什么日本对库页岛的占有欲比中国人强?

    在阅读本文前,请点击 关注 与您讨论分享,您也可以及时 下一篇精彩文章。非常感谢您的关注!编者注 本文为今日头条原创独家首发,请勿抄袭 一千年后,萨哈林岛绝对属于我们的国家。数百年来,中日俄三国一直在争夺资源丰富的库页岛的主权,一旦掌握了主权,就有可能将国家实力提高到一个更高的水平。日本曾趁势占领库...

    为什么男人现在不再需要女人了?

    在这个瞬息万变的时代,我们经常听到关于男人不再需要女人的说法。这些言论似乎传达了一个信息,即现代社会中的男性不再需要女性的陪伴 支持和理解。但是,这种观点合理吗?为什么会这样?首先,我们需要明确 男人和女人都有自己的需求和特点,无论是身体上还是心理上。虽然男性和女性之间存在一些差异,但这些差异并不意...