近日,戴尔首席运营官杰夫·克拉克(Jeff Clarke)在一份新闻稿中透露,英伟达将在2025年推出采用“Blackwell”架构的B200产品,功耗可能达到1000W,比H100提升40%以上戴尔需要利用其工程独创性来冷却 GPU。
Clarke指出,作为一家硬件制造商,重要的是冷却产生这些FLOPS(每秒浮点运算)的处理器,而这正是戴尔的优势所在
我们将有机会展示我们作为行业领导者所做的工作利用我们的专业知识实现大规模的液冷性能无论是流体化学和性能工作,还是我们的互连工作,我们正在做的遥测工作,我们正在做的电源管理工作。 我们已准备好将其大规模推向市场,以利用市场上存在的这种令人难以置信的计算能力或实力或容量。3月3日,国盛**分析师宋家骥、黄晗、石玉杰在题为《液冷元年》的报告中指出。随着算力时代的到来,GPU服务器体积增加和液冷实施的驱动力发生了根本性的变化2024年将是液冷散热的第一年。
国生**分析,与传统服务器相比,AI服务器的功耗得到了极大的提升,成为驱动液冷的直接导火索从几百瓦的CPU服务器到几千瓦的GPU异构服务器,热功耗增加了几十倍然而,风冷的上限无法满足AI的散热需求,成为加速液冷散热的“必须”
在AI时代大模型兴起后,并行算力网络下的异构架构成为主流,AI服务器不仅使用传统的CPU芯片,还增加了大量的大功率GPU芯片,整机功率大幅提升,比如NVIDIA A100 SXM芯片单卡功耗为400W, 而 8 卡 AI 服务器单个 GPU 的热功耗为 32kw,h100 pcie 5.单卡0芯片功耗高达700W; 对于传统的通用服务器,以H3C为例,R4900 G6服务器处理器的最大功率为385W。国盛**认为,行业正处于落地液冷散热更大的问题是,初始投资比传统的风冷要多但随着AIDC建设的加快,大功率机柜的渗透率明显提高,功耗远超传统机柜,液冷相对于风冷的优势逐渐凸显,节省的电费有望逐渐“稀释”初期投资预计冷板液冷整体投资+运维性价比拐点有望加速。单个风冷制冷柜的上限通常在15kW左右,液冷数据中心的单个机柜可以支持30kW以上的散热能力。 以 H100 为例,假设 8 张卡完全配置,单个 H100 服务器的功耗将达到 5在6kW(不考虑CPU、存储、整机额外散热),风冷散热门槛有限,成为实际操作中的痛点,AI服务器机柜无法散热,液冷成为“必选”。
开源**还指出,在碳达峰、碳中和的背景下,IDC绿色化是大势所趋液冷或散热技术的演进是必然的途径随着PUE要求的不断严格,液冷散热的优势逐渐凸显出来,无论是IDC的新建还是库存改造的需要,液冷都有望成为首选。
财新**研究报告认为在数据中心大规模集约化发展的趋势下,液冷解决方案仍有每年降低成本5-10%的空间考虑到液冷方案可以有效延长服务器的使用寿命,未来液冷数据中心的总成本将更加明显。