英伟达特别版AI芯片更新

小夏 科技 更新 2024-03-04

事件:英伟达面向中国的AI芯片H20的“特别版”已经开放预订。 据基层研究,单张卡的价格预计为 13-1.国内两大厂商以4万美元向英伟达下单,采购数万件H20乐观的第二季度出货量。 H20每年的出货量可能几十万件,之前市场预期应该在30万件左右。 与此同时,英伟达的另一款中国专用芯片L20 PCIe也在测试中,即将购买。

问:H20 占 H800 培训的 6-7%。 原来,当H时,算力使用效率为3-4%,而新的H20增加了带宽,形成集群的大模型的训练效率可能比H800更好?

A:国内软件训练框架比较薄弱,国内软件训练框架是GPT10\2.基于0架构,H800的计算性能很高,但是在百万级训练参数方面还是没有办法用的,而且H800的效率非常低。 但是,就H20而言,更容易获得训练参数不是很高的方面,非常适合多卡堆叠和多AI服务器的使用。

问:改进后的芯片是否更容易训练大型模型?

答:就国内大规模模型训练而言,不能只看硬件。 一个是卡片,另一个是框架。 gpt4.0 基本上涵盖了所有国内知识,但国内 . .0不能使用,常规频道均为10/2.0、训练参数和性能有限。 即使 H100 有卡,也无法训练,因为底层软件有局限性。 英伟达推出H20显卡,国内客户购买更多显卡,可以达到与A100和H800相同的效率。 NV可以买更多的卡,但也符合美国的禁令,并且不会让基于GPT20 训练模型框架在更高的模型上训练,这个模型也是多赢的。 NV不会完全切断NV和中国的通信,硬件可以给,但软件层面被切断了,没有办法使用中国千亿训练模型的框架。 不需要NV IB交换机,光模块需要400G 800G。 由于H100 AI服务器,您可以使用400G光模块或800G(8卡为4 800G光模块)。 因为AI服务器数量的增加,光模块的数量也会增加。 在组网方面,它是用于NV的IB交换机,以及用于正常组网的以太网交换机。

Q:H20产品的HBM3用于3块板,即算力是A100的30%,HBM量是一样的?

答:单卡HBM量与H800相似,H20的CoODOS流程比800简单。 nm越小,集成度越高,算力越强。 从H20的算力来看,设计过程一般,还不如910B的算力设计过程。 就铸造厂而言,它们可以在一些相对较差的制造工艺中重复使用,并且成本降低了。 唯一的是 HBM,价值 3 倍。

Q:H20的NVLINK是900GB s,而H800只有400,可以实现吗?

A:NVLink对于NV来说不是高端的,它已经很成熟了,H系列可以支持。 网络带宽支持如此之大,可以购买更多的卡来达到,NVLink的传输速度可以领先。 Ascend 现在达不到的是 400g,8 张卡是连续 200 张。

问:培训框架是什么?

答:训练模型由语言框架和软件框架支持。 软件升级,或者说技术迭代,就国内培训语言框架而言,软件版本相对较低,也就是。0、海外升级GPT 4版本 0。 API 端口不申请国内账号试用,所以体验不到 4内置 0 个软件功能。 美国对A100 H100的封锁是不愿分享制造过程。

问:为什么 H20 卡不需要 Covos 包?

答:我看到有HBM,但是CODOS在4或3nm以上,这是一个高端封装,所以A100 A800 H20,制造工艺没有H100那么高,所以封装架构不需要CODOS,成本降低。 明年,北美对H100的需求会很旺盛,所以不会为了中国的销量而占用包装能力。

问:对算力租赁有何影响?

答:过去,它们大多是A-H800,但现在禁令之后,算力租赁已经停滞不前。 现在,在NV推出H20之后,可以建立算力中心和算力租赁中心。 数据中心可以通过 NVLink 和 IB 网络架构构建,使用多个 H20 和多个基于 H20 的 AI 服务器。 大多数算力企业都是基于CUDA架构的,而H20的出现,将帮助算力租赁中心缓解数据中心建设中缺卡的局面。

问:是否理解为缓解算力短缺,限制算力涨价,对算力租赁企业不利?

答:就算力企业而言,目前处于看跌状态。 算力租赁行业对卡的依赖程度很高,没有生存价值。

问:H20 可以保留 NVLunk 吗,但带宽要求不受影响?

A:当A H100受到限制时,网络互联带宽受到限制。 但现在 11 月对 H800 的禁令将取消带宽限制。 这就是美国的问题,如何不给高端卡,但又不切断业务联系,多买卡,才能达到H100的业绩。 NV会大惊小怪NVLink卡之间的互连,堆叠卡以提高性能是一个很好的商业模式。

问:H20 集群的性能与 Hw 的性能相比如何?

答:服务器卡之间的瓶颈和服务器之间的瓶颈。 卡对卡互联910b的互连带宽是H20的一半,卡间互连性能降低一半。 互连服务器,Nvidia 有一个半点的 IB 交换机,并且没有其他解决方案。 在国内,它是G集**的替代,计算能力的损失比较大。

Q:昇腾卡的性能可以和A100相媲美,但是在软件上有什么差距呢?

答:1)在软件方面,在商业软件方面,基础高端软件来自海外软件公司。国内企业做兼容性适配是非常困难的,NV在显卡发布前会做相应的性能兼容性测试和调优,所以NV在销售平台上的使用方面是最好的。

2)国产卡的客户在互联网公司,他们不会使用商业软件,而是开源软件进行开发,因为每个互联网公司的商业使用方式不同,会做一些开发。他们利用互联网自研平台迁移适配国产卡,适配成本相对较低。 大家都非常关注互联网行业,国内芯片行业也非常关注,因为互联网最容易切入NV,没有商业软件的影响,都是自研的。 软件开发周期比硬件开发周期长得多。

Q:17日下单后,H20订单会有转换吗? 或者您想再次下新订单?

答:禁令后,必须取消订单,并且NV已被取消。 因此,H20的订单是新的,不能平等地替换。

问:阉割版本有用吗? 客户需要多长时间才能适应服务?

答:英伟达的卡在互联网公司,适应小批量——大批量需要半年时间,从引入测试到小批量需要半年时间。 卡的阶段是英伟达的设计完成,它自己做测试,但是没有下级代工厂,送到互联网上进行介绍和测试,下面就是服务器代工厂的小批量生产和调试,然后小批量制作,与互联网同步, 并购买了半年。

Q:从训练模型的角度来看,不管是看int8还是fp16,甚至是fp32,我都觉得说法很多,我们主要判断国内外哪个指标的算力?

Q:主要是FP32和FP64,FP16是由于国内的设计过程,没有办法实现,真正看浮点运算,还是FP32和FP64。 Nvidia 基本上不做 FP16 浮点运算参数。 在国内模型框架中,FP16 仍然可以使用,但一旦训练参数激增,就是 FP32 和 FP64。

问:与H100等先进芯片相比,NV变通方法的成本会增加多少?

答:运营成本的增加将与卡购买量的增加成正比。 举个通俗的例子,H100卡的运行成本与H800的成本不同,卡的成本在空间、功耗、人员成本等方面都非常高。 H20与H100相比有一定的功耗,但比A100高得多,通过H20,未来大规模使用的成本将比A100高出3-4倍,比H100低。

问:H20 是否使用液体冷却?

答:是H20风冷,液冷还是H100,750W功耗。 H20增加了2-3张卡,功耗是A100的3-4倍。

问:与原来的H800网络相比,H20网络是否会增加功耗和散热要求?

答:H20的散热会比H800低,因为算力和功耗低,散热会低。

Q:现在NVIDIA已经有了兼容产品,但是由于单卡算力的降低,是不是意味着同一个算力集群需要更多的服务器?

答:是的,H20之所以留下大量带宽,可以让国内用户实现一些堆叠。

Q:假设有足够的资源买卡,不考虑能耗,基于H20算力的集群算力能达到基于H100算力的集群算力吗?

答:是的。

会议纪要**:温八沽研究]小程序

相似文章

    英伟达已开放华特AI芯片预购,价格接近华为昇腾910B

    月日,路透社援引知情人士的话称,英伟达已开始接受经销商预订一款专为中国市场预购的新型AI芯片H。英伟达针对最新限制为中国市场研发的三款芯片分别是HGX H L PCLE L PCLE,均基于H AI芯片,性能自然弱于H,也低于其此前针对中国的专项改进芯片H。其中,H是三款芯片中性能最高的版本,性能不...

    华为AI芯片火爆,英伟达着急,GPU打折打压华为?

    众所周知,随着中国人工智能产业的蓬勃发展,尤其是华为ai 芯迅速崛起英伟达对其在中国市场的地位的担忧。正如美国将要的那样英伟达之ha等芯片禁止出口到中国英伟达H 和 A 的阉割版本必须面向中国市场推出。然而,去年,美国再次收紧了该货币对华为及其 商家的禁运政策,使英伟达H A等芯片也受到限制。面对这...

    华为AI芯片火热,英伟达着急,调优GPU价格打压华为?

    近两年来,人工智能技术在中国的兴起引发了美国的担忧,以维护自身利益美国 右英伟达H型a芯片实施了禁令。为了继续进入中国市场,英伟达H 和 A 的阉割版本是为了符合禁令标准而开发的。然而,在去年,美国 禁令要求进一步收紧,门槛提高了很多,令人信服英伟达不得不继续阉割 H 和 A 等芯片。虽然英伟达诽谤...

    华为AI芯片,售罄!英伟达“中国专用AI芯片”反弹?

    近日,有报道称,英伟达原计划推出的 中国专用AI芯片 已被推迟。据报道,最强芯片H的推出时间和细节尚不确定。此次延期的主要原因是,随着中国市场的发展,英伟达面临的竞争压力变得更加严峻。华为AI芯片成为众多客户青睐的对象,国内一二线互联网厂商正在加大对华为AI芯片等国产替代品的采购力度。尽管华为的AI...

    英伟达中国专用AI芯片开始预购,价格曝光

    英伟达还计划再推出两款专门针对中国市场的芯片。英伟达。据知情人士透露,英伟达已经开始通过分销商接受其中国专用版AI芯片H的订单,也已经发布。H是三款中国专用芯片中最强大的一款。据知情人士透露,英伟达最近几周对中国H经销商的订单已定为每件台 , 至 , 约.,元至,元人民币 不过,一些经销商已经开始大...