英伟达特别版AI芯片更新

事件：英伟达面向中国的AI芯片H20的“特别版”已经开放预订。 据基层研究，单张卡的价格预计为 13-1.国内两大厂商以4万美元向英伟达下单，采购数万件H20乐观的第二季度出货量。 H20每年的出货量可能几十万件，之前市场预期应该在30万件左右。与此同时，英伟达的另一款中国专用芯片L20 PCIe也在测试中，即将购买。

问：H20 占 H800 培训的 6-7%。原来，当H时，算力使用效率为3-4%，而新的H20增加了带宽，形成集群的大模型的训练效率可能比H800更好？

A：国内软件训练框架比较薄弱，国内软件训练框架是GPT10\2.基于0架构，H800的计算性能很高，但是在百万级训练参数方面还是没有办法用的，而且H800的效率非常低。但是，就H20而言，更容易获得训练参数不是很高的方面，非常适合多卡堆叠和多AI服务器的使用。

问：改进后的芯片是否更容易训练大型模型？

答：就国内大规模模型训练而言，不能只看硬件。一个是卡片，另一个是框架。 gpt4.0 基本上涵盖了所有国内知识，但国内 . .0不能使用，常规频道均为10/2.0、训练参数和性能有限。即使 H100 有卡，也无法训练，因为底层软件有局限性。英伟达推出H20显卡，国内客户购买更多显卡，可以达到与A100和H800相同的效率。 NV可以买更多的卡，但也符合美国的禁令，并且不会让基于GPT20 训练模型框架在更高的模型上训练，这个模型也是多赢的。 NV不会完全切断NV和中国的通信，硬件可以给，但软件层面被切断了，没有办法使用中国千亿训练模型的框架。不需要NV IB交换机，光模块需要400G 800G。由于H100 AI服务器，您可以使用400G光模块或800G（8卡为4 800G光模块）。因为AI服务器数量的增加，光模块的数量也会增加。在组网方面，它是用于NV的IB交换机，以及用于正常组网的以太网交换机。

Q：H20产品的HBM3用于3块板，即算力是A100的30%，HBM量是一样的？

答：单卡HBM量与H800相似，H20的CoODOS流程比800简单。 nm越小，集成度越高，算力越强。从H20的算力来看，设计过程一般，还不如910B的算力设计过程。就铸造厂而言，它们可以在一些相对较差的制造工艺中重复使用，并且成本降低了。唯一的是 HBM，价值 3 倍。

Q：H20的NVLINK是900GB s，而H800只有400，可以实现吗？

A：NVLink对于NV来说不是高端的，它已经很成熟了，H系列可以支持。网络带宽支持如此之大，可以购买更多的卡来达到，NVLink的传输速度可以领先。 Ascend 现在达不到的是 400g，8 张卡是连续 200 张。

问：培训框架是什么？

答：训练模型由语言框架和软件框架支持。软件升级，或者说技术迭代，就国内培训语言框架而言，软件版本相对较低，也就是。0、海外升级GPT 4版本 0。 API 端口不申请国内账号试用，所以体验不到 4内置 0 个软件功能。美国对A100 H100的封锁是不愿分享制造过程。

问：为什么 H20 卡不需要 Covos 包？

答：我看到有HBM，但是CODOS在4或3nm以上，这是一个高端封装，所以A100 A800 H20，制造工艺没有H100那么高，所以封装架构不需要CODOS，成本降低。明年，北美对H100的需求会很旺盛，所以不会为了中国的销量而占用包装能力。

问：对算力租赁有何影响？

答：过去，它们大多是A-H800，但现在禁令之后，算力租赁已经停滞不前。现在，在NV推出H20之后，可以建立算力中心和算力租赁中心。数据中心可以通过 NVLink 和 IB 网络架构构建，使用多个 H20 和多个基于 H20 的 AI 服务器。大多数算力企业都是基于CUDA架构的，而H20的出现，将帮助算力租赁中心缓解数据中心建设中缺卡的局面。

问：是否理解为缓解算力短缺，限制算力涨价，对算力租赁企业不利？

答：就算力企业而言，目前处于看跌状态。算力租赁行业对卡的依赖程度很高，没有生存价值。

问：H20 可以保留 NVLunk 吗，但带宽要求不受影响？

A：当A H100受到限制时，网络互联带宽受到限制。但现在 11 月对 H800 的禁令将取消带宽限制。这就是美国的问题，如何不给高端卡，但又不切断业务联系，多买卡，才能达到H100的业绩。 NV会大惊小怪NVLink卡之间的互连，堆叠卡以提高性能是一个很好的商业模式。

问：H20 集群的性能与 Hw 的性能相比如何？

答：服务器卡之间的瓶颈和服务器之间的瓶颈。卡对卡互联910b的互连带宽是H20的一半，卡间互连性能降低一半。互连服务器，Nvidia 有一个半点的 IB 交换机，并且没有其他解决方案。在国内，它是G集**的替代，计算能力的损失比较大。

Q：昇腾卡的性能可以和A100相媲美，但是在软件上有什么差距呢？

答：1）在软件方面，在商业软件方面，基础高端软件来自海外软件公司。国内企业做兼容性适配是非常困难的，NV在显卡发布前会做相应的性能兼容性测试和调优，所以NV在销售平台上的使用方面是最好的。

2）国产卡的客户在互联网公司，他们不会使用商业软件，而是开源软件进行开发，因为每个互联网公司的商业使用方式不同，会做一些开发。他们利用互联网自研平台迁移适配国产卡，适配成本相对较低。大家都非常关注互联网行业，国内芯片行业也非常关注，因为互联网最容易切入NV，没有商业软件的影响，都是自研的。软件开发周期比硬件开发周期长得多。

Q：17日下单后，H20订单会有转换吗？或者您想再次下新订单？

答：禁令后，必须取消订单，并且NV已被取消。因此，H20的订单是新的，不能平等地替换。

问：阉割版本有用吗？客户需要多长时间才能适应服务？

答：英伟达的卡在互联网公司，适应小批量——大批量需要半年时间，从引入测试到小批量需要半年时间。卡的阶段是英伟达的设计完成，它自己做测试，但是没有下级代工厂，送到互联网上进行介绍和测试，下面就是服务器代工厂的小批量生产和调试，然后小批量制作，与互联网同步，并购买了半年。

Q：从训练模型的角度来看，不管是看int8还是fp16，甚至是fp32，我都觉得说法很多，我们主要判断国内外哪个指标的算力？

Q：主要是FP32和FP64，FP16是由于国内的设计过程，没有办法实现，真正看浮点运算，还是FP32和FP64。 Nvidia 基本上不做 FP16 浮点运算参数。在国内模型框架中，FP16 仍然可以使用，但一旦训练参数激增，就是 FP32 和 FP64。

问：与H100等先进芯片相比，NV变通方法的成本会增加多少？

答：运营成本的增加将与卡购买量的增加成正比。举个通俗的例子，H100卡的运行成本与H800的成本不同，卡的成本在空间、功耗、人员成本等方面都非常高。 H20与H100相比有一定的功耗，但比A100高得多，通过H20，未来大规模使用的成本将比A100高出3-4倍，比H100低。

问：H20 是否使用液体冷却？

答：是H20风冷，液冷还是H100,750W功耗。 H20增加了2-3张卡，功耗是A100的3-4倍。

问：与原来的H800网络相比，H20网络是否会增加功耗和散热要求？

答：H20的散热会比H800低，因为算力和功耗低，散热会低。

Q：现在NVIDIA已经有了兼容产品，但是由于单卡算力的降低，是不是意味着同一个算力集群需要更多的服务器？

答：是的，H20之所以留下大量带宽，可以让国内用户实现一些堆叠。

Q：假设有足够的资源买卡，不考虑能耗，基于H20算力的集群算力能达到基于H100算力的集群算力吗？

答：是的。

会议纪要**：温八沽研究]小程序

英伟达特别版AI芯片更新

相似文章

英伟达已开放华特AI芯片预购，价格接近华为昇腾910B

华为AI芯片火爆，英伟达着急，GPU打折打压华为？

华为AI芯片火热，英伟达着急，调优GPU价格打压华为？

华为AI芯片，售罄！英伟达“中国专用AI芯片”反弹？

英伟达中国专用AI芯片开始预购，价格曝光