事件:英伟达面向中国的AI芯片H20的“特别版”已经开放预订。 据基层研究,单张卡的价格预计为 13-1.国内两大厂商以4万美元向英伟达下单,采购数万件H20乐观的第二季度出货量。 H20每年的出货量可能几十万件,之前市场预期应该在30万件左右。 与此同时,英伟达的另一款中国专用芯片L20 PCIe也在测试中,即将购买。
问:H20 占 H800 培训的 6-7%。 原来,当H时,算力使用效率为3-4%,而新的H20增加了带宽,形成集群的大模型的训练效率可能比H800更好?
A:国内软件训练框架比较薄弱,国内软件训练框架是GPT10\2.基于0架构,H800的计算性能很高,但是在百万级训练参数方面还是没有办法用的,而且H800的效率非常低。 但是,就H20而言,更容易获得训练参数不是很高的方面,非常适合多卡堆叠和多AI服务器的使用。
问:改进后的芯片是否更容易训练大型模型?
答:就国内大规模模型训练而言,不能只看硬件。 一个是卡片,另一个是框架。 gpt4.0 基本上涵盖了所有国内知识,但国内 . .0不能使用,常规频道均为10/2.0、训练参数和性能有限。 即使 H100 有卡,也无法训练,因为底层软件有局限性。 英伟达推出H20显卡,国内客户购买更多显卡,可以达到与A100和H800相同的效率。 NV可以买更多的卡,但也符合美国的禁令,并且不会让基于GPT20 训练模型框架在更高的模型上训练,这个模型也是多赢的。 NV不会完全切断NV和中国的通信,硬件可以给,但软件层面被切断了,没有办法使用中国千亿训练模型的框架。 不需要NV IB交换机,光模块需要400G 800G。 由于H100 AI服务器,您可以使用400G光模块或800G(8卡为4 800G光模块)。 因为AI服务器数量的增加,光模块的数量也会增加。 在组网方面,它是用于NV的IB交换机,以及用于正常组网的以太网交换机。
Q:H20产品的HBM3用于3块板,即算力是A100的30%,HBM量是一样的?
答:单卡HBM量与H800相似,H20的CoODOS流程比800简单。 nm越小,集成度越高,算力越强。 从H20的算力来看,设计过程一般,还不如910B的算力设计过程。 就铸造厂而言,它们可以在一些相对较差的制造工艺中重复使用,并且成本降低了。 唯一的是 HBM,价值 3 倍。
Q:H20的NVLINK是900GB s,而H800只有400,可以实现吗?
A:NVLink对于NV来说不是高端的,它已经很成熟了,H系列可以支持。 网络带宽支持如此之大,可以购买更多的卡来达到,NVLink的传输速度可以领先。 Ascend 现在达不到的是 400g,8 张卡是连续 200 张。
问:培训框架是什么?
答:训练模型由语言框架和软件框架支持。 软件升级,或者说技术迭代,就国内培训语言框架而言,软件版本相对较低,也就是。0、海外升级GPT 4版本 0。 API 端口不申请国内账号试用,所以体验不到 4内置 0 个软件功能。 美国对A100 H100的封锁是不愿分享制造过程。
问:为什么 H20 卡不需要 Covos 包?
答:我看到有HBM,但是CODOS在4或3nm以上,这是一个高端封装,所以A100 A800 H20,制造工艺没有H100那么高,所以封装架构不需要CODOS,成本降低。 明年,北美对H100的需求会很旺盛,所以不会为了中国的销量而占用包装能力。
问:对算力租赁有何影响?
答:过去,它们大多是A-H800,但现在禁令之后,算力租赁已经停滞不前。 现在,在NV推出H20之后,可以建立算力中心和算力租赁中心。 数据中心可以通过 NVLink 和 IB 网络架构构建,使用多个 H20 和多个基于 H20 的 AI 服务器。 大多数算力企业都是基于CUDA架构的,而H20的出现,将帮助算力租赁中心缓解数据中心建设中缺卡的局面。
问:是否理解为缓解算力短缺,限制算力涨价,对算力租赁企业不利?
答:就算力企业而言,目前处于看跌状态。 算力租赁行业对卡的依赖程度很高,没有生存价值。
问:H20 可以保留 NVLunk 吗,但带宽要求不受影响?
A:当A H100受到限制时,网络互联带宽受到限制。 但现在 11 月对 H800 的禁令将取消带宽限制。 这就是美国的问题,如何不给高端卡,但又不切断业务联系,多买卡,才能达到H100的业绩。 NV会大惊小怪NVLink卡之间的互连,堆叠卡以提高性能是一个很好的商业模式。
问:H20 集群的性能与 Hw 的性能相比如何?
答:服务器卡之间的瓶颈和服务器之间的瓶颈。 卡对卡互联910b的互连带宽是H20的一半,卡间互连性能降低一半。 互连服务器,Nvidia 有一个半点的 IB 交换机,并且没有其他解决方案。 在国内,它是G集**的替代,计算能力的损失比较大。
Q:昇腾卡的性能可以和A100相媲美,但是在软件上有什么差距呢?
答:1)在软件方面,在商业软件方面,基础高端软件来自海外软件公司。国内企业做兼容性适配是非常困难的,NV在显卡发布前会做相应的性能兼容性测试和调优,所以NV在销售平台上的使用方面是最好的。
2)国产卡的客户在互联网公司,他们不会使用商业软件,而是开源软件进行开发,因为每个互联网公司的商业使用方式不同,会做一些开发。他们利用互联网自研平台迁移适配国产卡,适配成本相对较低。 大家都非常关注互联网行业,国内芯片行业也非常关注,因为互联网最容易切入NV,没有商业软件的影响,都是自研的。 软件开发周期比硬件开发周期长得多。
Q:17日下单后,H20订单会有转换吗? 或者您想再次下新订单?
答:禁令后,必须取消订单,并且NV已被取消。 因此,H20的订单是新的,不能平等地替换。
问:阉割版本有用吗? 客户需要多长时间才能适应服务?
答:英伟达的卡在互联网公司,适应小批量——大批量需要半年时间,从引入测试到小批量需要半年时间。 卡的阶段是英伟达的设计完成,它自己做测试,但是没有下级代工厂,送到互联网上进行介绍和测试,下面就是服务器代工厂的小批量生产和调试,然后小批量制作,与互联网同步, 并购买了半年。
Q:从训练模型的角度来看,不管是看int8还是fp16,甚至是fp32,我都觉得说法很多,我们主要判断国内外哪个指标的算力?
Q:主要是FP32和FP64,FP16是由于国内的设计过程,没有办法实现,真正看浮点运算,还是FP32和FP64。 Nvidia 基本上不做 FP16 浮点运算参数。 在国内模型框架中,FP16 仍然可以使用,但一旦训练参数激增,就是 FP32 和 FP64。
问:与H100等先进芯片相比,NV变通方法的成本会增加多少?
答:运营成本的增加将与卡购买量的增加成正比。 举个通俗的例子,H100卡的运行成本与H800的成本不同,卡的成本在空间、功耗、人员成本等方面都非常高。 H20与H100相比有一定的功耗,但比A100高得多,通过H20,未来大规模使用的成本将比A100高出3-4倍,比H100低。
问:H20 是否使用液体冷却?
答:是H20风冷,液冷还是H100,750W功耗。 H20增加了2-3张卡,功耗是A100的3-4倍。
问:与原来的H800网络相比,H20网络是否会增加功耗和散热要求?
答:H20的散热会比H800低,因为算力和功耗低,散热会低。
Q:现在NVIDIA已经有了兼容产品,但是由于单卡算力的降低,是不是意味着同一个算力集群需要更多的服务器?
答:是的,H20之所以留下大量带宽,可以让国内用户实现一些堆叠。
Q:假设有足够的资源买卡,不考虑能耗,基于H20算力的集群算力能达到基于H100算力的集群算力吗?
答:是的。
会议纪要**:温八沽研究]小程序