由鲍永刚撰写。
编辑:王亚峰.
超越英伟达根本不可能。 资深芯片投资人Citrix明确表示,“即使AMD拥有比NVIDIA参数更强的芯片,也无法撼动NVIDIA在AI市场的地位。 ”
这几乎是AI芯片从业者的共识,无论是芯片巨头,还是美英创业公司与科技巨头,要想坐上英伟达统治的加速计算桌,与英伟达对抗的机会都微乎其微。
但是,如果商业竞争受到非商业力量的影响,则可能会出现例外。
10月17日,美国商务部工业与安全局(BIS)更新了针对中国的AI芯片出口管制规定,让国内高性能AI芯片企业有机会赶上并超越英伟达。
美国最新出口管制法规发布后,很多客户都来找我,包括之前态度冷淡的客户。 AI芯片公司的销售人员安瑞明显感觉到,“当你买不到英伟达GPU时,客户不会考虑谁更好用,而是谁能用。 ”
禁令的进一步收紧,对国内高性能AI芯片企业造成了打击,也限制了英伟达在中国市场的发展。
“我们必须放弃所有幻想,成为国内的替代品。 ”这是美国最新禁令后,在AI芯片圈经常听到的一句话。
在芯片领域做国产替代是一条极其艰难的道路,但当需要走上这条路时,国产AI芯片从业者正在思考一条赶超英伟达的道路。 你心中的路是什么?欢迎添加作者微信bensoneit**。
有些人认为,只有走一条完全不同的道路,才有机会超越。
有人认为,用英伟达的魔力打败英伟达是可能的。
其他人则认为有机会超越商业模式创新。
虽然他们各有各的见解,但是他们都非常清楚,要想生存下去,就必须把成本卷起来,把软件卷起来,解决生产问题。
放弃一切幻想,国产芯片是唯一的解决方案
10 月 17 日美国出口管制新规一出,本已炙手可热的英伟达 H800 GPU 就坐上了过山车。
难觅的8卡H800 GPU服务器在封禁更新前高达210万元左右,而在美国封禁发布当天,立即跃升至230万至250万元。
一周后,美国突然宣布,11月才生效的法规将立即生效,瞬间将H800GPU服务器**推至巅峰,跃升至350万元,而禁令升级前的210万元,涨幅达67%。
如今,虽然略有下降,但仍处于310万至330万元的高位。
10月底和11月底,顾客基本忙着抢货。 没有抢货之后,大家都来认真谈论国产芯片。 熟悉芯片市场的于晨也看到,“美国的禁令是一拳打脚踢,谁也承受不了美国订单一夜之间的变化,AI芯片企业要认真考虑下一代产品的方向,也要考虑国产代工的可能性。 ”
Leifeng.com 了解到,在10月17日禁令升级后,许多人工智能芯片公司不得不改变其芯片设计,以满足美国新法规的要求。
这一次禁令进一步收紧,影响范围比以前更大。
2024年美国芯片禁令引起轩然的时候,我已经在AI芯片行业了,当时我并不觉得AI芯片对我们来说是生死攸关的问题。 芯片软件工程师浩欣这次感慨,“如果我们没有强大的AI芯片,我们可能会被别人勒死,这关系到国家的命运。 ”
在芯片行业摸爬滚打十几年的子磊也深有感触,“从美国的限制也可以看出,美国已经预言AI代表着真正的生产力,是士兵的战场。 ”
我不知道谁会赢,但我知道如果我们输了,我们不仅会失去在技术上的领导地位,还可能被人工智能取代。 子磊很坚定,“不管是为了我们自己,还是为了下一代,我们都要站起来滚。 ”
美国和英国的公司也与国内的AI芯片公司一起受到了打击。
英国初创公司Graphcore是国内为数不多的拥有成熟团队的AI芯片公司之一,禁令发布后,由于其芯片的特性,其产品的设计在中国市场将不具备竞争力,Graphcore员工的工作几乎停滞不前,最终不得不解散中国团队。
英伟达也受到禁令的限制,中国市场每年为英伟达的数据中心业务贡献数百亿美元的收入,无法向中国市场销售有利可图的高性能芯片从短期来看,这是英伟达收入的损失,从长期来看,这是对中国市场的失控。
这也是英伟达一直在积极推出符合美国监管限制的芯片的原因。
H20的性能约为800作为H1 5,但**不会太便宜,因为它占据了H800的生产能力,可能是H800的1 2或2 3,这样的产品对客户来说不够有吸引力,国内企业在购买此类产品时很难与美国企业竞争。 余晨还表示,“预计今年年底可以送测试的H20,现在要推迟到明年上半年,这对国产芯片来说是一个机会。 ”
最强大的对手也受到限制,AI是一个不能掉队的行业,国内的AI企业别无选择,必须放弃一切幻想,做国产芯片。
禁令对每个人都不利,除了华为
正如中国AI芯片公司是赶上英伟达的唯一机会是个例外,华为也是这个禁令限制下的例外。
从2024年开始,华为一直受到美国的限制,此后,华为开始国产化,比受影响的国内AI芯片公司早四年开始进行国内替代,以至于其昇腾AI芯片也成为了这次的购买对象。
科大讯飞在2024年第三季度业绩发布会上公开表示,华为昇腾910B已经基本能够与英伟达A100进行对标。
这表明华为在某些地方做得非常好。 芯片算法工程师易森直言不讳地表示,“对于使用DSA(domain specific)架构的华为来说,芯片的规范化是一个问题。 ”
DSA可以看作是专门为某一类车型设计的芯片,“其归一化体现在地方上”。如果为某类模型设计的DSA芯片不够好,无法对这类模型进行归一化,则说明软件工作不到位。 Yissen认为。
这涉及到软件成熟度和生态的问题,而这正是英伟达的护城河所在。 对于华为能否基于自研架构构建像英伟达这样强大的软件生态,昊欣和昱辰有着不同的看法。
2017 年,当 Caffe 是主流 AI 框架时,英特尔斥巨资制作了 OpenCL 版本的 Caffe,目的是让更多的开发者使用它来抢占 AI 市场。 “但因为只有英特尔维护了这套东西,所以它最终仍然没有动摇英伟达的地位。 因此,即使华为花费大量的人力和物力进行算法和应用适配,也很难构建一个强大的生态系统。 ”
宇晨认为,奥升德至少可以在国内政企市场取得成功。
考虑到中国的特殊情况,华为至少可以在这个市场投入巨资,在政府和企业市场必须考虑国产替代的背景下,让昇腾芯片上市。 余晨也表示,“至于能否在商业市场上取得成功,现在很难做出判断。 ”
考虑到芯片设计和公司拥有的资源等因素,华为是目前在AI培训市场机会最多的中国公司。
对AI芯片领域非常熟悉的云硕,做到了乐观**,未来国内AI训练市场属于华为,非中国市场属于英伟达。 ”
但这有一个前提,华为必须成功解决芯片制造问题。
根据 Citrix 的乐观估计,14nm芯片产线的国内扩产最早要到2024年以后。 国产14nm还不成熟,涉及半导体材料和设备的出口管制需要时间。
良率也非常关键,直接影响到最终的成本,这是商业市场竞争的基础。 思迪态度很明确,“但每年国内半导体材料和设备企业都能给我一些惊喜,所以。虽然短期悲观,但长期看涨。
华为的业绩给那些想通过创新赶上英伟达的人带来了信心。
英伟达没有魔力,追赶架构创新
ChatGPT 对 GPU 的利用率只有个位数,这是对计算的巨大浪费。 云硕指出,“不合理的存储计算比例不利于生成式人工智能的普及。 ”
几十年来没有改变的计算机系统架构亟待改变,这也是赶上英伟达的机会。
大模型对计算能力的需求呈指数级增长,但GPU价格昂贵且省电,GPU集群的线性度随着规模的增加而降低,对非冯·诺依曼架构的探索变得非常流行。 “Yison已经经历过了。
存算融合是解决AI算存比例不合理的思路,国内某互联网龙头企业正在积极引入存算融合,解决算力成本问题。
存储和计算的架构适用于大规模模型计算因为存储和计算集成的架构具有计算密度低和存储密度高的特点。 “Eson 看到了大模型时代集成存储和计算架构的优势。
但这只是一个理论,“存储和计算的大规模实施仍然需要解决制造业中的许多问题。 Eason也看到了计算的挑战。
如果把存储和计算的融合看作是一个特殊的DSA,那么华为的昇腾也面临着常态化和生态化的挑战。
AI训练必须需要一个具有较强归一化能力的系统,但对于要实现的归一化程度存在一些争议。 昊信坚持认为一定是NVIDIA GPGPU的生态,而一森则认为只要足够规范化就没问题。
很多人对伊森有相似的看法,它就是这样诞生的CPU+DSA兼顾通用性和高性能,超越了英伟达的思维。
PyTorch 原生支持 x86 CPU,英特尔通过 CPU+DSA 的路径有最好的机会赶上 NVIDIA,但我不知道为什么英特尔没有做到。 云硕有些疑惑。
子磊也认为 X86 CPU 有很好的机会,“一般来说,一个模型调试阶段是用 CPU,把 CPU 上的精度作为在 GPU 上运行的精度要求,X86 CPU 的生态非常好,结合加速器有很好的加速机会, 英特尔确实有一款产品,但它以前可能没有押注过大型型号。 ”
除了x86之外,还有ARM和RISC-V,RISC-V CPU是国内企业探索CPU+DSA路径的最佳选择。
由于RISC-V的开源性质,它可以更积极地响应市场需求。 “它看起来像risc-v的CPU内核,但实际上是AI内核,已经有公司开始探索RISC-V。 “子磊说。
即使CPU+DSA的路径能够兼顾通用性和高性能,但NVIDIA最难超越的就是CUDA生态,这是摆在想要走这条路的公司面前最难解决的问题。
子磊对此并不悲观,“英伟达没有魔法,CUDA生态也是英伟达项目的实际经验,以及模型适配的积累,硬件每两年迭代一次,可复用的经验有限,软件的经验可以不断积累。 如果我们相信中国一定要做一个非GPU的生态,从长远来看,我相信我们是可以做到的。
比较昊欣有些悲观“英伟达的CUDA生态已经做了十几年了,而且是在全球客户需求下一点一点构建起来的生态,即使有中国客户的需求、决心和耐心,也很难建立起一个可以媲美英伟达CUDA生态的生态。 ”
昊信并不完全悲观,“国内企业也可以联手打造一个相对开放的类似CUDA的生态。 Leifeng.com 了解到,有人在试图拉拢国内DSA公司,以构建生态。
残酷的现实是,一些走DSA路线的公司,在实际落地项目中一次又一次迁移的困难下,已经开始寻找与NVIDIA CUDA生态兼容的方法。 更多细节可以添加作者的微信 bensoneit 互操作性。
利用英伟达的魔力追赶英伟达
有一种观点认为走Nvidia CUDA兼容路线,沿着 Nvidia 的道路永远不可能超越 Nvidia当然,这种观点大多来自走DSA路线的人。
如果连追都赶不上,怎么谈超越呢?“昊新坚持,”他说我不认为如果你做 CUDA 兼容性,你就不能超越 Nvidia。
追赶和超越的机会来自NVIDIA面临的难题。
没有人会否认,英伟达在AI领域已经拥有了显著的优势,而且没有丝毫放松的状态,这是一个非常难以挑战的对手。
但自从英伟达在 2017 年发布了 Volta 架构 GPU 并增加了专用加速核心 Tensor Cores此后,每一代NVIDIA GPU的性能提升主要来自专用计算单元部分。
英伟达算力的增长也在放缓,解决方案不是专注于通用计算单元,而是专注于专用计算单元。 “即使有了英伟达,开发者也很难使用其专用的加速单元,英伟达还推出了专门的加速库。” ”
遵循这个思路,将 NVIDIA 的 CUDA 生态系统视为两个主要部分一个是基于通用计算单元CUDA Cores的生态系统,另一个是以Tensor Cores为代表的专用加速生态系统。
我们只能兼容 CUDA 核心,而 Tensor Core 的生态系统无法兼容。 昊欣解释道,”兼容NVIDIA CUDA Core生态,可以降低客户的迁移难度。 专用的加速计算单元是迎头赶上和超越的机会。 对于这个观点的讨论,可以添加作者的微信bensoneit。
这个想法类似于用DSA超越的想法,就是从专用加速方面入手,设计出比英伟达专用加速单元更好的架构。
GPU 也是为特定时间段设计的产品,必须有其局限性。 “Yissen也表示。
俞晨也认为CUDA兼容性有机会超越英伟达,但他是站在性价比的角度上讲的。
AI推理需求可能是训练需求的3-5倍,通过CUDA兼容,可以对常用的大模型进行推理优化实现数倍于NVIDIA的推理性价比。 Yu Chen说,“在商业竞争中,同等条件下的对比是划算的,CUDA兼容性是一个非常重要的条件。 ”
国内企业一旦使用国产GPU,就很难切换回去。 昊鑫的想法是,“CUDA兼容性的目的是让用户更容易迁移,后续的功能演进可以和NVIDIA完全不同,用户会跟着硬件厂商走。 ”
这也解释了国内AI芯片企业是否兼容CUDA生态,正在帮助英伟达构建生态的问题
这就像WPS兼容Word,没有人会使用不兼容的Word,但WPS兼容Word的初衷并没有帮助Word构建生态的想法,即使会有这样的效果,但这种贡献对Word的生态来说是微不足道的。
如果 1% 的 CUDA 兼容性做得不好,就会出现无法填补的漏洞。 此外,兼容的 CUDA 将始终比 Nvidia 慢得多,并且将处于被动地位。 Yisen表示,CUDA兼容性问题不容忽视,“国家自主可控,CUDA兼容独立可控吗?”
看来,通用+专用AI计算架构已成为行业共识,相互渗透、相互影响,很难判断哪条路更好。
无论走哪条路,都要一起面对一个问题——英伟达没有制造问题,拥有比所有国内AI芯片公司更多的资源,拥有全球顶尖的人才,在什么情况下才有机会赶上和超越?
不要向英伟达学习整机销售,寻找商业模式创新的机会
从理论上讲,好的技术并不意味着它最终会成功,历史已经无数次证明,商业和竞争可以影响成败。
我们不应该向英伟达学习。 云硕解释道,“国内几乎所有的AI芯片公司都在向英伟达学习做整机,这确实有高校和政企客户的需求,芯片公司也可以做高收入。 英伟达可以制造整台机器来赚取更多利润,但我们不应该那样做。 ”
英特尔之所以能够在IBM主导的大型机时代取得成功,是因为英特尔只制造了最难的CPU,横向集成,并与Microsoft、戴尔、甲骨文等公司一起抢占了IBM市场。 Arm更是极端,只做核心芯片的IP,与谷歌Android、不同的芯片公司和OEM一起,成为手机时代的王者。
Nvidia 的 GPU 不仅出售,还必须与主板和 8 个 GPU 卡一起出售。 或者直接卖一台DGX机器,DGX的高毛利意味着整机的机箱和风扇也有不小的毛利,帮助NVIDIA提升整体毛利。 云硕认为,“这是国产AI芯片企业的机会。如果国产芯片企业能够专注于打磨芯片性能和SDK,与上下游产业链合作做产品,从商业角度寻找超越英伟达的机会。 ”
单靠卖筹码,可能连养活自己都养不活。 而且,要做出一款能够适应各种系统的芯片,对芯片团队的要求特别高。 子磊这样看待ARM的成功,“ARM的成功并不是因为他们做了IP,关键是在智能手机时代,经过众多操作系统的激烈竞争,最终Android和iOS的成功,都选择了ARM芯片,一旦系统和芯片深度适配,就很难改变, 这有助于 ARM 取得成功。 ”
“英伟达在AI领域是ARM+Android,我认为这个想法不可能成功。 ”余晨是这么认为的。
Yisen 的态度比较开放,虽然不一定是 Intel 或 Arm 带来颠覆性的想法,但商业模式创新必须是一种思维方式。
就像讨论商业模式创新是否超越了英伟达的路径一样,禁令之后,国内AI芯片从业者更加意识到自己所从事的行业和工作的重要价值,也更加看好国内高性能AI芯片公司,而这种乐观情绪也是看好生成式AI发展对算力的需求。
在这种背景下,每个人都受到限制,重要的是要想出一个超越英伟达的策略,而更现实的问题是滚动软件,滚动成本,解决制造问题。
当然,对于所有AI芯片公司来说,首先需要生存下来,然后再谈赶超。 国产高性能AI芯片一直是讨论的焦点,更多关于这个话题的交流,请加作者微信bensoneit。
文中,思杰、安瑞、雨辰、浩欣、子磊、一森、云硕均为化名。