本报记者 秦潇 北京报道
过去一年,ChatGPT引爆的AI浪潮愈演愈烈,英伟达(NASDAQ: NVDA)作为这波浪潮背后最大的“卖锹”者,其GPU芯片被炒得高出数倍**,但市场依旧难以找到一张卡,英伟达赚得盆满钵满。
英伟达不会永远垄断大规模训练和推理芯片市场。 特斯拉首席执行官埃隆·马斯克(Elon Musk)曾说过。 英特尔首席执行官亨利·基辛格(Henry Gelsinger)也透露:“整个行业都在推动减少CUDA(英伟达推出的计算平台)的市场。 ”
随着人工智能热潮持续升温,传统巨头和行业新贵纷纷向英伟达打造的AI芯片“护城河”发起攻击。 一方面,英特尔、AMD等传统巨头正在推进新一轮AI芯片研发计划; 另一方面,以Groq为代表的创业公司也在积极推进芯片的自主研发,还有日本软银集团创始人孙正义、OpenAI想要带来数千亿甚至万亿美元进军游戏,AI芯片战场瞬间硝烟弥漫。
重金芯
近日,OpenAI首席执行官山姆·阿尔特曼(Sam Altman)计划筹集高达7万亿美元来建立一个新的芯片帝国,该帝国希望建立一个新的芯片生态系统,将制造商、商家和用户聚集在一起,以满足全球人工智能需求。
事实上,在过去很长一段时间里,奥特曼都曾公开抱怨过英伟达GPU显卡的稀缺性。 OpenAI也一直关注AI芯片的供需。 根据花旗研究分析师克里斯托弗·丹尼利(Christopher Danely)在2023年7月发布的一份报告,英伟达在AI训练领域占据了“至少90%”的市场份额,这也对OpenAI造成了限制。 2023年10月,有消息称,OpenAI计划开发自己的AI芯片已经有一段时间了,甚至已经开始评估潜在的收购目标。
虽然大多数人早就期待OpenAI自主研发的AI芯片,但7万亿美元的融资金额仍然惊人,因为这个金额相当于2023年全球半导体行业总收入的14倍。 根据 Gartner** 的数据,2023 年全球半导体行业总收入为 5330 亿美元。
因此,有业内人士调侃,为什么7万亿美元不直接收购英伟达。 截至 2024 年 2 月 22 日,英伟达的市值约为 17万亿美元。
对此,英伟达创始人兼首席执行官黄仁勋略带嘲讽地表示:“(7万亿美元)显然可以买下所有的GPU。 然而,计算机体系结构在不断发展。 ”
比起奥特曼“浮夸”的7万亿美元投资计划,孙正义的1000亿美元造芯计划似乎要现实得多。
据悉,这项代号为“伊邪那岐”的计划计划在该项目上投资300亿美元,而额外的700亿美元可能来自中东机构。 孙正义希望新公司能够补充软银半导体设计公司Arm的业务,并创建一个新的人工智能芯片巨头来与英伟达竞争。 然而,软银集团没有透露项目资金**和具体用途。 然而,值得注意的是,孙正义和阿尔特曼已经讨论了与建立半导体业务和筹款相关的事宜。
在天使投资人、人工智能专家郭涛看来,无论是1000亿美元还是7万亿美元,要想在短时间内实现AI芯片的“自由”,需要解决以下问题:一是AI芯片的研发需要大量的资金和人力投入, 而且技术难度很大,需要相当长的研发周期;其次,除了芯片本身,还需要考虑配套软硬件等产业链的建设,这也是一个长期的过程; 最后,即使成功开发出高性能的AI芯片,也需要得到市场的接受和认可,这需要时间和市场的教育。
据业内人士介绍,一颗芯片从项目审批到量产至少需要两年时间,而晶圆代工厂投入生产则需要3-5年时间。
暴发户走红
就在业界还在争论孙正义1000亿美元“脚踏实地”和奥特曼7万亿美元“仰望星空”的时候,人工智能芯片公司GROQ一夜爆红,其大规模模型推理芯片LPU的推理速度比英伟达GPU高10倍,成本仅为1 10;运行大模型的生成速率接近每秒 500 个代币,碾压 ChatGPT-35 大约40个令牌,以秒为单位。
据悉,Groq成立于2016年,定位为一家人工智能解决方案公司。 值得一提的是,Groq 的创始团队中有 8 人来自谷歌早期的 TPU 核心设计团队,当时只有 10 人。 例如,GroQ的创始人兼CEO乔纳森·罗斯(Jonathan Ross)设计并实现了原始TPU芯片的核心部件,他完成了TPU20%的研发工作。
根据Groq官网介绍,LPU是一款专为AI推理而设计的芯片。 驱动主流大模型的GPU是专为具有数百个内核的图形渲染而设计的并行处理器,而LPU架构不同于GPU使用的SIMD(单指令多数据),这使得芯片能够更高效地利用每个时钟周期,确保一致的延迟和吞吐量,也减少了对复杂调度硬件的需求。
郭涛解释说,LPU是针对线性代数运算优化的处理单元,是深度学习和AI模型中的核心计算任务。 与传统 GPU 相比,LPU 可能具有特定的架构优化,可以更高效地执行矩阵运算和向量计算,这是大型语言模型 (LLM) 和其他深度学习模型的关键操作。 GPU 最初设计用于处理图形和图像,但它们擅长并行处理大量数据,这使其成为深度学习任务的理想选择。 GPU 具有大量可以同时处理多个任务的内核,但它们在执行某些类型的计算时可能不如专门为这些操作设计的 ASIC 芯片那样高效。
GroQ 创始人兼 CEO 乔纳森·罗斯 (Jonathan Ross) 曾表示,在大型模型推理场景中,GroQ LPU 芯片比 NVIDIA GPU 快 10 倍,但功耗仅为后者的十分之一。 并且他还强调,GROQ的芯片,由于技术路径不同,在**方面比英伟达更充足,不会被台积电或SK海力士等**企业卡住。
不过,并不是每个人都同意格罗克的观点。 Facebook前AI科学家、阿里巴巴科技前副总裁贾扬青在推特上做了一个计算,因为Groq内存容量只有230MB,而运行LLAMA-270B机型时,需要305张Groq卡,而H100只需要8张卡。 从目前的角度来看,这意味着在相同的吞吐量下,Groq 的硬件成本是 H100 的 40 倍,能源成本是 H100 的 10 倍。
不仅是GroQ,其他AI芯片新贵也在盯上英伟达。 据了解,全球有超过18家用于AI大模型训练和推理的芯片设计创业公司,包括Cerebras、Graphcore、Bichen Technology、Moore Threads、D-Matrix等,总融资额超过60亿美元,公司整体估值总计超过250亿美元(约合1792元)。95亿元)。
稳坐钓鱼台
山雨即将来临,风中楼满“,英伟达依旧”稳坐钓鱼台”。 尽管英伟达面临富贵和暴发户的前后围攻,但行业要真正摆脱英伟达并不容易。 上述业内人士告诉记者:“目前国产英伟达高端AI芯片依旧供不应求,就连之前大家嗤之以鼻的阉割H20系列,也极为火爆。 ”
这可以从英伟达最新的财报中看出。 2月22日,英伟达公布截至2024年1月28日的2024财年业绩报告,英伟达全年营收创历史新高609亿美元,同比增长126%。 其中,2024财年第四季度,公司营收也创下历史新高,达到创纪录的221亿美元,同比增长265%,数据中心业务营收184亿美元,同比增长409%,环比增长27%。
英伟达表示,在2024财年第四季度,数据中心的增长是由不同行业、用例和地区的生成式人工智能和大型语言模型的训练和推理推动的。 数据中心平台的多功能性和领先性能为许多用例提供了高投资回报,包括 AI 训练和推理、数据处理以及各种 CUDA 加速工作负载。 “我们估计,去年数据中心收入的约40%来自人工智能推理。 ”
英伟达首席财务官科莱特·克雷斯(Colette Kress)在财报发布会上表示,市场对公司下一代产品的需求远远超过供应水平,尤其是该公司的新一代芯片B100,预计将于今年晚些时候出货。 “构建和部署人工智能解决方案几乎触及了每个行业,”他说,数据中心基础设施的规模预计将在五年内翻一番。
“加速计算和生成式人工智能已经达到了一个临界点,”黄仁勋补充道。 全球公司、行业和国家的需求正在激增。 ”
黄仁勋不同意封锁是否会影响英伟达市场份额的问题,他说:“从根本上说,我们认为2025年及以后持续增长的条件将保持非常好。 由于生成式 AI 和整个行业从 CPU 到 GPU 的转变,对 Nvidia GPU 的需求将保持高位。 ”
不过,黄也表示,虽然情况正在好转,但仍存在短缺,限制措施将持续一整年。 随着整个行业对生成式人工智能和计算硬件的需求从CPU和NVIDIA制造的加速器转移,对该公司GPU的需求将保持高位。