12 月 6 日,谷歌的 AI 模特 Gemini 惊艳亮相,不仅认出了一只蓝色的手绘小鸭,还认出了一个向后倾斜、慢动作躲避以模仿《黑客帝国》片段的男人。
虽然这两天有网友反映,Gemini 无法正确理解基本事实,也很难面对一些编码任务,不愿意面对有争议的话题,但在一些基准测试中,它能得到和人类专家差不多的分数,这确实是事实。
大多数人仍然应该承认,谷歌的 Gemini 可能是目前和未来业内最强大的模型,可以与 OpenAI 的 GPT-4 竞争。
谷歌双子座可以有今天的成就和未来的想象,而谷歌自己的TPU芯片应该说在背后发挥了非常重要的作用。 这可能会刺激其竞争对手效仿谷歌,进一步加快开发自己的人工智能芯片的步伐。
在谷歌发布 Gemini 模型的同时,Goolge DeepMind 团队还写了一份 60 页的技术报告,解释了 Gemini 模型多模态背后的技术原理。 技术报告提到,谷歌使用 TPU v5e 和 TPU v4 来训练 Gemini。
同一天,谷歌还发布了TPU V5P,称训练速度比上一代快了2.2倍8x,有望帮助开发者和企业客户更快地训练大规模生成式AI模型。
在 2016 年的 Google IO 大会上,Google 首次发布了第一代 TPU(TPU V1),标志着 Google 正式进军定制 ASIC(专用集成电路)。
从那时起,谷歌的TPU一代又一代地更新。 2017 年推出第 2 代 TPU V2,2018 年推出第 3 代 TPU V3,2021 年推出 ***TPU v4,2023 年推出第 5 代 TPU V5E,以及新发布的 TPU V5P。
近年来,人工智能领域取得了长足的进步,大型语言模型的发展尤为值得关注。 训练大型模型需要大量的计算能力,因为它们通常是在包含数十亿个单词的数据集上训练的。
传统的 CPU 和 GPU 架构难以处理这种计算负载,通常会减慢训练过程并限制大型模型的能力。 这就是 Google TPU 发挥作用的地方,它针对矩阵乘法 (MATMUL) 和二维卷积 (CONV2D) 进行了优化,这是训练大型模型 LLM 的关键操作。
2020 年 5 月,香港浸会大学团队的测试结果显示,TPU V2 运行矩阵乘法 (MATMUL) 和二维卷积 (Conv2D) 的性能远超 NVIDIA V100 GPU。
得益于专用架构和优化的软件堆栈,TPU 可以比 GPU 更快地训练大型语言模型,并且能耗更低。 目前,谷歌超过 90% 的 AI 训练都是在 TPU 上进行的。
根据 Google 团队编写的 TPU v4 分析**与使用 NVIDIA A100 打造的超级计算机相比,使用 Google TPUv4 打造的超级计算机为 12-1.7 倍,功耗低 13-1.9次。
谷歌团队的测试结果显示,TPU V4 的性能远远优于 NVIDIA A100。
同时,谷歌专门为TPU设计了光电路开关和光电路开关芯片Palomar,使TPU可以轻松扩展到更大的计算集群,以适应LLM不断增长的规模和复杂性。
因为是自研芯片,可以自行安排台积电OEM生产的数量和节奏,所以谷歌应该拥有科技巨头中最充沛的算力。 至少,当OpenAI、Microsoft、Meta、亚马逊、阿里巴巴、腾讯、字节跳动等科技公司疯狂抢夺英伟达的“卡”时,我们没有听到谷歌担心算力不足的声音。
2023 年 3 月,当 Bard 首次推出时,由 Google 的大型语言模型 Lmda 提供支持,几乎所有的都是负面的。 仅仅 8 个多月后,Gemini 模型就获得了好评。 在如此快速的大模型更新迭代中,谷歌的TPU算力无疑起到了关键作用。
自研AI芯片或将成为必备品,而在TPU的帮助下,如今的Google Gemini机型至少有资格与GPT-4搏斗。 其他科技公司想要让自己的大模型具备这样的能力参与未来几轮的竞争,依靠英伟达的显卡并不是最好的选择。
走上开发自己的AI芯片的道路可能是必须的。
事实上,这种趋势已经有迹象。 在近期的Microsoft Ignite和Amazon Re:Invent大会上,两家全球领先的云计算厂商正在讲述自主研发的AI芯片的故事,Microsoft将推广AI加速芯片Microsoft Azure Maia,而亚马逊AWS将推出新的训练芯片Trainium 2,并让Anthropic等领先的大型模型公司, 参与芯片的测试、使用和后续设计反馈。
虽然,在这两场发布会上,英伟达CEO黄仁勋现身并宣布英伟达已与Microsoft和亚马逊AWS就新的AI芯片达成合作。 然而,Microsoft,亚马逊与英伟达的合作可能只是权宜之计。
从长远来看,这两家云计算巨头公司都希望控制好密钥链环节,提高链的稳定性和安全性,并大幅降低成本。
据行业分析师称,英伟达AI芯片H100给OpenAI + Microsoft的折扣价为260,000 美元(目前市场上售价超过 3 美元。50,000 美元),而 TPU v4 的成本约为 5,000 美元。还不到几分之一,TPU给谷歌带来的成本节约可以说是非常明显的。
除了Microsoft和Amazon AWS,还有许多其他技术供应商正在采取行动。
因为特斯拉买不到英伟达的GPU芯片,就投资10亿美元走上了Dojo超级计算机自主研发的道路,目的是加速人工智能大模型在自动驾驶领域的深度应用。
OpenAI也可能尝试开发AI芯片。 几周前,OpenAI 聘请 Richard Ho 担任该公司的硬件主管。 在此之前,HO领导光子计算公司Lightmatter的芯片工程部门。 在此之前,Ho 在 Google 工作了近 9 年,担任 Google TPU 项目的领导者之一,担任高级工程总监。
我很久以前就听说过这个。 当英伟达得知一家云计算供应商计划开发自己的GPU芯片时,它立即将该公司的GPU供应价格提高了10%以上。
因为英伟达在AI芯片领域已经走在了前面,所以它的话语权非常大,利润也很高。 如果未来大模型成为支撑各种应用的核心算力引擎,那么从算力消费规模或巨头厂商算力销售业务来看,自研AI芯片在经济上应该是可行的。
只不过,自研的AI芯片,要实现的是一个长期积累、成本高昂的项目。 如果没有长期主义,你可能无法玩。 但如果你不玩,你基本上是在为英伟达这样的芯片公司工作,你仍然到处生气。 中国领先的科技公司可能面临的情况更加复杂和紧迫。
谷歌 TPU 已成为 AI 领域的游戏规则改变者,尤其是在大型模型训练方面。 其独特的架构、性能优化和可扩展性使 Google 在竞争激烈的领域具有显着的竞争优势。 随着大规模模型研究的不断推进,Google TPU可能会在开发更复杂、更强大的AI系统方面发挥更重要的作用。
面向未来,谷歌TPU之路对于大厂来说值得一游。
优质作者名单参考**:
1]tpu v4: an optically reconfigurable supercomputer for machine learning with hardware support for embeddings
2]benchmarking the performance and energy efficiency of ai accelerators for ai training
结束