机器的心脏原装。
作者:江靖玲
算力不足仍是制约通用人工智能发展的重要因素。 根据 GPU Utils 今年 8 月的数据,目前全球 H100 等效算力的供给缺口已达到 430,000 个。 为了解决算力不足的问题,除了抢购和囤积英伟达之外,更多的解决方案正在涌现。
清华大学创业公司武文新琼是这一领域的回应者。
不久前,Heart of the Machine 推出了一种新方法 FlashDeCoding++,由来自 Infinigence AI、清华大学和上海交通大学的联合团队提出。 这项工作不仅将 GPU 推理速度提高了 2-4 倍,而且还支持 NVIDIA 和 AMD GPU。 与 FlashDecoding 相比,这项工作在 NVIDIA A100 上实现了 37% 的平均推理速度提升,在 AMD MI210 上实现了 300%+ 的性能提升。
基于此工作,五文核心穹顶研发的infini-acc大模型计算优化引擎,通过模型、系统、硬件层面的系统优化,可以将大模型的推理速度提升10倍,减少模型存储空间10倍,将部署时间缩短到几小时。
无文核心穹顶依托计算加速的核心优势,帮助现有算力提供商提升计算性能和性价比。 在核心优势的基础上,推出智能计算云和一体化智能计算平台,支持异构算力调度,提供端到端一站式大模型落地解决方案。
通过对现有算力效率的提升和对未使用的算力的激活,悟文核心巨蛋希望为大模型市场带来新的算力增量。 据五文核心穹顶CEO夏立雪介绍,未来优化后的算力成本将达到4个数量级,相比OpenAI可以压缩2 3个数量级。 这意味着,如果应用方原本需要向OpenAI支付100元的代币费,经过优化后,这个**最终会压缩到1美分左右。
更值得一提的是,夏立雪在接受机心专访时透露,将外**系统作为中间件,只是武文核心巨蛋商业化战略的第一步五文核心穹顶的长期规划是通过与算力中心合作,优化算力成本,直接向B端和C端开发者提供可直接调度的低成本算力。
我们的最终目标不仅仅是提供生态系统作为中间层,而是直接向市场提供计算能力。 未来,所有涉及大模型的服务和应用都将成为我们的潜在客户。 ”
据武文新琼介绍,成立半年内,公司已完成数亿元融资,投资方包括腾讯、智普等战略合作伙伴,以及徐汇资本、红杉中国、Moolith、启明创投、北极光创投、经纬创投、真**、绿洲资本等投资机构。
五文新琼由清华大学电子系主任王宇创立,共有三位联合创始人:
联合创始人兼首席执行官夏立雪毕业于清华大学,是清华大学电子系主任王宇的第一位博士毕业生。 夏立雪长期致力于深度学习系统的设计方法论研究,曾入选AI2000全球人工智能领域最具影响力学者榜单,斯坦福大学学科前2%科学家榜单。 毕业后,夏立雪在阿里云负责大型语言模型压缩加速、生成式AI模型芯片等核心战略项目。 担任用户增长产品技术负责人,帮助阿里云孵化用户增长产品从0到1,稳步获得数亿年营收。
联合创始人兼首席技术官闫申根毕业于中科院软件研究所,是国内最早从事AI高性能计算的研究人员之一。 作为商汤科技数据与计算平台部执行研究总监,帮助商汤科技搭建了20000个GPU的大规模高性能AI计算平台,主持开发了多款深度学习系统软件,并带领200人团队在上海打造了3年的AI超算原型项目, 总投资67亿。
联合创始人兼首席科学家 戴国豪现任上海交通大学终身副教授,清远研究院人工智能设计自动化创新实验室主任。 戴国豪在电路设计自动化、异构计算、架构架构等领域发表高水平文章50余篇,被Google Scholar引用1000余次。 先后承担了包括国家自然科学**青年项目在内的多项纵横项目,个人负责1000多万元。
目前,武文新琼团队有100多人,研发团队35%以上来自清华大学,团队仍在快速扩张。 夏立雪表示,公司目前的业务重点是商业化,以确保五文核心巨蛋走在正确的商业道路上。
计算能力困难和昂贵的问题限制了大模型的发展
《机器之心》:您能简单解释一下公司成立的原因和目标吗?
夏立雪:公司于今年5月注册成立,3月组建核心团队。
我们的成立与整个行业大模型的发展息息相关,自去年底以来受到了很多关注,引发了人们对其在不同行业应用的广泛想象。
但与此同时,我们看到,从商业上讲,它需要解决成本问题才能大规模实施。 很多场景的建立,需要从“赔钱赚钱”到至少“算账”。
我是王宇教授的第一位博士生,毕业后加入了阿里云。 在阿里云工作期间,我一直与清华大学电子系保持着密切的沟通。 去年年底,王教授开始频繁地和我讨论大模型爆发后,从电子系的立场上,我们能为行业做些什么,我们是只能提供学术价值还是产业价值
我们看到的最后一件事是核心问题中国整体算力远远不够,仅仅依靠芯片层的工艺改进,等待多个芯片的增长,是无法解决这个问题的。
我们的目标是利用好现在能用到的算力,用好现在用不上的算力,从而帮助提供更多在大模型行业可用且更便宜的算力。
因此,我们的两个核心技术方向是:一是芯片上大模型的极致性能优化;二是利用多种异构算力。 我们的目标是建立一个生态系统,让不同的模型可以自动部署在不同的硬件上,从而有效地利用这种未激活的计算能力。
机器之心:团队组成是什么?
夏立雪:王宇先生是武文新琼的发起人,核心成员为我、闫申根、戴国豪,我们先后负责阿里云大模型压缩加速、生成式AI模型芯片、上海AI超算样机、国家自然科学**等项目。 我们的研发团队成员参与了 Apache、Onnx、TensorFlow、PyTorch、PyG 等 AI 相关开源项目的建设,是这些项目的重要贡献者。 超过35%的研发团队来自清华大学,并且仍在快速扩张。
机器之心:你把自己定义为“追求大模型落地的极致能效”,为什么会选择解决这个问题,能效到底是什么意思?
夏立雪:我们已经看到,大模型落地的能效问题一直悬在大家的头上。
全球范围内存在GPU可用性不足,即“不够”,目前全球芯片缺口高达43万H100等效算力。
二是“难用”,大模型训练延迟敏感,容错率低,部分硬件性能本身不如英伟达,因此即使构建了多元异构GPU集群,也很难在实践中真正发挥出全部算力。
大模型作为人机交互的接口,在边缘端应用中发挥空间较大,但边缘侧设备能耗敏感,算力、存储、带宽不足,难以普及应用。
五文核心穹顶在追求大模型的极致能效中定义自己这里的能源效率是指技术实际作用与消耗的能源量之比。
我们认为,能源效率水平是衡量生产力和竞争力的指标,例如,在物种竞争中,大脑皮层中的神经元数量决定了智力水平。 人类之所以能够如此迅速地超越其他物种,主要原因在于他们掌握了烹饪技术,即如何在短时间内以低成本消耗大量能量来支持大脑中大量神经元的运行。 大型模型行业现在非常需要这样一个整体的、节能的“烹饪解决方案”。
同样,在任何经济和商业组织的竞争中,谁能以更快的速度、更低的能耗或成本取得更高的开发成果和产品质量,谁就更有可能获胜。
机器之心:你提到全球芯片缺口很大,即使搭建了多异构GPU集群,在实践中也很难真正发挥出所有的算力,而且这种算力不能得到充分利用或者能效低
夏立雪:在AI芯片市场,全球甚至没有面临“28定律”的格局,可以说是“19定律”。 英伟达占据了绝对领先的市场份额,不仅因为其更强的硬件性能,还因为它在软件生态方面的优势。
反过来,软件生态系统帮助NVIDIA积累了大量的应用模型信息,使其能够及时迭代下一代芯片的设计。 这形成了强大的生态飞轮,一旦英伟达的产能跟不上需求,将造成全球算力短缺。
尽管硬件厂商正在追赶英伟达,但他们在构建软件生态系统方面仍然落后,这导致他们的硬件即使与英伟达的A100相媲美,也没有被广泛采用。 因此,构建一个强大的软件生态系统是当下的一项重要任务,而这正是我们正在做的事情。
机器之心:为什么构建软件生态系统很难?
夏立雪:软件生态系统的发展需要时间、耐心和机会。 例如,英伟达很早就投入了大量精力来构建其软件生态系统,经过长期的用户培育和对图形计算和高性能计算需求的准确洞察,这个壁垒已经逐渐建立起来,并且越来越厚。 如果硬件厂商错失了这个先发制人的机会和市场机会,将很难获得足够的资金投入到高质量的芯片研发及其推广使用中。
机器之心:如果国内大型模型公司和芯片公司直接合作建设智能计算中心,增加自己可以使用的算力,可能会面临哪些问题?
夏立雪:如今,许多大型模型公司都在“一个”共享空间中直接与芯片公司合作,以增加算力的可用性。
在这种合作中,双方都需要从主营业务中汲取大量的人力和资源来适应,没有人愿意“把所有的鸡蛋都放在同一个篮子里”。 在这种情况下,每家公司都会向多个潜在合作伙伴投入资源,例如一家示范公司和多家芯片公司。 此外,如果这种合作是以物质为基础的,则需要多方共同承担成本和价格,形成复杂的多维合作空间。
我们的目标是帮助简化该部件的适配和优化过程,而无需客户承担联合研发的风险,并提供更好的优化结果。 这实质上打造了一个中层生态,一方面为算力用户提供了更多的算力供应选择,另一方面也帮助各硬件生态伙伴在下一次迭代中获取真实的业务反馈。
我们的客户不仅限于技术能力强的大型模型公司,还包括使用模型的公司。 能源效率对这些公司来说很重要,他们的人工智能算法与用例密切相关,以至于他们可能只能投入一个 3 到 10 人的团队来研究模型,但在我们的参与下,他们不需要再投入 30 人到一个完整的工程团队。
中层生态迎来机遇之窗
Machine Heart:为什么你认为现在可以做到这一点?情况发生了怎样的变化?
夏立雪:虽然芯片厂商通常会做一些软件工作,但他们可以提供一些底层的基本命令来帮助开发者直接实现一些功能。 但是,在一些复杂的任务中,例如,现在已经出现了通用的大模型,就需要专门的人将大模型的任务需求转化为硬件操作指令的组合。 例如,就像计算器上的加法和减法按钮一样,这些基本键的组合使我们能够解决更复杂的问题。
我们看到的是,在通用大模型的时代,中间层的能效优化可以更有深度。 过去,要解决行业中的任务,需要定制模型。 像聊天技巧、翻译技巧、搜索引擎......这需要使用不同的模型来实现。 任务和算法是绑定的,任务和算法的协同设计只能进行,中间层落到系统上时要做很多不同的工作。
王老师过去创立的技术,和我们现在的工作有点相似,但是因为图像模型、语音模型和自然语言模型之间的巨大差异,如果想不赔钱,就只能针对单一类型的模型去做。
现在,我们可以使用一个通用模型来解决多个任务。 通过下游任务微调,同一个大型语言模型可以完成不同的任务。
由于大模型的模型结构高度统一,生态有很好的机会窗口,这样我们就可以专注于这样一个更窄的领域,进行应用、算法、系统之间的协同优化。 完成它的成本并非不可靠,否则将永远不值得。
虽然模型训练数据可能因公司而异,但模型结构是相似的,这使我们能够在这个特定时间点开发一个好的中间层工具,将不同的模型映射到不同公司的硬件。
机器之心:具体来说,过去和现在构建软件生态的难度是什么?
夏立雪:可以估算出亚分子的数量,以反映难度的变化。
例如,过去每个域和每个模型结构都有很多算子,比如 PyTorch 算子库,大约有 2000 个算子。 但在 GPT 或其他现在以 Transformer 系列为核心的大型模型中,操作员的数量最终可能会减少到不超过 100 人。
这意味着,虽然整体开发量仍然超过 2,000 个,但从使用量的角度来看,超过 99% 的计算都集中在这 100 个算子上。 因此,我们可以专注于优化这 100 个算子。 其他部分不再是优化的瓶颈。
Machine Heart:你在这件事上有什么优势?
夏立雪:我认为我们团队本身就擅长这样做。 清华大学一直致力于将有意义的算法与真实场景相结合,打造具有商业价值的解决方案。
我们专注于模型、软件、硬件的集成优化,以降低模型推理成本,并将实验室的技术成果转化为可持续的商业产品。
我们的工具有两个特点,快速和高效。 这意味着使用该模型的人不需要了解底层细节,就可以有效地使用它,同时保证最佳性能。
机器之心:所谓的“m n”中间层到底是什么?
夏立雪:正如我之前提到的,每家公司都会向多个潜在合作伙伴投入资源,这为合作创造了一个复杂的多维空间。 我们的解决方案是在多花模型层和多异构芯片层之间创建一个灵活兼容的中间层,实现“M N”之间高效统一的部署,即“M模型”和“N芯片”。
我们将这组工作分解为三个起点,它们是:
从算法到芯片阶段,针对算力不足的问题,采用大模型计算优化引擎,使算法适配芯片,提高芯片的可用性。
从芯片集群到模型阶段,构建智能计算系统层,根据算力池的异构特性,帮助开发者屏蔽异构硬件的冲击。
从模型到模型应用实现阶段,我们提供端到端的实现服务,包括每个模型、其高效微调和计算优化,降低推理计算量级、延迟和成本。
为算力市场注入增量
机器之心:根据这个想法,你如何为算力市场带来增量?
夏立雪:目前,我们已经完成了整体解决方案的验证。
首先,我们用NVIDIA显卡验证了优化工具的功能,在各种行业团队竞相优化NVIDIA的环境中,我们仍然实现了世界第一的优化性能,NVIDIA比SOTA高出约30%。
此外,我们在不同硬件上验证了优化能力的通用性,我们的优化结果在AMD硬件上也是全球首创,测试效果提升超过300%。
这表明我们的工具链在性能改进、支持不同硬件扩展的能力方面具有直接优势,并且我们有许多与 10 多家硬件供应商合作的行动小组。
《机器之心》:您目前的整体商业模式是什么?
夏立雪:国内算力短缺,所以大家不是在争夺客户,而是在争夺有限的资源。 我们商业化的核心是提供优化的、更具成本效益的算力服务,以扩大供应并满足客户需求。
主要有两个方面,一是为五金厂商提供“中间层封装”,提高硬件可用性,从而开拓大型号市场,将产品销售给更多客户。
另一方面,基于中间层的能力,配合算力集群,优化和提高算力供给,提高算力使用的性价比。 在这一领域,我们与一些算力集群签订了合作协议。 未来,它将直接对接与大模型相关的客户,并为他们提供计算能力。
机器之心:第二种商业模式是通过计算能力赚取差价吗?
夏立雪:一般来说,价格差异意味着以低成本获得算力,然后直接***就像中间人一样。 但我们的目标是“做大蛋糕”,利用技术优化和适配能力,让未被充分利用的算力更有价值。 这个“价格差异”,其实就是我们通过技术提供的增量算力。
我们正在做的包括扩大哈希池,以便可以使用无法使用的卡片,并提高每张卡片的效率,使一张卡片的生产能力相当于两张或更多卡片。 这样一来,原本只能支持几十家企业的算力,现在又可以支持上百家企业,这是一个增量市场。
此外,我们的最终目标不仅仅是提供一个生态系统作为中间层,而是为未来所有的服务和应用提供一个大模型,无论是B端还是C端,都将是我们的潜在客户。 因为他们需要大模型的计算能力,我们可以提供高性价比且易于开发的计算服务。 这些服务还可能包括某些开发工具。
机器之心:使用你们产品的成本是多少?客户成本能降低多少?
夏立雪:通过软硬件协同优化,我们的目标是最终实现调用成本降低约4个数量级。
前段时间,我们推出了大模型五琼天泉,它处理长文本非常出色,有256k令牌,这是当时大模型可以处理的最长文本长度,大约是40w汉字长度的文本。 一方面,这证明了我们优化的系统架构的可靠性,另一方面也凸显了五文核心球机在长文本等高性能优化要求场景下的技术实力。
给ChatGPT输入40W字是非常昂贵的,现在业界普遍反映成本很高,做推理也非常昂贵,甚至有创业者说“GPT已经经营了四个月,投资了五六千,用户五六千,赚了几十块钱”。 大多数开发者和用户都无法接受这么高的**和这么低的生产比例。
目前,五文核心穹顶已经实现了2 3个数量级的成本压缩,目标是最终将这个**降低4个数量级,让大模型的应用不再是“驱动兰博基尼送餐”。 我们希望充分发挥异构算力的潜力,降低成本,降低模型训练和推理的门槛,让更多的创作者进入这个领域。
机器之心:在理想化的状态下,未来能走多远?
夏立雪:我们的口号是“释放无穹顶的力量,让AGI触手可及”。 我们希望,当您使用大型模型开发内部或外部应用程序时,调用我们的哈希率就像使用 API 一样简单。 在使用我们的服务时,您无需关心其背后的具体技术,例如是否是特定品牌的卡。
交流请添加本文作者微信:jjingl-(注明公司-职位-名称)。