今年以来,以ChatGPT为代表的AI模型的出现,标志着一个新时代的开始。 大模型技术的快速迭代催生了Midjourney、Character等多项技术的诞生人工智能和其他类型的AIGC(人工智能生成内容)应用为办公、电子商务、教育、医疗保健和法律领域带来了革命性的变化。
复杂的AI算法需要大量的计算资源来实现,而算力是支撑AI算法运行的基础。 AI芯片是专门用于处理AI计算相关任务的协处理器,为AI算法提供高效的计算能力,显著提高深度学习习等AI算法模型的训练和推理效率。
随着AIGC产业的发展,对算力的需求不断增加,但我国在算力领域面临诸多挑战。
2024年10月17日,美国商务部工业与安全局(BIS)公布了最新的半导体管制规则(“新1017条款”),升级了BIS于2024年10月7日发布的“对出口到中国的先进计算和半导体制造项目的新出口管制”(“107规则”)。 1017新规分为三部分:一是调整先进计算芯片出口管制规则,二是调整半导体制造设备出口管制规则三是公布实体清单新增企业名单。 GPU芯片出口,包括A100、H100、A800、H800等,将受到影响。 A100 和 H100 是 NVIDIA 的高性能 GPU,广泛应用于 AI、数据分析等工作场景。 A800和H800是A100和H100的替代品,也就是说,根据去年的美国107规则,英伟达为中国大陆市场提供了降低的传输速率以符合规定,但在今年新的1017规定之后被禁止。 以上产品是目前最适合AI算法开发和部署的高算力芯片。
中国对人工智能领域的算力需求旺盛,依靠高性能的人工智能芯片来支持其应用和研究。 新规1017取消了“互连带宽”的参数限制,增加了“性能密度”的参数限制。 新规旨在进一步缩小高端计算芯片的出口范围;在大规模人工智能时代,限制中国的算力将限制AIGC在中国的发展和创新。
本文将逐一说明中国算力面临的主要挑战,包括芯片架构性能提升的瓶颈、现有芯片算力利用不足、美国出口管制带来的**链风险等。 然后,分析破局策略,在软件中对模型和算法进行优化,降低算力需求在硬件上开发新架构,提高AI芯片的能效比将软硬件协同集成在系统中,提高系统效率,降低能耗产业方面,加强生态链建设和多方合作,促进联合投资。
AIGC迭代加速
目前,我国大型模型技术仍处于研发和迭代的早期阶段,但产业潜力巨大。 中国高校、互联网科技公司、初创科技公司都加入了AI模型的浪潮,各类模型诞生了100多个。
根据艾瑞咨询**的数据,2024年中国AIGC产业规模将达到143亿元,未来几年将快速增长。 预计到2024年,我国AIGC产业规模将达到7202亿元,该技术将在重点领域和关键场景落地。
AIGC技术在NLP(自然语言处理)和CV(计算机视觉)领域经历了重大发展。 AIGC技术和能力的提升将为各行业带来更多的创新和应用机会,主要体现在以下几个方面:
从单任务到多任务。 最初的 AIGC 技术专注于单个任务,例如自然语言生成、图像生成和翻译。 然而,未来的趋势是训练模型同时处理多个任务,提高模型的泛化能力。
从单式联运到多式联运。 单模态生成模型通常专注于一种类型的数据,例如文本或图像。 多模态生成模型可以同时处理多种数据类型,如文本和图像的联合生成,为增强现实、智能对话系统、自动文档生成等多个领域的应用带来新的机遇。
从通用模型到垂直模型。 通用生成模型在各个领域都表现出色,但未来的趋势是朝着更大的专业化和垂直化方向发展。
计算能力不足**
随着AIGC的发展,模型越来越复杂,参数数量不断增加,导致算力需求的增长速度远远超过芯片的性能增长速度。 在AIGC算法模型部署的早期阶段,算力消耗主要集中在大模型训练上,但随着大模型用户的增长,推理成本将成为主要的算力支出。
AIGC对算力的具体要求体现在三个典型应用场景中:
如果谷歌使用 GPT 等大模型来推荐搜索:根据 GPT-4 API 0 的数据,谷歌每天收到 35 亿个搜索请求对于14元**,谷歌每年需要支付1788亿元的API费用。 如果使用自建计算集群,需要提供每秒10万次左右的峰值访问能力,一轮GPT-4对话涉及超过20万亿次浮点运算,当计算资源利用率在60%左右时,大约需要10万个A100集群。
如果每个 Microsoft Office 用户都使用大模型进行办公:Microsoft 使用基于大模型的 Copilot 来赋能办公软件、操作系统和编辑场景,这有可能重构未来的办公场景。 未来,软件开发、文案写作、艺术创作等都将在与AI频繁的互动对话中完成。 根据一家信息技术研究公司发布的《中国数据分析和人工智能技术成熟度曲线》报告,中国学生和白领达到28亿人,按每人每天10次就诊的需求计算,有102 万亿接入需求需要 80,000 个 A100 算力。
如果每个人都有一个定制化的AI个人助理(大规模的原生应用),AI个人助理可以为中国12亿互联网用户提供定制化的教育、医疗、政务、财务管理等服务。 在人均日就访10次的情况下,需要34万A100算力。
根据AMD全球CEO(CEO)苏姿丰在AMD2024年主题演讲中,从单一算力中心来看,超级计算机在过去十年中发展迅速,芯片架构的创新和制造工艺的进步使计算机性能每12年内翻了一番。 计算机的能源效率(即每单位能量的计算次数)仅以 2 的速度增长2年内翻了一番。 如果这种趋势继续下去,到2024年,一台高性能超级计算机的功率将达到500MW,大约是核电站功率的一半。
AIGC严重依赖高算力,但目前中国在算力方面面临巨大挑战。
1)驱动芯片性能的摩尔定律难以维持。
半导体器件的尺寸正在接近物理极限,工艺进步带来的性能提升正在缩小。 芯片能效比增速明显放缓,更高的晶体管密度也带来了更大的散热挑战和更低的产量。 目前,AIGC对算力的需求远远超过AI芯片的开发速度,现有芯片硬件性能的提升速度难以满足算法模型快速增长的算力需求,需要新的硬件架构突破。
2) GPU利用率低。
当大模型处理大量数据时,由于算力调度、系统架构、算法优化等诸多问题,导致许多大模型企业GPU算力利用率不足50%,造成巨大浪费。
3)软件生态系统不成熟。
自2024年成立以来,英伟达的CUDA软件已经形成了一个成熟的生态系统,包括驱动、编译、框架、库、编程模型等。 目前主流的AIGC算法训练大多基于CUDA生态,壁垒极强。 如果AIGC想要取代NVIDIA GPU,将面临极高的迁移成本和稳定性风险。 因此,国产GPGPU产品要想大规模部署,软件生态是一大挑战。
4)高性能AI芯片数量不足。
大算力芯片是大模型研发的基础设施,英伟达的高性能GPU芯片具有两大核心优势:一是更大的内存配置和通信带宽。 高带宽芯片之间的互联互通对于提高大模型的训练效率至关重要。 二是大模型训练的耐久性更高。 消费级显卡针对的是个人应用,故障率和稳定性都比服务器版差很多。 千亿级参数的大模型训练,需要上千个GPU长期同步运行,任何单块显卡的故障都需要中断训练和硬件维护。 与消费级显卡或其他芯片相比,高性能GPU可以缩短60%-90%的大模型训练周期。
然而,英伟达的GPU产能不足,美国正在逐步加大对中国销售高性能芯片的禁令。 去年10月,美国对出口到中国的AI芯片实施了带宽速率限制,包括英伟达A100和H100芯片。 从那时起,英伟达向中国公司提供了A800和H800的替代版本。 根据新的1017规定,英伟达向中国出口的芯片,包括A800和H800,将受到影响,国产高性能AI芯片将出现严重短缺。
目前,大模型训练主要依靠英伟达的高性能GPU,禁售对国内大模型研发进度影响较大。 例如,如果使用符合 1017 规定的 V100 GPU 来替代 A100,计算能力和带宽的降低会使大型模型的训练时间增加 3 到 6 倍,显存的减少也会使可以训练模型的最大参数数减少 2 个5次。
5)自研AI芯片难以量产。美国已将先进芯片的出口许可证要求提高到22个国家。 继此前对EUV光刻机出口中国的限制之后,对低代DUV光刻机的限制也开始了。 此外,美国商务部已将中国领先的本土GPU芯片公司列入实体清单,这将使国产自研芯片难以采用最新工艺进行流片量产。
6)由于能耗高而对电力系统造成压力。
计算中心的计算、冷却、通信设施都是高耗能的硬件。 据中国电子节能技术协会数据显示,目前我国数据中心用电量平均增速超过12%,2024年我国数据中心用电量将达到2700亿千瓦时,占全社会用电量的3%。 在大模型时代,我国数据中心的用电量将增加,预计到2024年将达到4200亿度,约占社会总用电量的5%。 数据中心的电源**,以及系统的散热,都会给现有的电力系统带来很大的压力。
技术如何打破游戏规则?
面对不利的形势,中国算力瓶颈需要有计划,用一个系统概念逐步突破,主要包括技术和产业两个层面,主要以“开源”和“节流”的形式。
在技术层面上,我们的建议如下:
1)开发高效的大型模型。
通过简化模型参数来减少对计算能力的需求。 压缩是智能,大型模型旨在无损压缩数据。 今年 2 月 28 日,OpenAI 核心研发人员 Jack Rae 表示,通用 AI(AGI)的目标是实现有效信息的最大无损压缩。 随着大模型的发展,在AI复杂度增加的同时,算法模型的能力将在相同的参数尺度上不断提高。 未来可能会出现信息压缩效率更高的大模型,可以获得媲美GPT-4的数百亿参数算法能力。
此外,大模型可以适应特定的业务场景和选择的能力,以降低算力支出。 例如,在政府问答方案中,模型可以拒绝回答非业务请求。 只能依靠 1000 亿参数通用模型才能解决的任务,有望使用 100 亿参数模型完成。
2)基于现有模型的软件优化。
如果将 GPT-3 之前和之后的 AI 开发分为 10 与 20 次,然后 AI 1 次0时代软件优化的核心任务是使深度学习习模型能够运行在边缘和设备侧的低功耗设备上,实现自动化和智能化,并在AIoT、智能安防、智能汽车等领域大面积应用。 和人工智能 20时代的模型压缩是大规模、集中式算力需求的整体优化,应用场景需要从“中心”侧开始,然后辐射到边缘侧和端侧。
模型压缩是降低算法算力要求的最直接方式0时代的技术在AI20时代也将得到继承和发展。
剪枝利用深度学习习模型参数的冗余性,修剪对精度影响不大的权重,保留网络骨干,降低整体计算成本。 在 AI2 中在0时代,在长序列输入的情况下,Transformer算法模型计算时延的瓶颈在于注意力机制算子,通过裁剪注意力机制算子的激活值可以实现2倍的端到端加速比,未来有望进一步加速。
参数量化利用GPU处理定点的等效算力明显高于浮点算力的事实,用16位、8位、4个特定点来替代32位浮点数,有望同时降低对推理算力的需求。
算子融合将多个算子融合为一个算子,提高中间张量数据的访问局部性,减少内存访问,解决内存访问瓶颈。 算子循环空间的设计和优化通过并行排列计算图中的算子节点,提高了整体计算的并行性。
总之,通过对现有的大模型进行压缩和量化,可以显著减少模型参数的数量,降低模型的计算复杂度,节省存储空间,计算效率可以提高2-3倍。 模型优化技术在降低大模型响应用户延迟的同时,可以在汽车、个人电脑、手机、AIoT等边缘和设备设备中高效部署大模型,支持本地大模型应用,具有高实时性、隐私保护和安全性。
3)高能效、高算力密度的新型架构芯片。
传统计算芯片的能效已经达到瓶颈,需要改进芯片架构、互联互通、封装等,以实现更高的能效。 目前主要的方法有数据流架构、存储计算一体化、小芯片技术等。
数据流架构:计算顺序由数据流顺序控制,消除指令操作带来的额外时间开销。 数据流架构在并行执行数据访问和数据计算的同时,实现了高效的流水线操作,进一步减少了计算单元的闲置时间,充分利用了芯片的计算资源。 一种数据流体系结构,不同于使用专用数据通道连接不同类型的高度优化计算模块的指令集体系结构。 采用分布式本地存储,数据读写和计算同时进行,节省数据传输时间和计算时间。
存算一体化:存算一体化芯片的核心是将存储与计算充分融合,利用新兴的存储器件和存储阵列电路结构设计,将存储与计算功能集成在同一存储芯片上,省去了存储和计算单元中矩阵数据的数据传输,从而在智能算法中高效支持矩阵计算, 并在同一过程中大大提高了计算芯片的“性能密度”。
Chiplet技术:传统的集成电路将大量的晶体管集成到硅衬底上的二维平面中,形成芯片。 集成芯片是指将晶体管等元器件集成制造成具有特定功能的小芯片,然后根据应用要求,通过半导体技术将芯片集成制造成芯片。 Chiplet技术可以实现更大的芯片面积,提高总算力通过小芯片IP的复用和组合等,提高芯片的设计效率将大芯片拆分为多个小芯片,以提高良率并降低成本不同的工艺可以制备不同的芯,通过异构化可以达到更高的性能。
新的计算架构可以打破现有芯片的存储壁垒和互联壁垒,连接更多高密度、高效率、低功耗的算力单元,大大提高异构内核之间的传输速率,降低数据访问功耗和成本,为大模型提供高算力保障。
4)软硬件协同优化,提高计算系统利用率。
在大型模型系统中,硬件和软件协作对于实现高性能和高能效至关重要。 通过稀疏+混合精度+多元算子的高效架构设计、算法优化、系统资源管理、软件框架与硬件平台协同、系统监控调优等,可以更好地发挥整个计算系统的优势。
在大模型训练方面,由于训练需要巨大的算力和存储开销,多卡互联的高性能集群计算系统是大模型训练的必然方式。 英伟达高性能GPU的一流链在国内受到限制,单卡国产化芯片的性能受到工艺的限制。 除了增加计算系统的规模外,还需要开展软硬件协同的高效微调方案研究,以降低大模型训练和微调的硬件资源开销。
在大型模型系统中,有效的系统资源管理对于确保高性能和高效率至关重要。 这包括分配计算资源(例如 CPU、GPU 等)、优化内存管理和数据传输策略以减少延迟和提高吞吐量。
为了实现软硬件协同,DeepLearning 习的软件框架需要与硬件平台紧密配合。 这包括针对特定硬件平台进行优化,以充分利用其计算能力和存储资源,以及提供易于使用的 API 和工具来简化模型训练和部署过程。
5)构建异构计算平台。
由于AI算法模型参数数量和计算复杂度急剧增加,大模型训练需要大规模跨节点多卡集群,硬件挑战来自计算、存储和通信。 建设一个规模为1000卡路里的大型模型数据中心的成本高达数亿元,这是很多创业公司难以承受的。 为了解决上述问题,降低数据中心建设成本,亟需建设集中式算力中心,整合不同架构的异构芯片,实现满足各种应用场景需求的大型算力平台。 大模型的统一中间层可以向上适配不同垂直领域的大模型,向下兼容不同的国产AI芯片,从而提高异构计算平台的效率,降低用户在不同模型、不同芯片之间的迁移成本,是解决大模型时代算力挑战的重点方向之一。
6)先进技术布局。
“性能密度”的核心指标是制造工艺、芯片设计水平、先进封装等多个层面的协同作用。 在目前国内3nm、5nm等先进制程获取受限的背景下,有必要继续攻关先进制程中的重要设备和材料,如DUV EUV光刻机、光刻胶等。
7)能源的最佳利用。
在碳中和的背景下,为应对算力中心极高的能耗需求,“数据中心+清洁能源+储能”将是必经之路。 数据中心将成为一个负载可变可调的综合体,以应对发电和电网侧需求,并通过参与电力交易实现智能“调峰填谷”套利,降低运营成本。
根据“数据中心能源十大趋势”,高能计算中心不能依靠风冷实现有效散热,液冷将成为标配,供水效率也成为算力中心的关键。 传统数据中心耗水散热耗水量大,对缺水地区的生态环境造成影响。 用水效率(WUE)已成为国际上关注的重要参考指标,无水或少水的制冷技术是未来的发展趋势。
行业如何应对?
在行业层面,我们有以下建议:
1)加强顶层设计,谋划算力产业战略部署日前,工信部等六部门联合印发《计算基础设施高质量发展行动计划》,加强计算产业顶层设计,但仍需进一步加强统筹。 建议在现有相关领导小组中成立算力发展委员会(或联席会议),秉持及时适当干预的立场,加强算力发展顶层设计,完善信息交流机制,形成统一协调的决策机制。
2)优化空间布局,整体推进算力基础设施建设在落实“十四五”相关规划的基层,加强综合算力网络国家枢纽节点建设,推进京津冀、长三角、粤港澳大湾区等重点算力节点有序按需建设算力基础设施。 并努力提高现有和新计算设施的利用率。
3)布局龙头项目,提升行业共性关键技术储备。为充分发挥国家科技计划的象征性和引领作用,可以考虑在国家自然科学领域开展计算架构、计算方法、算法创新等基础研究同时,在国家重点研发计划中设立多个项目,开展算力关键技术应用示范研究,加强算力与相关产业的融合应用。
4)探索多元化投资,推动算力产业高质量发展。充分发挥产业引导的杠杆作用,通过引导鼓励地方政府加大对算力产业的投入,培育更多优秀企业和项目。 探索科技金融新模式,加大对重点计算项目的资金支持力度。 创新计算基础设施项目社会融资模式,支持社会资本流向计算产业。
5)打造开放生态,共建新业态新模式。算力的高投入、高风险、高垄断,决定了算力的竞争是一场只有少数几个大国的少数企业才能参与的游戏。 **要大力推进产学研深度融合,引导龙头企业开展算力相关关键技术,提升研发能力,搭建开放平台,吸引上下游企业有效对接,共享算力创新成果。 鼓励国内企业、高校等组织扩大与境外相关组织的合作。
综上所述,要突破算力瓶颈,需要硬件、软件、系统的耦合,需要生态与产业的协同,具有多层次、多学科体系的特点。 需要将产业应用、科研、人才培养、基础平台相结合,推动相应的研究和最终商业化。
作者王宇,清华大学电子工程系终身教授、系主任,清华大学信息科学与技术学院副院长茹鹏,清华大学智库中心副主任,清华大学公共管理学院副教授谢启军,清华大学科教政策研究中心主任助理、清华大学公共管理学院助理教授