在人与大型模型之间架起一座“桥梁”。作者苏霍伊。
由 Chestnut 编辑。
在 GPT-3 中5在它出现之前,新加坡国立大学校长、鲁辰科技创始人兼董事长尤洋就意识到,大模型将成为未来重要的发展方向。
早在 2018 年,他就参与了 Google BERT 模型的训练,并成功将预训练时间从三天缩短到 76 分钟,这种优化方法至今仍被许多公司使用。
2020 年,OpenAI 推出了全球最大的预训练语言模型 GPT-3,激起了尤阳对大规模模型开发的兴趣。 2024年,人工智能领域将迎来大模型爆发之年。 这股热潮迅速席卷全球,人工智能成为各行各业的战场。
根据 IDC(国际数据公司)**的数据,到 2026 年,AI 软件市场规模将达到 76 家9亿美元。 我们每个人都可以清楚地感受到,人工智能正在从感知和理解世界走向生成和创造世界的阶段,推动工业智能加速进入拐点。
作为高性能计算的研究者,尤阳也在密切关注着大模型行业的最新动态。
他非常看好中国的人工智能背景。 “得益于国家政策支持、资本和人才的融合,国内人工智能产业目前正处于快速增长期。 “我们的研究型大学和研究机构在人工智能基础研究、技术开发和人才培养方面发挥着核心作用,这些努力正在不断提升中国人工智能产业在世界上的竞争力。” ”
但与此同时,游洋也意识到,无论是AI初学者还是业内人士,都面临着大模型的“门槛”。
进入大模型领域的初学者需要克服高科技的“门槛”。大型模型的复杂性和技术的不断更新增加了理解和掌握这些技术的挑战。
摆在从业者面前的“门槛”在于如何巧妙地“驾驭”这项前沿技术。 为了在激烈的市场竞争中脱颖而出,从业者需要找到策略,最大限度地发挥大模型的潜力,降低成本,提高效率。
为了帮助人们跨过这个“门槛”,尤阳萌生了写一本《大模型实用指南》的想法。 他希望在人与大型模特之间架起一座“桥梁”。
他告诉嘉子光年:“我想和更多的人分享我在高性能计算和AI大模型领域的知识和经验,希望通过《实用AI大模型》这本书,读者能为读者提供我个人的见解和建议,以及更多人的相关话题。 ”
上线一周内,《实用AI模型》在京东图书榜上排名第一,**由受访者提供。
在了解《实用AI模型》之前,有必要先了解一下本书的作者尤阳教授。
杨游毕业于加州大学伯克利分校。 在研究生学习期间,他是 2015 年并行和分布式处理国际会议 (IPDPS) 的最佳作者。 在伯克利就读期间,You Yang 获得了 LotFi AZadeh奖,颁发给在软计算及其应用方面做出杰出贡献的伯克利博士毕业生。 2017 年,他的团队打破了 ImageNet 训练速度的世界纪录,并被 NSF、ScienceDaily、Science Newsline 和 i-Programmer 广泛报道。
尤阳在2024年佳子重力年终盛典上发表主题演讲,**贾子光年拍摄。
真正让尤阳在AI行业声名鹊起的,是他提出的一系列AI训练方法。
2024年,杨友在攻读博士学位期间以第一作者发表《ImageNet Training in Minutes》,获得国际并行处理会议(ICPP)最佳奖,在313篇论文中排名第一,提出的Lars优化器刷新了ImageNet训练速度的世界纪录,将AlexNet模型的训练时间缩短到仅24分钟。
2024年,杨友再次以第一作者身份提出lamb优化器,并成功将BERT的预训练时间从原来的三天三夜缩短到76分钟,比ADAM优化器快72倍,成为机器学习领域的主流优化器。
此外,You Yang 的团队还开发了 CowClip 算法,显著提高了 CTR 模型的训练速度。 2024年入选福布斯亚洲30位30岁以下精英榜单,并获得IEEE-CS超级计算杰出新人奖。
正是因为多年在AI大模型领域的深耕和成就,尤阳看到了大模型理论与实践之间的巨大差距。
对于今天的人来说,经过整整一年的**报道,AI模型的名称已经不再陌生,一些领域的从业者已经开始使用AI模型进行业务优化。
例如,Midjourney、Stable Diffusion 和 Dall-E 等 AI 图像生成产品允许用户从文本描述中生成图像在音频领域,Microsoft 的 Speech Studio 服务使用户能够创建类似于自己声音的虚拟形象。
然而,这些产品只能让用户享受AI给自己的工作带来的便利。 但是,对于更专业的技术人员或要求更高的企业级用户来说,仅仅在应用层面了解是不够的。
例如,Transformer模型、BERT模型和GPT模型是什么,它们的特点是什么?每种不同型号的优点是什么?训练的难度是**?
尤阳认为只有掌握了深度学习的基本概念、经典算法和网络架构,才能更好地理解和应用大型AI模型。
这是尤阳写这篇《实用AI模型》的初衷和目标。 他希望通过本书,为读者提供详细的指导和参考,提供理论与实践相结合的综合视角,让读者理解和应用人工智能模型。
在游阳看来,每一个模型,无论是BERT、GPT还是PALM,都是人工智能技术演进的结晶,背后蕴含着深厚的理论基础和实践经验。 这就是为什么他选择单独讨论每个模型,以确保充分涵盖每个模型的深度和广度。
本书全面介绍了训练这些模型所需的技术。 从高性能计算(HPC)到并行处理,从大规模优化方法到内存优化,每一项技术都经过精心挑选和深入研究,是AI大模型训练的基石,也是构建高性能AI系统的关键。
例如,Transformer 模型通过其独特的“注意力机制”成为自然语言处理 (NLP) 领域的核心,显著提高了机器理解和文本生成的准确性
BERT模型通过双向训练机制增强了文本处理的准确性和灵活性,广泛应用于语言理解任务
Albert 模型作为 BERT 的优化版本,以更高的效率和更小的模型尺寸解决了 NLP 挑战
T5模型展示了统一框架处理多个文本任务的能力,对AI系统的通用性具有重要意义
GPT 系列凭借其强大的文本生成能力,在 NLP 任务方面取得了重大进展;
谷歌的 Palm 模型是大模型领域的一个里程碑,展示了人工智能理解和生成语言的最新进展。
当然,这本书还有很多内容。 本书除了详细介绍各模型的原理、训练方法、应用场景外,还介绍了分布式系统、并行策略、内存优化等关键技术。
创新工场和零壹事物的创始人兼CEO李开复对这本书给予了高度评价:“这本书不仅用简单的术语解释了AI模型的核心概念,而且非常契合AI 20 这是历史上最重要的技术革命。 ”
掌握理论知识只是实践的起点。
在AI的应用中,我们需要解决大模型训练中的一系列挑战,如计算资源的管理、训练效率的优化等。
为了达到理论与实践的完美结合,尤阳在书中特别介绍了Colossal-AI系统。
它是一个集成的大规模深度学习系统。 它通过数据并行、模型并行、流水线并行等策略有效地分散了计算和存储负担,使得用有限的资源训练大型模型成为可能。
GPT-3 在不做任何事情时会消耗 3200G 的内存。 游阳指出,自2024年以来,AI模型的规模经历了指数级增长。 从 Microsoft 的 2000 万参数模型到 GPT-4 的约 1 万亿到 100 万亿参数,模型大小每 18 个月至少增长 40 倍自2024年以来,这一增长率已达到约340倍。
但是,GPU 内存仅增长 17 倍,这使得现有硬件设备难以满足训练大型模型时所需的巨大计算资源和存储空间。
换言之,目前,硬件跟不上模型的开发速度,这是大模型最需要克服的问题。
为了应对这一挑战,分布式训练技术可能是最好的解决方案。 通过在多个计算节点上拆分并同时执行大型模型的训练任务,可以更高效地利用计算资源,加快训练过程。 即使是普通工程师也可以通过集成公开可用的免费数据集(如 C4、GitHub 和 Books)来训练大型模型并取得良好的效果。 此外,选择合适的基准模型,例如基于 GPT-3 的设计思想,也是训练过程中的关键步骤。
大型模型的训练需要大量的GPU和内存资源。 以高中数学为例,训练一个非常小的模型,也需要大量的计算运算和内存资源。 分布式优化、高效通信机制、数据并行、分布式存储等技术对于训练和部署企业级大模型至关重要。 同时,选择合适的基座模型以及数据并行性与张量并行性的结合,对高效训练的实现具有决定性的影响。
作为尤阳教授打造的一款先进的大模型训练工具,Colossal-AI系统解决了在单个GPU上训练大模型时遇到的内存限制问题,这也是《实用AI大模型》中特别强调的一部分。
被投诉人提供的 colossalchat 的使用演示,**
例如,Colossal-AI 是世界上第一个最接近原始 ChatGPT 技术解决方案的开源解决方案。 它基于 LLAMA 模型,其中包括类似 Chat 的模型复制方案 ColossalChat 的完整 RLHF 过程。 只需不到 100 亿个参数模型微调即可实现 GPT-35、ChatGPT的效果。
此外,基于在大模型民主化方面的专业技术积累,Colossal-AI开源完备,稳定地进行预训练和个性化微调方案,可加快预训练时间,降低经济成本65 倍,硬件成本降低 7 倍,实现个性化微调!更重要的是,它可以在PC上快速完成RTX 2070 3050上的微调任务过程,让Stable Diffusion等AIGC模型触手可及。
通过Colossal-AI,我在书中提供了详细的实践教程,包括训练BERT、GPT-3、PALM、VIT和对话系统等模型的步骤,并深入讲解了系统的关键技术和优势,帮助用户提高研究和工作效率。 最后,通过实践教程,将理论知识转化为实践。 尤阳介绍了嘉子光年,“他说毕竟,动手实践是理解和掌握复杂 AI 模型的关键。
You Yang 开发 Colossal-AI 的初衷源于他的专业领域——高性能计算。
他的主要目标是提高效率并降低大型模型训练的成本。 Colossal-AI 提供了多种训练方法,如混合精度训练、梯度累积,以及数据并行、张量并行、流水线并行等技术。 通过这些方法,可以优化模型训练的过程,并可以有效地跨节点扩展模型,而这正是传统训练方法无法实现的。
此外,其 API 设计简单易用,因此适配器可以快速上手,将更多的时间和精力花在模型设计和优化上,而不是解决底层技术问题。
Colossal-AI的路线主要分为三个部分:
首先,开发了适用于GPT、LLAMA等模型的Colossal-AI系统,节省时间和成本
其次,训练参数大小在 100 亿到 200 亿之间的行业特定大型模型
最后,开发PaaS平台,将需要训练大模型的客户整合到平台中,形成正向循环。
目前,游阳的重点是继续开发和优化Colossal-AI,同时协助企业进行大模型的私有化部署,并计划在未来商业化方面进一步发展。
他一直相信人工智能产业的开放性对技术发展至关重要。人工智能技术没有绝对的知识产权,技术可以通过开源走得更远。
这种开放性和生态建设,即吸引大量用户使用并提供反馈,是未来人工智能技术竞争的关键。 只有不断迭代和优化,才能吸引更多的用户,这对于构建强大的AI生态至关重要。 尤阳解释道。
从高性能计算的学术研究开始,最终走向AI技术的商业化应用。 尤阳的经历让他深刻体会到,在处理大规模数据时,人工智能对高性能计算的依赖。
这也激发了You Yang创造Colossal-AI平台的想法。 他希望利用Colossal-AI提高AI处理和计算的效率,帮助AI企业加快产品开发速度,节约成本。
这个想法最终促使尤阳走上了创业之路。 在成为新加坡国立大学计算机科学系首任系主任后,尤阳于2024年7月回国创立了鲁辰科技。
得益于在技术创新方面的积累,鲁辰科技吸引了多家投资机构的支持。
2024年8月,路辰科技获得创新工场、臻**共同投资的1000多万元种子轮融资2022 年 9 月,它又获得了由 BlueRun Ventures 领投的 600 万美元天使轮融资。
不久前,游阳带领团队荣获AAAI 2023杰出**奖,在AI行业引起广泛关注。 随后陆辰科技宣布在今年5月完成A轮融资,融资金额达数亿元。 据该公司介绍,这是鲁辰科技成立18个月以来的第三轮融资,资金将主要用于团队扩张和业务发展。
同年11月,鲁辰科技宣布完成近亿元A+轮融资,由世界500强科技巨头领投,大湾区**和新加坡电信投资公司(Singtel Innov8)也参与了此次投资。
在鲁辰科技,杨友和他的团队致力于攻克大模型训练和应用中的问题。 该公司推出了包括Colossal-AI在内的一系列服务,这些服务完全开源,涵盖异构管理系统、并行技术和系统部署,旨在帮助用户高效部署AI模型。 “我想把微调的成本降低到几百元,让大家都能用最低的成本训练GPT模型,”游阳说。 ”
我们的愿景是为企业提供无缝的部署和培训体验。 未来,他希望用户能够在服务器、终端甚至手机上定义模型,并通过Colossal AI部署到云端,支持CPU、GPU、TPU、FPGA等多种硬件平台,以及TensorFlow、PyTorch、Keras、TheAno等多种编程框架。 这将通过最大限度地提高效率和最小化成本,更有效地帮助初创公司部署自己的模型和系统。
根据该公司的生态地图,Colossal-AI的用户增长率已经超过了传统软件,吸引了来自全球各地的用户,包括中国、美国、欧洲、印度和东南亚,并获得了超过35,000个GitHub星标,在细分赛道上位居全球第一。 Colossal-Llama 开源模型在三周内在 Hugging Face** 中突破了 180,000 个。
大模型时代,机遇与挑战并存。
通过有效利用分布式训练技术和企业级大模型解决方案,可以加快训练进程,提高训练强度,将大模型的应用提升到一个新的水平。 尤阳呼吁,要共同努力,推动大型模型技术的进步,为科学、商业和社会带来更广泛的利益。