AllenAI已经开源了有关大模型的所有细节! 数据代码,完全复制

小夏 科技 更新 2024-02-09

在人工智能领域,语言模型(LMS)的发展一直是推动自然语言处理(NLP)技术进步的核心力量。 随着商业价值的增长,强大的语言模型越来越多地被封闭在专有接口后面,其训练数据、架构和开发细节通常不为人知。 然而,这些细节对于科学研究至关重要,不仅关乎模型的偏差和潜在风险,而且是理解和提高模型性能的关键。

有鉴于此,我们提出了OLMO:一个真正开放的、最先进的语言模型及其用于构建和研究语言模型科学的框架。 OLMO的发布与以往不同的是,它不仅提供了模型权重和推理**,还包括训练数据、训练和评估**,甚至包括训练过程中的中间模型检查点和日志。 我们希望这一举措能够为开放研究社区赋能,并引发新一轮的创新浪潮。

**标题:

olmo : accelerating the science of language models

声明:本期**口译为非人类撰写,全文由赛博马利安AI**口译专家代理独立完成,经人工审核和插图后发布。

** 习逍遥科技表示“后台回复”。智能内部测试“获取情报内部测试的邀请链接。

OLMO模型使用基于Vaswani等人(2017)的基于纯解码器的Transformer架构,并提供1b和7b两种比例变体(表1)。 该架构基于标准 Transformer,并进行了多项改进,包括消除所有偏差、使用非参数层进行归一化、SWIGLU 激活函数、旋转位置嵌入 (ROPE) 和修改后的 BPE 基本词汇表。 与其他类似尺寸的型号相比,这些改进使OLMO在结构上更加高效,在性能上更具竞争力(表2)。

Dolma 预训练数据集是一个多源和多样化的语料库,包含来自 7 个不同公共数据源的 3 个 T 代币(表 3)。 构建数据集的过程包括语言筛选、质量筛选、内容筛选、重复数据删除、多源混合和词法化等步骤。 卓玛的设计原则、构建细节和内容摘要在其报告中进行了详细说明,旨在支持语言模型预训练的开放研究。

OLMO的评估框架包括两个阶段:**评估和离线评估。 **评估用于模型设计决策,而离线评估用于评估模型检查点。 使用走秀框架进行下游评估和基于困惑的内在语言模型评估。 此外,OLMO-7B 是最大的 LM,并进行了明确的净化,以确保在混淆评估中不会低估模型的外部拟合能力。

OLMO模型的主要架构创新包括去除偏差项、使用非参数层归一化、Swiglu激活函数、旋转位置嵌入(ROPE)和特殊词汇设计。 与其他类似尺寸的型号相比,这些改进使OLMO在性能方面具有竞争力。

Dolma数据集的开放性和多样性为语言模型预训练研究提供了重要支撑。 它由多个公开可用的数据源组成,这些数据源经过严格筛选和处理,以确保数据质量和多样性。

OLMO 的评估工具包括 Catwalk 和 Paloma,它们提供了广泛的数据集和任务格式,使模型评估更加全面和透明。 此外,OLMO-7B的去污处理确保了评估结果的准确性,避免了因数据泄露而低估混淆的问题。

OLMO模型采用分布式训练框架进行训练,提高训练效率,缩短训练时间。 具体来说,使用了零优化器策略和 PyTorch 的 FSDP(Fully Sharded Data Parallel)框架,通过跨多个 GPU 对模型权重及其对应的优化器状态进行分片,有效降低内存消耗。 在 7B 规模模型上,这允许每个 GPU 处理 4096 个令牌的微批大小。

在选择优化器时,OLMO 模型使用 ADAMW 优化器并仔细调整其超参数(表 4)。 在训练过程中,学习率在5000步(约21B个token)内预热,然后线性衰减到峰值学习率的1/10。 此外,为了避免训练过程中出现梯度,引入了梯度裁剪,以保证参数梯度的总 L2 范数不超过 10。表 5 将 OLMO 模型的优化器设置与同样使用 ADAMW 的其他模型优化器设置进行了比较。

OLMO模型的训练数据来自Dolma数据集,该数据集是一个多源多样的语料库,包含3个T令牌,覆盖5B文档。 在数据准备阶段,在每个文档后添加一个特殊的EOS令牌,并将一个连续的2048令牌组成一个训练实例。 为确保训练的一致性,每次运行训练时,都会以相同的方式对训练实例进行洗牌。

在硬件配置方面,OLMO 模型在两个不同的集群上进行了训练,以验证库在 NVIDIA 和 AMD GPU 上的性能。 这两个集群分别是 Lumi 超级计算机和 MosaicML 提供的集群。 尽管批量大小略有不同,但在带有 2t 代币的评估套件上运行两次显示出几乎相同的性能。

在下游任务评估中,OLMO-7B模型在Catwalk框架下进行了零样本性能评估。 评估工具包包括9项核心任务,OLMO-7B在2项任务结束时的表现优于所有其他公开型号,在8 9项任务结束时仍位居前三名(表6)。 这表明OLMO-7B在下游任务的性能上具有竞争力(图1)。

在内在语言建模评估中,Paloma 基准用于衡量 OLMO-7B 模型与语言分布的拟合程度(图)。 Paloma 包含 585 个不同的文本域,从《纽约时报》到 Reddit 上的 R Depression 等。 OLMO-7B是最大的语言模型,它已经明确地进行了净化,以确保评估数据不会低估由于预训练数据泄漏而导致的混乱。

OLMO-7B模型的性能不仅在最终模型上进行比较,还包括中间检查点,这允许与发布检查点的其他模型进行更丰富的比较。 此外,还评估了模型的能耗和碳足迹,以估计训练期间消耗的总能量和释放的碳排放量。 这些评估的结果有助于了解开发最先进模型的真实成本,并为未来的可持续人工智能发展提供见解。

在人工智能领域,模型训练的能耗和碳足迹越来越受到关注。 OLMO模型的训练过程也不例外。 为了估计OLMO模型训练期间的总能耗和碳排放量,研究人员使用了一系列测量和计算(表7)。 首先,通过每 25 毫秒测量单个节点的功耗,乘以节点总数来计算整个训练过程的平均功耗。 然后,考虑到数据中心的能源效率,将产生的总功耗乘以电源使用效率 (PUE) 因子,此处假设为 11,这意味着更节能的数据中心通常有10%的能耗开销。

据估计,OLMO 的 7B 模型训练消耗 239 兆瓦时 (MWh) 的能量。 为了计算碳排放量,研究人员将总功耗乘以碳强度系数,即每千瓦时排放的二氧化碳千克数。 其中,在澳大利亚使用 A100-40GB GPU 训练的模型假设为 0碳强度系数为 610,这是澳大利亚 2022 年的全国平均水平。 在 Lumi 超级计算机上训练的模型使用 100% 可再生的碳中和能源,因此假设碳强度系数为 0。 根据这些计算,OLMO模型训练的估计总碳排放量为6978吨二氧化碳当量(TCO2EQ)。

研究人员希望通过公开发布OLMO模型,它将减少未来的碳排放,因为它允许其他人避免从头开始训练模型的需要,并为开发最先进的模型提供现实世界的成本见解。 需要注意的是,这些估计值应被视为下限,因为它们不包括其他排放源,例如硬件和数据中心基础设施的制造、运输和处置中固有的排放,以及使用、**影响或其他环境影响,例如用水量或采矿量。

OLMO项目已经发布了一个完整的训练和建模**,使研究人员能够复制模型训练过程,或在此基础上进行进一步的研究和开发。 这些托管在 GitHub 上,可以通过相关链接访问。

除了最终的模型权重外,OLMO项目还从训练过程中释放了500多个中间检查点,这些检查点以1000步的间隔保存,并通过HuggingFace平台提供。 这为研究人员提供了丰富的资源来探索模型的性能在训练的不同阶段如何变化。

Olmo 使用 Dolma 数据集进行了预训练,这是一个多源、多样化的语料库,包含来自 7 个不同数据源的 3 万亿个代币。 该项目不仅发布数据集本身,还提供构建数据集的工具,以及用于数据集分析的 WIMBD 工具。

为了评估模型性能,OLMO 项目发布了评估**和 Catwalk 工具。 Catwalk 是一个公开可用的评估工具,它为下游评估以及基于困惑的内在语言模型评估提供了多种数据集和任务格式。 这些工具的发布使研究人员能够在固定的评估管道中比较和分析模型。

通过发布这些工具和数据集,OLMO项目旨在鼓励开放研究,减少学者和从业人员的重复和昂贵的工作。 所有 ** 和权重都在 Apache 2 中在 0 许可下发布,为用户提供使用这些资源和工件的灵活性。

apache 2.0 许可证是一种自由且宽松的许可证,允许用户自由使用、修改和分发软件,同时保留原作者的归属。 选择 Apache 20许可证对OLMO项目具有重要意义,因为它不仅促进了科学发展,而且使科学界能够更灵活地使用这些资源和人工制品。 与其他组织使用的许可证相比,Apache 20 不限制使用模型输出训练 AI 或机器学习系统,也不限制商业用途。 这种开放性的选择反映了OLMO团队对推进开放科学研究的承诺,以及推动科学和工程发展的愿望。

OLMO 模型的未来方向包括计划发布更大的模型、指令调优模型以及更多模态和变体。 这些计划的发布将有助于调查模型中尚未被充分理解的方面,例如预训练数据与模型功能之间的关系、设计和超参数选择的影响以及各种优化方法对模型训练的影响。 此外,OLMO 团队将分享有关在此规模下训练语言模型的经验教训和重要细节。 通过这些努力,OLMO项目旨在不断支持和扩展OLMO及其框架,并继续推动开放语言模型的界限,为开放研究社区赋能,激发新一轮创新浪潮。

OLMO作为真正开放的语言模型和框架的首次发布标志着开放科学研究的一个重要里程碑。 与以前的工作相比,OLMO 不仅发布了模型权重和推理**,还发布了训练数据、训练和评估**。 这种全面的开放性将极大地增强和加强开放研究社区,为未来的创新提供新的动力。 OLMO的发布旨在促进对这些模型的科学研究,包括它们的优势和劣势,以及它们的偏见和风险。

未来,OLMO 团队计划继续支持和扩展 OLMO 及其框架,突破开放语言模型的界限,引入不同的模型大小、模式、数据集、安全措施和评估。 通过这些持续的努力,OLMO项目不仅为科学界提供了一个强大的研究工具,而且还为理解和改进语言模型的科学和工程进步做出了贡献。

声明:本期**口译为非人类撰写,全文由赛博马利安AI**口译专家代理独立完成,经人工审核和插图后发布。

相似文章

    中国开源模型荣登HuggingFace排行榜榜首

    月日消息,全球最大的开源大模型社区Huggingface近日公布了最新的开源大模型排行榜,阿里云通益千问击败llama等国内外开源大模型登上榜首。Tongyi Qianwen B荣登Huggingface公开法学硕士排行榜榜首 HuggingFace的Open LLM排行榜是目前大模型领域最权威的榜...

    APUS Model 3 0首款开源机型正式亮相

    据了解,APUS大型型号 玲丽在中国基准评价榜c eval中得分分分,中文能力超越GPT ,在所有参与模型中排名第三,与原开源模型基准测试LLAMA B相比。值得注意的是,大数据国家工程实验室由深圳大学牵头,国家信息中心 清华大学 腾讯科技共同建设。此外,中科院陈国良院士 国家重点研发计划项目首席科...

    第一个开源MoE模型发布!GPT 4 具有相同的架构,来自欧洲的 OpenAI

    来自 Qubit 的 Mengchen qbitai 取消今晚的所有计划!许多人工智能开发人员决定不睡觉。只是因为 Mistral AI 刚刚发布了第一个开源的 MOE 模型。MOE架构的全称是Mixture of Experts,是传闻中GPT 采用的解决方案,可以说是开源模型最接近GPT 的一集...

    为什么阿里云在大模型开源的道路上越走越远?牛头快速回顾

    阿里云坚定支持大模型开源的原因 思路和逻辑。近日,阿里云为通益千问召开新闻发布会,开源了同益千问亿参数模型QWEN B。此外,通益千文还开源了亿参数模型QWEN b 和音频模型 qwen audio。截至目前,同益千问已经开源了亿 亿 亿 亿参数的四大语言模型,以及视觉理解和音频理解的多模态大模型,...

    Apple 发布 Ferret,一个开源的多模态大型语言模型

    技术 Venturebeat 报道称,苹果在 年 月悄悄发布了一款名为 Ferret 的开源多模态大型语言模型,这是苹果与哥伦比亚大学研究人员合作的结果。当时发布的内容包括 和权重 仅供研究使用,不包括商业许可 但它并没有得到太多关注。随着近期对 Mistral 开源 MOE 模型的关注,以及谷歌即...