颠覆变形金刚霸主!Mamba 的新架构解决了致命的错误,并将推理速度提高了 5 倍

小夏 科技 更新 2024-01-28

小编:编辑部深度学习习进入新时代,变形金刚霸主地位即将被颠覆

2024年6月12日,它诞生了,让NLP直接改变了天空,而统治自然语言领域多年的Transformer,终于要被新的架构打破。

Transformer 功能强大,但它有一个致命的错误:核心注意力层无法扩展到长期上下文。

刚刚,来自CMU和普林斯顿大学的研究人员发布了MAMBA。 这种 SSM 架构在语言建模方面与 Transformer 相当,并且以 5 倍的推理吞吐量线性扩展!

*地址:* Ichisaku Albert Gu 说,对于信息密集型模型来说,次要注意力是必不可少的,但现在,它不再需要了!

* 一出来,直接炸毁了AI社区。

英伟达资深科学家 Jim Fan 表示,他一直期待有人推翻 Transformer,并感谢 Albert Gu 和 Tri DAO 多年来试图取代 Transformer 序列架构。

你正在做的研究太酷了,你一会儿就会弹出一个,你不能停下来一会儿!」

湖人球迷说他们对曼巴这个名字很满意!」

至于为什么这个架构被命名为Mamba,笔者也给出了一个解释

- 速度快:这是由于 (1) 序列长度线性缩放的简单递归,以及 (2) 硬件感知设计和实现。

杀伤力:它对顺序建模问题具有致命的吸引力。

甚至产生的声音也是相似的:其核心机制是最新的进化......结构化状态空间序列模型 (S4)。ssss

性能压垮变压器?

MAMBA 源自 Albert Gu 之前在结构化状态空间模型方面的工作,可以看作是一个强大的循环算子。 这可实现序列长度的线性缩放和快速自回归解码。

*地址:然而,以前的递归模型的缺点是它们的固定大小状态很难压缩上下文。

Mamba的主要贡献是引入了选择性SSM,这是对S4的简单泛化,有选择地关注或忽略输入。

这个小小的改变——只是使某些参数成为输入的函数——将立即解决以前模型的难题。

例如,它可以无限长地推导出任务的重要关联回忆解决方案!(训练长度 256,测试长度 1m)。

关键是:这种变化涉及重大的效率权衡,而 S4 的原始设计有一个特定的原因。

根据DNA和音频等其他模式的真实数据,MAMBA的训练前表现超过了以前的专业基线(如鬣狗和生鱼片)。

值得注意的是,随着合成、DNA 和音频数据中的序列达到 1m+,MAMBA 的性能正在提高!

左右滑动查看,另一个 Tri DAO 解释了如何使用硬件感知设计来应对这一挑战,以及 MAMBA 在语言方面的强大性能。

他说,正如Albert所说,状态空间模型(SSM)的特点是其固定大小的递归状态。 如果你想获得更好的性能,你需要更大、更有表现力。

不幸的是,由于较大的状态太慢,因此在实践中无法使用递归来计算它们。

过去,基于 S4 的 SSM 通过进行结构假设(即线性时间不变性)来解决这个问题,这样就可以在不实现大状态的情况下执行等效卷积模型计算。

但这一次,CMU和普林斯顿大学的研究人员的方法是选择性SSM,只能以循环方式计算。

为了解决这个计算瓶颈,他们利用了其他高效的硬件感知算法(如FlashAttention)使用的技术。

需要注意的是,对于MANBA(以及一般的SSM),这种方法只能在SRAM中实现扩展状态,而不能在主存储器中实现扩展状态。

此外,Scan 实现比基本 PyTorch Jax 快 30 倍,当序列长度变长时,比辅助 FlashAttention 快几个数量级。

而且,由于固定大小的循环状态(没有 KV 缓存),MAMBA 的 LM 推理比 Transformer 快 5 倍。

从经验上讲,作者最重要的工作是语言建模,这也是以前的SSM(例如,H3,MAMBA的前身)所针对的领域。

*地址: 不过,此时,他的工作还不如变压器。 他说,当时还没有一个模型可以真正与微调的变形金刚竞争。

然而,惊喜突然来了!

当根据 Chinchilla 的缩放定律进行预训练时,MAMBA 突然超越了一个非常强大的现代 Transformer++ 模型(接近 Llama 模型)!

在完成300B代币的训练后,MAMBA的性能已经大大优于同类开源模型。

最后,作者得出结论,硬件感知思维可以开辟新的架构设计。

展望未来,这种新架构是否能够利用围绕变压器构建的硬件库?它将如何改变其他领域(基因组学、音频、序列扩展?

为此,作者还发布了一系列模型权重(最多 28b,在 300b 代币上训练)和快速推理**。

项目地址:Transformer的架构是如何诞生的。

目前的基础模型几乎都是基于 Transformer 架构和核心注意力模块的。

为了解决 transformer 在处理长序列时计算效率低下的问题,已经开发了很多二次时间复杂度架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型 (SSM)。

然而,在处理语言时,这些架构的表现不如传统的注意力模型。

研究人员发现,这些模型的主要弱点是它们难以进行基于内容的推理,因此进行了一些改进:

首先,通过将SSM参数作为输入数据的函数,可以解决该类型模型在处理离散数据类型方面的不足。

这允许模型根据当前标记有选择地传播或忘记序列长度维度中的信息。

其次,尽管这种调整使模型无法使用有效的卷积,但研究人员设计了一种并行算法,该算法可以适应硬件并在循环模式下实现。

研究人员将这种选择性SSM集成到一个简化的端到端神经网络架构中,该架构不需要注意力机制,甚至不需要MLP(多层感知器)模块,这是研究人员提出的MAMBA。

MAMBA 擅长快速推理(处理速度比 Transformer 快 5 倍),其性能随着序列长度的增加而线性增长,在处理多达数百万个长度的序列时甚至更好。

作为一种通用的序列处理模型,MAMBA在语言、音频和基因组学等多个领域实现了最先进的性能。

在语言建模方面,MAMBA-3B模型的性能是transformers模型的两倍,参数比预训练和后续评估多。

通过实证研究,研究人员验证了MAMBA作为基础模型(FM)核心框架的巨大潜力。

这种潜力不仅体现在预训练的质量上,还体现在特定领域任务的执行上,涵盖多种模式和环境:

- 合成任务

在复制、归纳等重要合成任务中,MAMBA不仅可以轻松求解,而且可以无限长(>100万个代币)解。

- 音频和基因组学

在音频波形和 DNA 序列建模方面,MAMBA 在预训练质量和下游指标方面都优于之前的 SOTA 模型,例如生鱼片、鬣狗和变形金刚(例如,在具有挑战性的语音生成数据集上,fiD 减少了一半以上)。

在这两种情况下,其性能都会随着上下文长度的增加而提高,长度可达数百万个序列。

- 语言建模

MAMBA 是第一个在预训练复杂性和下游任务评估中实现 Transformer 级性能的线性时间序列模型。

在将模型规模扩大到10亿个参数后,研究人员证明MAMBA的表现优于LLAMA等大量基线模型。

MAMBA 语言模型的生成吞吐量是同体积 Transformer 的 5 倍,MAMBA-3B 的质量可与两倍于其大小的 Transformer 相媲美(常识推理平均值比 Pythia-3B 高 4 分,甚至超过 Pythia-7B)。

选择性状态空间模型。

研究人员利用合成任务的直觉来刺激他们的选择机制,然后解释了如何将该机制整合到状态空间模型中。 由此产生的时变SSM不能使用卷积,这给如何有效地计算它们带来了技术挑战。

研究人员通过利用硬件感知算法克服了这个问题,这些算法利用了现代硬件上的内存层次结构。 然后,研究人员描述了一种简单的SSM架构,没有注意力机制,甚至没有MLP模块。 最后,研究人员讨论了选择机制的一些附加特性。

研究人员认为,序列建模的一个基本问题是将上下文压缩到更小的状态。 他们从这个角度看待流行序列模型的权衡。

例如,注意力在某些方面非常有效,但在其他方面效率低下,因为它根本不压缩上下文。 从这一点可以看出,自回归推理需要显式存储整个上下文(即 KV 缓存),这直接导致了 transformer 的线性时间推理和二次时间训练。

另一方面,重复模型是有效的,因为它的状态是有限的,这意味着推理时间是恒定的,训练时间将是线性的。

然而,注意力的有效性受到这种状态压缩上下文的程度的限制。

为了理解这一原理,研究人员重点研究了两个综合任务运行示例(下图2)。

选择性复制任务通过改变要记忆的标记的位置来修改流行的复制任务。 它需要内容感知推理来记住相关标签(彩色)并过滤掉不相关的标签(白色)。

感应头任务是一种众所周知的机制,以前的研究假设它可以解释LLMs的大部分情境习能力。 它需要上下文感知推理,以知道何时在适当的上下文中生成正确的输出(黑色)。

这些任务揭示了 LTI 模型的故障模式。 从循环的角度来看,它们的恒定动态(例如,(2)中的(a,b)转换)不允许它们从上下文中选择正确的信息,或者影响隐藏状态沿着输入相关序列传递的方式。

从卷积的角度来看,全局卷积可以解决普通的复制任务,因为它只需要时间感知,但由于缺乏内容感知,它们很难进行选择性复制任务(如上图所示)。

更具体地说,输入和输出之间的间距是可变的,不能通过静态卷积核进行建模。

综上所述,顺序模型的效率和有效性权衡的特征在于它们压缩状态的程度:高效模型的状态必须很小,并且模型的有效性必须要求小状态在上下文中包含必要的信息。

相反,研究人员构建的序列模型的基本原理是选择性:关注或过滤序列状态输入的上下文感知能力。

具体而言,选择机制控制信息如何沿序列维度传播或交互。

通过选择将选择机制合并到模型中来改进 SSM 的一种方法是使影响序列交互的参数(例如 RNN 的循环动力学或 CNN 的卷积核)依赖于输入。

算法 1 和 2 说明了研究人员使用的主要选择机制。

主要区别在于简单地将输入的一些参数δ、b、c 作为函数,以及对整个张量形状的相关更改。

请注意,这些参数现在具有长度维度,这意味着模型已从时变变为时变。

这失去了与卷积的等价性,并影响了其效率。

与结构化 SSM 一样,选择性 SSM 是独立的序列转换,可以灵活地合并到神经网络中。

H3 架构是最著名的 SSM 架构的基础,该架构通常由线性注意力启发模块与 MLP(多层感知器)模块交织在一起组成。 研究人员通过将这两组同构堆栈合并到一个组件中来简化这种架构(见下图)。

这种治疗的灵感来自门控注意力单元 (GAU)。 该架构涉及通过可控的缩放因子扩展模型维度。 对于每个模块,大多数参数 (3ED2) 位于线性投影中,而内部 SSM 的贡献较小。 SSM 参数的数量要少得多。

研究人员重复了这个模块,与标准标准化和残余连接交织在一起,形成了MAMBA架构。

在实验中,始终将 X 设置为 E=2,并使用两个模块堆栈来匹配 Transformer 交错 MHA(多头注意力)和 MLP 模块的 122 个参数。

研究人员使用了 Silu Swish 激活功能,其动机是希望使门控 MLP 成为 Swiglu 的流行变体。 最后,研究人员还使用了可选的归一化层,其动机是retnet在相似位置使用归一化层。

选择机制是一个更广泛的概念,可以以不同的方式应用,例如更传统的 RNN 或 CNN,使用不同的参数(例如算法 2 中的 A),或者使用不同的转换。

实证评价。 复制任务是用于测试序列模型,尤其是循环模型的记忆能力的经典综合任务。

LTI SSM(线性递归和全局卷积)可以通过只关注时间而不是推理数据来轻松解决此任务。 例如,构造一个长度完全正确的卷积核(图 2)。

在这方面,选择性复制任务可以通过随机更改令牌的间距来防止这种快捷方式。

表 1 显示,H3 和 MAMBA 等门控架构只能部分提高性能,而选择机制(即将 S4 改进为 S6)可以轻松解决这个问题,尤其是与更健壮的架构结合使用时。

从机械可解释性的角度来看,归纳头是一项相对简单的任务,但它出乎意料地能够**大型语言模型(LLMS)的上下文学习能力。

此任务要求模型执行关联回忆和复制操作:例如,如果模型之前在序列中遇到过类似哈利波特的短语,则当哈利再次出现在同一序列中时,模型应该能够通过查看历史信息来检索波特。

表 2 显示,MAMBA 模型,或者更准确地说是其选择性 SSM 层,能够完美地完成其工作,因为它能够选择性地记住相关令牌,同时忽略介于两者之间的其他令牌。

它还完美地泛化到数百万个序列,这是训练期间遇到的长度的 4,000 倍。 相比之下,其他方法的推广性都不能超过 2 倍。

研究人员将 MAMBA 与标准 Transformer 架构(即 GPT-3 架构)以及当今最先进的 Transformer (Transformer ++) 进行了比较。

后者基于 PALM 和 LLAMA 架构,具有旋转嵌入、SWIGlu MLP、用 RMSNORM 替换 LayerNorm、消除线性偏置和更高的 习 速率。

图 4 显示,在 1MAMBA 的参数规模为 25 亿到 13 亿,是第一个在性能上可与最强 Transformer 架构 (Transformer ++) 相媲美的无注意力模型。

表 3 说明了 MAMBA 在一系列下游零样本评估任务中的性能。

MAMBA 使用与 Pythia 和 RWKV 相同的标记器、数据集和训练长度(300B 标记)进行训练。

需要注意的是,训练 MAMBA 和 Pythia 时的上下文长度为 2048,而 RWKV 为 1024。

随着大型语言模型的成功,人们开始探索基础模型范式在基因组学中的应用。

DNA由具有特定词汇的离散符号序列组成,并且还需要对长程依赖关系进行建模,因此它被比作一种语言。

MAMBA 已被研究为预训练和微调的 FM 骨架,与最近对 DNA 长序列模型的研究相同。

在预训练方面,研究人员基本上遵循标准的因果语言建模(下一个标记**)设置。

在数据集方面,鬣狗的DNA设置基本相同,它使用HG38数据集进行预训练,该数据集由单个人类基因组组成,在训练片段中包含约45亿个标记(DNA碱基对)。

结果如图5(左)所示,MAMBA的预训练难题随着模型大小的增加而稳步增加,MAMBA的可扩展性优于Hvenadna和Transformer++。

例如,在最大模型尺寸为 40 m 参数的情况下,曲线显示 MAMBA 可以使用的参数少 3 到 4 倍,与 Transformer ++ 和 Hvenadna 模型相当。

此外,图 5(右)显示 MAMBA 能够利用更长的上下文,甚至是长达 1 m 的极长序列,并且其训练前的混淆会随着上下文的增加而增加。

另一方面,鬣狗DNA模型随着序列长度的增加而恶化。

从卷积的角度来看,一个非常长的卷积核正在聚合一个长序列上的所有信息。

图 6 显示了类人猿 DNA 的分类,显示了使用相同上下文长度的预训练模型对长度为 2 10 至 2 20 的微调序列的准确性。

在音频波形处理领域,主要对比是生鱼片架构。 该模型包括:

1.U-NET骨干通过两个阶段的池化,每个阶段使模型的维度d加倍,池化因子为p,2每个阶段交替使用 S4 和 MLP 模块。

对于长上下文的自回归预训练,研究人员使用标准钢琴**数据集 - YouTubeMix 进行评估。 该数据集包含 4 小时的钢琴独奏**,采样率为 16000Hz。

图 7 显示了在保持相同计算量的情况下,训练序列长度从 8192 (2 13) 增加到 1,000,000 (2 20) 时的效果。

无论是 MAMBA 还是生鱼片 (S4+MLP) 基线模型,性能都会随着上下文的长度而稳步提高。 其中,MAMBA在整个过程中更胜一筹,序列越长,优势越明显。

在自回归语音生成方面,采用基准语音生成数据集SC09进行评估。 它由采样频率为 16000 Hz 的 1 秒语音片段组成,包含数字 0 到 9,并具有多种功能。

表 4 显示了 MAMBA-UNET 和一系列基准模型的自动评估结果,包括 w**enet、samplernn、w**egan、diffw**e 和生鱼片。

正如你所看到的,小规模的MAMBA模型已经超过了使用最先进的GaN基和扩散技术的大型模型。 具有相同参数尺度的 MAMBA 模型在保真度方面明显领先。

表 5 使用小规模 MAMBA 模型,显示了不同架构在外部和中心阶段的综合效应。

研究发现,MAMBA模型在外块和中心块的性能均优于S4+MLP架构,中心块的性能排名为MAMBA>S4+MLP>MHA+MLP。

图 8 说明了 SCAN 操作的速度(状态扩展 n = 16),以及 MAMBA 端到端推理吞吐量的基准。

结果表明,当序列长度超过2K时,高效的SSM扫描速度比现有的最佳注意力机制FlashAttention-2更快。 此外,与 PyTorch 标准扫描实现相比,速度高达 20 到 40 倍。

由于没有键值 (kv) 缓存,MAMBA 可以支持更大的批量大小,从而实现比相同大小的转换器高 4 到 5 倍的推理吞吐量。

以一个未经训练的 MAMBA 为例,该 MAMBA 具有 69 亿个参数(MAMBA-69b),在推理处理能力方面,仅以13亿个参数和5倍的规模就可以超越Transformer模型。

与大多数深度序列模型一样,使用的内存量与激活张量的大小成正比。 表 15 显示 MAMBA 的内存需求与优化的 Transformer 相当。

在单个 A100 80GB GPU 上训练时 125M 模型的内存要求。

最后,作者说,选择性状态空间模型在为不同领域构建基本模型方面的广泛应用太令人兴奋了。

实验结果表明,MAMBA有可能成为通用序列模型的主流框架,甚至有可能与Transformer竞争。

参考资料:https:Twittercom/tri_dao/status/1731728602230890895https://twitter.com Albertgu Status 1731727672286294400 List of Quality Authors (英语)

相似文章

    Transformer 神经网络中的革命性架构

    一 引言。在人工智能领域,神经网络已成为处理复杂任务的主流方法。其中,Transformer架构以其独特的特点在自然语言处理 NLP 计算机视觉 CV 等多个领域取得了显著的成功。本文将详细介绍变压器的基本原理 发展历史 应用场景以及优缺点,以帮助读者更好地理解和应用这一重要模型。二 变压器的基本原...

    变形金刚挑战者登场!斯坦福CMU联合团队,开源模型和代码

    来自 Qubit 的 Mengchen qbitai 现在ChatGPT等大模型是一大痛点 处理长文本的计算能力消耗巨大,其背后的原因是 Transformer 架构中注意力机制的次要复杂性。Flashattention 的作者 Tri Dao 提出的新架构成为强大的挑战者,引起了很多关注 Mamb...

    英国霸权的终结揭示了福克兰群岛战争

    二战后,随着英国海外殖民地的独立,其世界霸权正在衰落。英国国力的衰落导致对海外领土的控制大大削弱。然而,年的福克兰群岛战争是英国重新确立其威望的机会。让我们深入了解这场自二战以来最大的岛屿战役的来龙去脉。历史争议 福克兰群岛主权争端。关于福克兰群岛的主权争端由来已久。年,法国航海家布干维尔登陆东岛,...

    日本霸权的崛起?基辛格爆料美国最大的敌人是东营!

    近日,美国前国务卿亨利 基辛格在接受采访时再次表达了对日本的警惕,透露了对美日合作的疑虑。本文将深入探讨基辛格的警告,揭示日本隐藏的野心与美国之间根深蒂固的矛盾。阅读更多关于为什么基辛格称日本是美国的最大威胁,以及基辛格是否真的准备好摆脱过去的束缚并崛起成为世界大国。文章详细分析了美国前国务卿基辛格...

    你和我见证了委内瑞拉霸权斗争背后的火焰!

    标题 你和我见证了委内瑞拉霸权斗争背后的火焰!月日,委内瑞拉对圭亚那发动了惊心动魄的大规模袭击,这是命运的交汇点。这不仅是两国之间的领土争端,而且是关系到整个地区稳定的危机。海岸线上的炮声和土著保护区的冲突将这片土地推向了历史的边缘,我们不得不怀疑 为什么会这样?委内瑞拉的目标是圭亚那的埃塞奎博地区...