制造 Sora 和 Stable diffusion 3 的 DiT 是什么？

在 Sora 发布后不久，Stable AI 发布了 Stable Diffusion 3。对于那些使用人工智能进行设计的人来说，这无疑是一个重要的一年。那么这篇文章就是专门为这些用户准备的，用更直接的文字，介绍一下 Stable Diffusion 3 的两大特性，“扩散变压器模型”和“流匹配”，帮助大家在模型发布后更好地使用它进行创作。

扩散变压器，我们将其称为 DITS。从名称可以看出，这是一个基于 Transformer 架构的图像潜在扩散模型。如果你已经阅读了文章“揭开SORA的神秘面纱：用大型语言模型理解并实现物理世界的”涌现“，那么你已经处于下一个内容的”类代表“级别。和 SORA 一样，DTS 也使用了“补丁”的概念，但由于 DITS 是用来生成 ** 的，所以它不需要像 SORA 那样维护不同帧之间的逻辑关联，所以它不必生成时空块。

Stable Diffusion 3 一代类似于几年前风靡计算机视觉领域的 Vision Transformer （VIT），其中图像被分割成多个补丁并嵌入到连续的向量空间中，以形成用于 Transformer 处理的序列输入。但这里需要注意的是，由于 DITS 有业务，对于条件图像生成任务，DITS 需要接收和融合外部条件信息，例如类别标签或文本描述。这通常是通过提供额外的输入标记或交叉注意力机制来实现的，该机制允许模型根据给定的条件信息指导生成过程。

因此，当这个块到达DITS内部时，它可以通过DITS内部的DIT块处理成所需的内容。 DIT Block是DITS的核心部分，DITS是专为扩散模型设计的特殊Transformer结构，能够处理图像和条件信息。一般来说，block本身就是block，但为了区别于patch，我就直接用block了。

Stable Diffusion 3 生成一个 dit 块，该块分为三个较小的块：交叉注意力块、adaln 块和 adaln-zero。交叉注意力是指在多头自注意力层的基础上再增加一个多头交叉注意力层，用于利用条件信息来引导图像生成，使生成的**更符合提示词，但代价是增加计算量约15%。

adaln 中的 ln 是指通过归一化神经网络各层内部单元的输出来减少内部协变量偏移的问题，从而提高模型训练过程的收敛速度和性能。 ADALN 是标准层归一化的扩展，它允许根据输入数据或其他条件信息动态调整层归一化的参数。就像汽车的悬架一样，用来增加车型的稳定性和适应性。

Stable Diffusion 3 代接下来，Stable AI 对 Adaln Dit Block 进行了改进，除了回归和之外，还回归了维度级别的缩放参数，并在连接 dit 块内的任何残差之前立即应用这些参数。该模块是adaln-zero，旨在模拟残差网络中的有益初始化策略，以促进模型的有效训练和优化。

在 dit 块之后，令牌序列被解码为输出噪声和输出对角线协方差。使用标准线性解码器时，这两个结果的大小与输入图像的空间维度相同。最后，根据其原始空间布局对这些解码后的标记进行重新排列，从而得到噪声值和协方差值。

Stable Diffusion 3 生成了第二章，流量匹配（FM）。根据 Stable AI 的说法，它是一种高效、无需模拟的 CNF 模型训练方法，允许使用通用概率路径监督 CNF 训练过程。最重要的是，FM打破了扩散模型之外CNF可扩展训练的壁垒，在没有深入了解扩散过程的情况下直接操纵概率路径，从而绕过了传统训练中的难题。

所谓的CNF是连续归一化流量。这是深度学习中的概率模型和生成模型技术。在CNF中，通过一系列可逆和连续的变换，将简单的概率分布转化为复杂、高维数据的概率分布。这些变换通常由神经网络参数化，以便可以连续变换原始随机变量以模拟目标数据的分布。翻译成白话，CNF 像骰子一样生成数据。

Stable Diffusion 3 生成了，但 CNF 在实际操作中需要大量的计算资源和时间，所以 Stable AI 想知道，有没有另一种方法，结果和 CNF 差不多，但过程要稳定，计算量要低？因此诞生了FM，它本质上是一种训练CNF模型以适应和模拟给定数据分布的演变的技术，即使我们事先不知道分布的具体数学表达式或相应的生成向量场。通过优化 FM 目标函数，该模型还可以学习一个向量场，该向量场可以生成近似于真实数据分布的概率分布。

与CNF相比，FM应被视为一种优化方法，其目标是训练CNF模型生成的向量场，使其在理想目标概率路径上尽可能接近向量场。

Stable Diffusion 3 Generation看完 Stable Diffusion 3 的两大核心技术特点后，你会发现它其实和 Sora 非常接近。两个模型都是 transformer 模型（Stable Diffusion 之前用过 U-Net），都使用块，都具有划时代的稳定性和优化性，而且它们的出生日期非常接近，我认为说它们相关并不过分。

不过，“兄弟”之间有一个根本的区别，那就是SORA是闭源的，而稳定的Diffusion 3是开源的。事实上，Midjourney 和 Dall·e 都是闭源的，只有 Stable Diffusion 是开源的。如果你关注开源人工智能，那么你一定已经注意到，开源社区已经陷入困境很久了，一直没有明显的突破，很多人都对它失去了信心。 Stable Diffusion 2 和 Stable Diffusion XL 仅改善生成的美观**，而 Stable Diffusion 15 已经可以做到这一点了。看到 Stable Diffusion 3 的革命性改进可以重新点燃许多开发人员对开源社区的信心。

Stable Diffusion 3 代更让人兴奋，Stable AI 的 CEO Mohamed Ahmad Mostak （在一条推文中表示，虽然 Stable AI 在人工智能领域的资源比其他一些公司少 100 倍，但 Stable Diffusion 3 架构已经可以接受 ** 和图像以外的内容，但目前还不能透露太多。

你说**和**我还能理解，但“外面”的内容是什么？实际上，我能想到的只是音频，它是由一段声音产生的。这很令人困惑，但一旦 Stable AI 发布最新的研究成果，我们将率先解释它们。

稳定扩散 3.

制造 Sora 和 Stable diffusion 3 的 DiT 是什么？

相似文章

有人开始在 Sora 上赚钱

空来了，银行已经不存在了？

关于已知和未知的索拉

SORA模式直接改变了媒体，我们该如何应对？

商英达秦国，车子自爆