索拉，开始你的世界模拟之旅吧！

2024年2月16日，OpenAI发布了**代AI大模型SORA。消息一出，业界再次震惊。

OpenAI官网说明：SORA是一种AI模型，根据文字指令生成真实和虚拟场景，并可根据用户指令生成长达1分钟的高清**，可以生成具有多个角色和特定动作的复杂场景，即可以理解和模拟运动中的物理世界。

在过去的一年里，随着ChatGPT和GPTS的蓬勃发展，文盛影业、文生**、图晟**等各种产品也相继涌现。为什么 Sora 一经发布就像 ChatGPT 一样再次掀起波澜？

1. 性能

与其他文盛产品相比，可生成长达60s的人物和场景连贯性，长期一致性，是SORA的一大优势。

要知道，在1月24日和2月15日，谷歌研究人员宣布了**生成模型Lumière和Gemini 1演示 5**。前者可以生成非常高清的真实**，并能实现一键穿衣，根据**和提示词**生成动态，而后者在图像识别和多回合对话方面表现出惊人的反天能力。然而，万万没想到，仅仅十天后，空的悄无声息的出现，立刻抢走了卢米埃尔和双子座1号5 在聚光灯下。究其原因，主要基于产品的整体性能。

尽管有 Lumière 和 Gemini 15 已经足够令人印象深刻了，但它在生成的长度和一致性方面没有突破**（生成持续时间限制为 5 秒）。同样，其他同类产品，如Runway、Pika等，依旧在突破几秒钟的连贯性（连贯性极大地影响了**的真实性）。而 Sora 可以直接生成高达 60 秒和高达 30fps 的每秒**，这在生成时间和一致性方面简直碾压了其他同类类型。不仅如此，Sora 还可以生成各种分辨率，包括 1920x1080（宽屏）和 1080x1920（垂直）以及介于两者之间的所有分辨率，最高可达 2048x2048。这允许 SORA 模型创建改编的内容。请参阅下表 1。

表1 各种AI模型的持续时间和分辨率比较。

当然，SORA相对于其他AI模型也有优势，包括能够准确呈现细节，理解物理世界中物体的存在，生成具有丰富情感的角色，甚至模型还可以基于提示、静止图像生成，甚至可以填补现有**中缺失的帧。

2. 实施

过去，生成式**的主要实现方法是递归神经网络（RNN）、生成对抗网络（GAN）、自回归变压器（GAN）和扩散模型。总的来说，基于这些实现的生成模型的缺点是显而易见的，比如视觉数据类别少、时间短、大小固定等。

SORA基于Transformer的扩散模型架构进行训练，融合了Transformer的“生成”和扩散模型的“扩散”优势。由于其自注意力机制，Transformer 能够捕获序列中的长距离依赖关系，这使其在处理具有复杂时空依赖关系的数据方面具有优势。同时，由于自注意力机制的特点，基于 Transformer 的模型可以通过矩阵运算进行高效的并行化，因此具有并行处理大规模数据并更快地生成**的能力。通过整合扩散模型，变压器扩散模型能够在生成时保留更多细节和纹理信息，从而生成更高的质量。由于使用了变压器扩散模型，SORA能够生成各种各样的图像，并克服了以前方法在长度、尺寸和固定尺寸方面的局限性。请参阅下面的表 2。

表2 各发电方法实现方法对比

3. SORA的生成原理

SORA模型的生成原理一般分为三个步骤。第一种是将视频压缩网络压缩或压缩成紧凑形式（即降维）。二是进行时空潜贴，将视图信息分解成小单元，每个单元包含视图中的一部分空间和时间信息，以便在后续步骤中进行有针对性的处理。最后是**生成，通过对输入文本或**进行解码和编码，Transformer模型（即ChatGPT基本转换器）决定如何转换或组合这些单元，从而形成一个完整的**。

第 1 步：压缩网络。

如下图 1 所示，SORA 模型通过压缩网络技术将输入压缩为低维表示。这个过程类似于“标准化”不同的尺寸和分辨率，以便于处理和储存。

然后，Sora进一步将这些压缩的视图数据分解为所谓的“时空补丁”，每个补丁都携带一部分空间和时间信息，这些信息构成了视觉内容的基本构建块。这样，在保留原有视觉信息丰富性的基础上，SORA还可以将不同的原稿**（不同长度、不同分辨率、不同风格等）加工成一致的格式。

第 2 步：提取时间和空间中的潜在补丁。

预训练的 transformer 模型将提取步骤 1 中生成的电位补丁在时间和空间上的信息，形成大量的补丁“列表”，记录视图信息表示与其语义的对应关系，为后续生成提供知识材料。

第 3 步：生成 Transformer 模型。

在SORA的生成过程中，Transformer模型接收到时空的潜在补丁（这些潜在补丁来自与生成的目标长度相同的时间段，但内容完全是随机噪声），然后SORA开始根据给定的文本提示不断修改本节中的补丁（在这个过程中， SORA利用从大量数据中学到的知识来决定如何逐步去除噪音），并将噪音转换为接近文本描述的东西，然后转换或组合这些片段以产生最终内容。

四、SORA的技术创新

从发布的技术报告来看，它和ChatGPT是一样的，在底层技术层面，SORA没有太多的原创性，而是充分利用了现有的先进技术。然而，在应用体验方面，它注入了不同于其他同类产品的创新。

在sora的三步过程中，压缩借鉴了“使用潜在扩散模型进行高分辨率图像合成”的思想。时空潜在补丁的“补丁”（补丁和视觉补丁）的概念取自“Vivit：视频视觉转换器”（即 VIT）（谷歌，2021 年）。变压器扩散模型模型结构最初是由“Transformer 的扩散模型”（William Peebles， Saining Xie 2022）提出的。

然而，SORA模型在尺寸选择、语言理解、多模态输入和多样化生成方面是独一无二的。

过去，模型的大小和持续时间会裁剪为标准尺寸，例如 256*256 持续 4 秒。另一方面，Sora可以直接生成不同大小的**。例如，1920*1080 用于水平屏幕，1080*1920 用于垂直屏幕。这允许 Sora 根据设备的屏幕尺寸生成不同的分辨率**。这主要是由于**网络压缩技术在应用中对低维空间的“标准化”（见上文）。

根据SORA的技术报告，利用DALL·E3的。同时，使用GPT模型将用户的简短提示扩展为更详细的解释性文本。通过这些数据增强，SORA模型的语言理解能力得到了提高。

在输入方面，不仅可以输入文本提示，还可以输入**和**，典型的多模态支持。在生成方面，SORA模型可以编辑、补充和拼接，也可以向前或向后扩展。

5. 未来的期望和灵感

当然，从第一代的表现来看，SORA模型还存在很多不足，比如模拟复杂场景的物理现象、理解具体的因果关系、处理空间细节、准确描述随时间变化的事件等。但随着训练数据的增加和模型的迭代升级，相信这些缺点将逐步得到改善。

毫无疑问，SORA模式及其后续升级版本将加速AIGC在行业内的发展和应用，对影视、直播、广告、动漫、艺术设计等众多行业产生深远影响。特别是在短片**盛行的当下，SORA已经可以承担短片**摄影、导演和剪辑的任务。

然而，对于OpenAI来说，在开发通用人工智能的过程中，SORA不仅仅是一个生成工具。正如 Sora 的技术文档中的一句话：“我们的结果表明，扩展生成模型是构建通用物理世界模拟器的一条有前途的途径”。可以看出，OpenAI最终想要做的，是打造一个通用的“物理世界模拟器”。从这个意义上说，SORA模型的定位是形成一个世界模型来模拟现实世界。

数字孪生更多的是通过物理世界的数字化，形成物理世界的“镜子”，从而增加对物理世界运行状态的掌握和对规则的控制，并通过对数字虚拟世界的指令干预，对物理世界的运行进行调整、干预和优化。 “世界模型”有望将人类的思想世界和心理世界充分具体化，并与真实物理世界的状态和运行进行比较，最终形成物理世界的状态和运行的期待和转化策略。因此，SORA模型不仅是一流的生成模型，而且是客观世界模拟器，为模拟世界开辟了道路。

索拉，开始你的世界模拟之旅吧！

相似文章

胡锡进评论了索拉，说索拉没什么意思的人太不负责任了

三通温控阀开启状态判断方法

加入安武通，开启您的护送生涯之旅

介绍 OpenAI 的 Sora

谁是中国版的索拉？