译者:布加迪。
上周,OpenAI团队推出了SORA,这是一个大规模生成的模型,展示了模拟物理世界基本方面的新功能。 我关注文本生成领域已经有很长一段时间了,我认为这个模型代表了质量的飞跃。
我在 Reddit 和 Twitter 上看到了很多关于这个模型如何运作的猜测,包括一些非主流的说法(Sora 是否在一个名为 Unreal 的游戏引擎中运行? )。当这个突破性的人工智能工具发布时,许多人都想表现得好像他们知道它是如何工作的,甚至可能欺骗自己,认为他们可以根据一些已发表的样本瞥见微妙的线索。 我发现的最糟糕的例子是 Jim Fan 博士的帖子,声称“SORA 是一个数据驱动的物理引擎”,该帖子在 Twitter 上被浏览了大约 400 万次(SORA 根本不是数据驱动的物理引擎)。
幸运的是,OpenAI 发表了一篇研究文章,解释了其模型的架构。 如果我们阅读了这篇文章,实际上没有必要猜测。 下面我将介绍OpenAI团队提供的技术,以便我们了解Sora的实际工作原理。
自人工智能领域出现以来,创建能够建模、理解和模拟现实世界固有复杂性的人工智能一直是一项非常艰巨的挑战。 与静态图像不同,它本质上涉及呈现随时间变化、3D 空间、物理交互和对象连续性等。 过去的生成模型很难处理不同的持续时间、分辨率和摄像机角度。 更重要的是,这些系统缺乏对物理、因果关系和物体持久性的内在“理解”,而这些都是对现实进行高保真模拟所必需的。
OpenAI 发布的 ** 展示了一个比我们在这些领域看到的任何东西都更好的模型。 坦率地说,这些**看起来很真实。 例如,一个人的头会挡住标志,然后越过标志,标志上的文字将保持不变。 动物即使在“闲置”时也会逼真地摆动翅膀。 风中的花瓣会随风摇曳。 面对这种挑战,大多数**模特都无能为力,结果往往是一些闪烁、摇晃的图像,让观众难以理解,但Sora没有这个问题。 它是怎么做到的?
我从研究该模型和现有帖子中得到的第一个主要收获是,这项研究工作建立在之前对语言模型(如 OpenAI 的 GPT)的研究基础上。
表征
研究人员引入的关键创新之一是SORA在训练过程中的表现方式。 每个帧被划分为许多小补丁,类似于 GPT-4 等大型语言模型中单词被分解为标记的方式。 这种基于补丁的方法允许 SORA 使用不同长度、分辨率、方向和纵横比的 ** 进行训练。 无论源的原始形状如何,从框架中提取的碎片都以完全相同的方式处理。
图1OpenAI的研究文章说:“粗略地说,我们先将**压缩到一个较低维的潜在空间,然后将**表示分解成时空斑块,从而将**变成斑块。 ”
模型架构
SORA 使用与其 GPT 模型密切相关的 Transformer 架构来处理这些区块代币的长序列。 转换器包含时空自利层,这些层可用于对文本、音频和 ** 等序列中的远程依赖项进行建模。
在训练过程中,SORA的transformer模型将扩散过程中早期的块令牌序列作为输入,即原始的“去噪”令牌。 通过对数百万个不同帧的训练,Sora慢慢学会了自然帧的模式和语义。
图2OpenAI 研究文章中的去噪过程图。
文本调整
SORA也是有条件的,这意味着它可以根据文本提示以受控方式生成。 文本提示将嵌入并作为附加上下文提供给模型,以及与当前帧对应的磁贴。
为了更好地将文本描述与实际内容联系起来,研究人员为每次训练使用了高度描述性的标题,这些标题是从单独的标题模型生成的。 这项技术可以帮助 Sora 更紧密地遵循文本提示。
推理过程
在推理过程中,SORA从纯噪声补丁开始,并在50多个扩散步骤中反复降噪,直到实现连贯和平滑的**。 通过提供不同的文本提示,Sora 能够生成与字幕适当匹配的不同**。
基于贴片的表征允许SORA在测试时处理任何分辨率、持续时间和方向,只需在开始扩散过程之前将贴片排列成所需的形状即可。
通过将训练数据扩展到数百万个片段的大小并使用大量计算资源,OpenAI 团队发现了一些非常有趣的突然行为:
Sora 不仅仅是文本生成,还可以从输入图像或其他 **生成。
Sora似乎对场景有很强的3D“理解力”,人物和物体以连续的方式逼真地移动。 这纯粹是从数据比例中得出的,不需要任何明确的 3D 建模或图形**。
该模型显示对象持久性,通常跟踪实体和对象,即使它们暂时不在框架或被遮挡时也是如此。
Sora 展示了模拟一些基本现实世界交互的能力,例如,数字画家在画布上的笔触随着时间的推移而准确流传下来。
它还可以令人信服地生成复杂的虚拟世界和游戏,例如 Minecraft。 Sora 可用于在渲染场景时控制此生成环境中场景的移动。
随着额外的计算能力和数据的增加,质量、一致性和提示依从性大大提高,这表明它进一步受益于规模。
但是,SORA仍然显示出明显的缺陷和局限性:
通常很难准确模拟更复杂的现实世界的物理相互作用、动力学和因果关系。 简单的物理和对象属性仍然具有挑战性。 例如,一个玻璃杯被打翻并溅出液体,表明玻璃杯已经融化到桌子上,液体从玻璃杯的侧面流下来,没有任何破碎效果。
模型往往会自发地生成意想不到的对象或实体,尤其是在拥挤或混乱的场景中。
很容易混淆左右,或者当发生许多动作时,并且一段时间内事件或活动的精确顺序很容易被打乱。
仍然很难逼真地模拟多个角色之间的自然互动和环境。 例如,它会产生一个人在跑步机上走错方向。
尽管存在这些持续存在的缺点,但随着研究人员继续扩大生成模型的规模,SORA预示着未来的潜力。 有了足够的数据和计算能力,Transformer 可能会开始更深入地了解现实世界的物理、因果关系和物体持久性。 结合语言理解能力,这有望为通过基于**的真实世界模拟来训练人工智能系统开辟新的思路。
Sora正在朝着这个目标迈出第一步。 虽然需要做更多的工作来克服其许多弱点,但它所展示的新兴特征突出了这一研究方向的前景。 在大量不同数据集上训练的巨型转换器最终可能会生成能够智能交互和理解我们物理环境固有的复杂性、丰富性和深度的人工智能系统。
因此,与毫无根据的说法相反,SORA 不是通过游戏引擎或“数据驱动的物理引擎”运行,而是通过运行在“块”上的转换器架构,就像 GPT-4 在文本令牌上运行一样。 它擅长创造**,表明理解的深度、对象持久性和自然动态。
该模型的关键创新是将帧处理为一系列块,类似于语言模型中的单词标记,使其能够有效地管理不同的方面。 这种方法与文本条件生成相结合,使 Sora 能够根据文本提示生成上下文相关、视觉连贯的**。
尽管具有开创性的功能,但SORA也有局限性,例如在模拟复杂交互和动态场景时保持连贯性。 这些局限性表明需要进一步研究,但不影响它在推进发电技术方面取得的重大成就。
我希望 Sora 能尽快发布给人们试用,因为我已经想到了很多这项技术的新应用,所以让我们拭目以待。