索拉,开始你的世界模拟之旅吧!

小夏 财经 更新 2024-02-23

2024年2月16日,OpenAI发布了**代AI大模型SORA。 消息一出,业界再次震惊。

OpenAI官网说明:SORA是一种AI模型,根据文字指令生成真实和虚拟场景,并可根据用户指令生成长达1分钟的高清**,可以生成具有多个角色和特定动作的复杂场景,即可以理解和模拟运动中的物理世界。

在过去的一年里,随着ChatGPT和GPTS的蓬勃发展,文盛影业、文生**、图晟**等各种产品也相继涌现。 为什么 Sora 一经发布就像 ChatGPT 一样再次掀起波澜?

1. 性能

与其他文盛产品相比,可生成长达60s的人物和场景连贯性,长期一致性,是SORA的一大优势。

要知道,在1月24日和2月15日,谷歌研究人员宣布了**生成模型Lumière和Gemini 1演示 5**。 前者可以生成非常高清的真实**,并能实现一键穿衣,根据**和提示词**生成动态,而后者在图像识别和多回合对话方面表现出惊人的反天能力。 然而,万万没想到,仅仅十天后,空的悄无声息的出现,立刻抢走了卢米埃尔和双子座1号5 在聚光灯下。 究其原因,主要基于产品的整体性能。

尽管有 Lumière 和 Gemini 15 已经足够令人印象深刻了,但它在生成的长度和一致性方面没有突破**(生成持续时间限制为 5 秒)。 同样,其他同类产品,如Runway、Pika等,依旧在突破几秒钟的连贯性(连贯性极大地影响了**的真实性)。 而 Sora 可以直接生成高达 60 秒和高达 30fps 的每秒**,这在生成时间和一致性方面简直碾压了其他同类类型。 不仅如此,Sora 还可以生成各种分辨率,包括 1920x1080(宽屏)和 1080x1920(垂直)以及介于两者之间的所有分辨率,最高可达 2048x2048。 这允许 SORA 模型创建改编的内容。 请参阅下表 1。

表1 各种AI模型的持续时间和分辨率比较。

当然,SORA相对于其他AI模型也有优势,包括能够准确呈现细节,理解物理世界中物体的存在,生成具有丰富情感的角色,甚至模型还可以基于提示、静止图像生成,甚至可以填补现有**中缺失的帧。

2. 实施

过去,生成式**的主要实现方法是递归神经网络(RNN)、生成对抗网络(GAN)、自回归变压器(GAN)和扩散模型。 总的来说,基于这些实现的生成模型的缺点是显而易见的,比如视觉数据类别少、时间短、大小固定等。

SORA基于Transformer的扩散模型架构进行训练,融合了Transformer的“生成”和扩散模型的“扩散”优势。 由于其自注意力机制,Transformer 能够捕获序列中的长距离依赖关系,这使其在处理具有复杂时空依赖关系的数据方面具有优势。 同时,由于自注意力机制的特点,基于 Transformer 的模型可以通过矩阵运算进行高效的并行化,因此具有并行处理大规模数据并更快地生成**的能力。 通过整合扩散模型,变压器扩散模型能够在生成时保留更多细节和纹理信息,从而生成更高的质量。 由于使用了变压器扩散模型,SORA能够生成各种各样的图像,并克服了以前方法在长度、尺寸和固定尺寸方面的局限性。 请参阅下面的表 2。

表2 各发电方法实现方法对比

3. SORA的生成原理

SORA模型的生成原理一般分为三个步骤。 第一种是将视频压缩网络压缩或压缩成紧凑形式(即降维)。 二是进行时空潜贴,将视图信息分解成小单元,每个单元包含视图中的一部分空间和时间信息,以便在后续步骤中进行有针对性的处理。 最后是**生成,通过对输入文本或**进行解码和编码,Transformer模型(即ChatGPT基本转换器)决定如何转换或组合这些单元,从而形成一个完整的**。

第 1 步:压缩网络。

如下图 1 所示,SORA 模型通过压缩网络技术将输入压缩为低维表示。 这个过程类似于“标准化”不同的尺寸和分辨率,以便于处理和储存。

然后,Sora进一步将这些压缩的视图数据分解为所谓的“时空补丁”,每个补丁都携带一部分空间和时间信息,这些信息构成了视觉内容的基本构建块。 这样,在保留原有视觉信息丰富性的基础上,SORA还可以将不同的原稿**(不同长度、不同分辨率、不同风格等)加工成一致的格式。

第 2 步:提取时间和空间中的潜在补丁。

预训练的 transformer 模型将提取步骤 1 中生成的电位补丁在时间和空间上的信息,形成大量的补丁“列表”,记录视图信息表示与其语义的对应关系,为后续生成提供知识材料。

第 3 步:生成 Transformer 模型。

在SORA的生成过程中,Transformer模型接收到时空的潜在补丁(这些潜在补丁来自与生成的目标长度相同的时间段,但内容完全是随机噪声),然后SORA开始根据给定的文本提示不断修改本节中的补丁(在这个过程中, SORA利用从大量数据中学到的知识来决定如何逐步去除噪音),并将噪音转换为接近文本描述的东西,然后转换或组合这些片段以产生最终内容。

四、SORA的技术创新

从发布的技术报告来看,它和ChatGPT是一样的,在底层技术层面,SORA没有太多的原创性,而是充分利用了现有的先进技术。 然而,在应用体验方面,它注入了不同于其他同类产品的创新。

在sora的三步过程中,压缩借鉴了“使用潜在扩散模型进行高分辨率图像合成”的思想。 时空潜在补丁的“补丁”(补丁和视觉补丁)的概念取自“Vivit:视频视觉转换器”(即 VIT)(谷歌,2021 年)。 变压器扩散模型模型结构最初是由“Transformer 的扩散模型”(William Peebles, Saining Xie 2022)提出的。

然而,SORA模型在尺寸选择、语言理解、多模态输入和多样化生成方面是独一无二的。

过去,模型的大小和持续时间会裁剪为标准尺寸,例如 256*256 持续 4 秒。 另一方面,Sora可以直接生成不同大小的**。 例如,1920*1080 用于水平屏幕,1080*1920 用于垂直屏幕。 这允许 Sora 根据设备的屏幕尺寸生成不同的分辨率**。 这主要是由于**网络压缩技术在应用中对低维空间的“标准化”(见上文)。

根据SORA的技术报告,利用DALL·E3的。同时,使用GPT模型将用户的简短提示扩展为更详细的解释性文本。 通过这些数据增强,SORA模型的语言理解能力得到了提高。

在输入方面,不仅可以输入文本提示,还可以输入**和**,典型的多模态支持。 在生成方面,SORA模型可以编辑、补充和拼接,也可以向前或向后扩展。

5. 未来的期望和灵感

当然,从第一代的表现来看,SORA模型还存在很多不足,比如模拟复杂场景的物理现象、理解具体的因果关系、处理空间细节、准确描述随时间变化的事件等。 但随着训练数据的增加和模型的迭代升级,相信这些缺点将逐步得到改善。

毫无疑问,SORA模式及其后续升级版本将加速AIGC在行业内的发展和应用,对影视、直播、广告、动漫、艺术设计等众多行业产生深远影响。 特别是在短片**盛行的当下,SORA已经可以承担短片**摄影、导演和剪辑的任务。

然而,对于OpenAI来说,在开发通用人工智能的过程中,SORA不仅仅是一个生成工具。 正如 Sora 的技术文档中的一句话:“我们的结果表明,扩展生成模型是构建通用物理世界模拟器的一条有前途的途径”。 可以看出,OpenAI最终想要做的,是打造一个通用的“物理世界模拟器”。 从这个意义上说,SORA模型的定位是形成一个世界模型来模拟现实世界。

数字孪生更多的是通过物理世界的数字化,形成物理世界的“镜子”,从而增加对物理世界运行状态的掌握和对规则的控制,并通过对数字虚拟世界的指令干预,对物理世界的运行进行调整、干预和优化。 “世界模型”有望将人类的思想世界和心理世界充分具体化,并与真实物理世界的状态和运行进行比较,最终形成物理世界的状态和运行的期待和转化策略。 因此,SORA模型不仅是一流的生成模型,而且是客观世界模拟器,为模拟世界开辟了道路。

相似文章

    胡锡进评论了索拉,说索拉没什么意思的人太不负责任了

    鞭牛,月日,胡锡进刚刚对OpenAI日前发布的文盛模型SORA发文评论,称有人说SORA没有任何意义,太不负责任了。美国人工智能公司OpenAI日前发布了SORA技术,可基于文字描述生成长达一分钟的真实感,引发行业震动。以下为胡锡进评论全文 美国OpenAI公司发布的文盛 模型SORA震撼了全球AI...

    三通温控阀开启状态判断方法

    观察指标 一些三通温控器配有一个指示灯,通常显示三通阀的当前开启状态。通过查看指示器上的徽标或颜色,可以判断三通阀是打开还是关闭。.检查管道流量 当三通阀打开时,它会使流经三个不同通道的介质通过,管道的流量应最大。通过检查管道的流量,可以快速确定三通阀的开启状态。可以使用流量计 流量计等工具检测管道...

    加入安武通,开启您的护送生涯之旅

    随着中国社会老龄化和家庭结构的变化,对专业陪护服务的需求正在迅速增长。在这样的市场背景下,选择加盟安胡同这样的实力派护送品牌,无疑是一个明智的商业决策。不断增长的市场需求 当前,中国正面临严重的人口老龄化,越来越多的老年人需要专业的护理和护送服务。此外,繁忙的现代生活方式也使得越来越多的家庭无法全职...

    介绍 OpenAI 的 Sora

    风格 写实 油画等 内容 风景 人物 动作 特效等 参数 分辨率 帧率 持续时间等。SORA的工作原理 SORA 是一种基于深度学习的模型,使用大量文本和数据进行训练。在训练过程中,模型学习文本与文本的对应关系,并能够根据文本描述生成相应的 如何使用SORA 使用SORA进行构建很容易,只需按照以下...

    谁是中国版的索拉?

    长达一年的 百模大战 仍未结束,两大海外AI巨头给国内科技厂商带来了麻烦。春节假期结束时,谷歌和OpenAI毫无征兆地发布了他们新的AI 核武器 谷歌新一代多模态大模型双子座性能提升到百万级的 Pro,秒杀彻底击杀OpenAI的GPT Turbo,暂时是表面上最强的。后者首款文盛 机型SORA基于视...