key points
根据 OpenAI 的说法,SORA 不仅仅是一个生成器,更是理解和模拟现实世界的基础;
SORA生成**长达1分钟;
SORA 不是纯粹的扩散模型,它使用基于 Transformer 的扩散模型,而 GPT 基于 Transformer 架构;
将视觉数据转换为统一的补丁格式是在SORA模型中实现惊人结果的另一个关键;
杨丽坤是世界模型概念的主要倡导者,他提出,在未来10年内,AI将能够像人类一样为外部世界构建认知模型,并基于该模型对世界的下一个状态做出决策。
杨丽坤显然更喜欢自己的V-JEPA是第一个拥有世界模型的,而不是Sora;
世界模型决定了 AI 是否可以从 2D 屏幕移动到 3D 物理世界,这是成为 AGI 的必要步骤。
比赛开始了。 这位跑道CEO在社交媒体上写道。
又是OpenAI。 继GPT颠覆自然语言处理领域之后,2月16日,OpenAI推出了文生模型SORA,这一次,它颠覆了生成领域,以及包括电影、短片、游戏在内的视觉内容行业。
更重要的是,在博客文章 Sora 中,Openal 表示 Sora 不仅仅是一个生成器,更是理解和模拟现实世界的基础,简而言之,Sora 里面有一个世界模型。 这是 OpenAI 在发布模型时首次强调这一点,而 OpenAI 在发布 GPT 系列模型——甚至是 GPT-4——时并没有表达这一点。
在Sora发布的同一天,AI巨头Meta也发布了一款声称基于世界模型V-Jepa的模型。 与生成式SORA不同,V-JEPA不是生成式的,它会根据上下文猜测被遮挡的信息,即图像的缺失部分。
SORA会比GPT创造更多的价值吗? 它的出现对**制作公司或抖音、YouTube、派拉蒙等分享平台意味着什么? 为什么 OpenAI 和 Meta 在发布 ** 模型时都强调拥有世界模型的基础? 什么是世界模型? 世界模型对人工智能意味着什么? 为什么 OpenAI 制作了 SORA 而不是其他产品? 以下是这些基本问题的答案:
与Runway相比,Sora更强?
早在2022年,清华大学与智源教育学院联合推出的首个开源模型,就能产生像狮子一样的神奇**饮水。 此后,Runway、Stability AI等公司陆续推出模型进入这一赛道,不久前在AI圈红极一时的Pika也是如此。
OpenAI虽然是ChatGPT文本生成模型领域的佼佼者,但在**生成领域却是新人。 但是,只要您在博客上看到SORA展示的示例**,就不得不承认SORA在一代的长度和质量上都落后于以前的模型**。
持续时间: 01:00
*中间的女人走在日本城市的街道上,镜头在1分钟内切换了几次。
SORA相对于其他文盛机型最明显的优势是生成的**可以长达1分钟。 以前,生成的**通常只有几秒钟,例如,鼠兔只能生成3秒,而最复杂的跑道最多只能生成18秒。
据研究统计,从1930年代到1940年代,好莱坞电影的平均镜头长度约为10秒,而这个数值在2000年后下降到不到4秒。 不过,这个统计数字只反映了镜头的平均时长,还是需要通过长短镜头交替来达到高质量的图像表现力,时长长达1分钟的SORA的适用性显然会强很多。
持续时间: 00:17
*一对夫妇漫步在日本的街道上,从远处和近处跟随他们。
此外,SORA 还具有其他文盛**模型所不具备的更多令人惊讶的功能,OpenAI 将其称为 3D 连续性、远距离相关性和对象永续性。 3D连续性和远距离相关性意味着随着摄像机的移动,三维空间中的物体和场景也会相应变化; 物体持久性是指镜头内的物体可以暂时被遮挡或从镜头中移除。
这些是我们在日常生活中拍摄时经常出现的镜头,但对于AI生成来说,它们确实很难。 在现实世界中,3D连续性和物体持久性的概念是不言而喻的,因为这些是物理世界的基本定律,AI在不了解这些定律的情况下模拟近似效果,这似乎暗示着SORA也可以像GPT模型一样出现学习定律。
持续时间: 00:17
*海边的城堡与圣诞村无缝相连。
而且SORA生成**的方式更加灵活。 除了使用文本提示生成外,SORA还支持生成和编辑。 输入一个静态**,SORA可以直接使**移动。 Sora 还支持向前或向后扩展一段,还可以连接不同的样式。 此外,用户可以通过文本命令编辑现有的**,例如将道路上行驶的汽车的**背景环境替换为茂密的丛林。
SORA发布后,不仅RUNWAY的CEO被迫做出了本文开头提到的回应,PIKA的创始人也回应**,他正在准备收费,将直接对SORA进行基准测试。 另一家中国文盛**公司爱石科技的一名员工告诉Neocortex,Sora的路线非常鼓舞人心,公司组织了一个技术团队,试图尽快重现它,但目前还没有结果。
Sora的成功再次验证了生成式AI创造奇迹的必要性?
由于OpenAI尚未发布SORA模型的技术细节,根据其发布的技术报告,SORA的核心与两点有关:一是使用基于Transformer的扩散模型; 第二种是将不同类型的视觉数据转换为称为补丁的统一格式,以便可以使用更多的数据来训练模型。
首先,SORA不是一个纯粹的扩散模型,后者是Runway、Pika、Midjourney等图像和模型开发商使用的算法。 早在 2021 年,Google Brain 团队就推出了一款名为 Vision Transformer (VIT) 的模型,该模型通过计算同一图像中像素之间的依赖关系来识别图像。 在此之前,语言和视觉被视为不同的东西。 语言是线性的、顺序的,而视觉是一种具有空间结构的平行数据。 但 Transformer 证明 ** 也可以作为序列问题来解决,而 ** 是一个由像素组成的句子。 不仅如此,大多数问题都可以转化为序列问题,例如蛋白质结构,这也依赖于氨基酸序列的学习。 **这只是一个连续的**。
将视觉数据转换为统一的补丁格式,是SORA模型取得惊人效果的另一个关键,即如何获得海量数据、优良品质、高性价比的算力。
压缩后的**被切成许多小方块,这些小块就像大语言模型中的基础数据单元标记,是训练前的基础材料。 这种方法大大提高了数据预处理的效率,在此之前,如果要将数据输入到模型中进行训练,则需要做大量的预处理工作,例如确保训练材料的分辨率、纵横比等格式统一。 而将**切成补丁后,前处理工作就容易多了,任何格式的**最终都会被切割成相同格式的补丁,就像乐高的所有部件都是统一的小块一样。 最后,每个补丁将通过添加时间维度升级为时空补丁。
SORA 基于 OpenAI 的图像生成模型 Dall·E 3 和自然语言理解模型 GPT。例如,每个段落的详细描述,包括人物、环境、风格、镜头等,都是基于Dall·e 3为视觉训练数据生成的高度描述性标题; 此外,OpenAI 利用 GPT 将简短的用户提示转换为更长的详细字幕,然后将其发送到模型。 根据 OpenAI 的说法,这使 Sora 能够生成准确满足用户需求的高质量产品。
通过将时空补丁与 Dall·E 3 和 GPT 并将其输入到模型中进行训练,SORA 最终可以将文本描述映射到时空补丁上。OpenAI表示,与大型语言模型类似,SORA模型也显示出一种模式,即模型在训练数据的大小越大时表现更好。
为什么说SORA不仅生成**,还生成世界模型?
在OpenAI的定义中,SORA不仅仅是一个**生成器,更是AI能够理解和模拟现实世界的基础,总之,SORA里面有一个世界模型。
持续时间: 00:15
两艘装在咖啡杯中的海盗船正在进行海战。
OpenAI的结论是基于SORA模拟现实世界的能力,特别是在表示世界的各种物理属性方面,OpenAI与SORA生成的一系列**旨在证明这一点。 在沸腾的咖啡中冒泡的船内和周围形成的泡沫是如此逼真,以至于索拉似乎已经掌握了流体动力学; 随着摄像机的移动,SORA生成的物体和场景可以随着3D空间的变化而发生相应的变化,就好像模型理解了......3D透视
在看到 Sora 的作品后,Nvidia 资深科学家 Jim Fan 也在社交**平台上表示,Sora 不仅仅是一个创意玩具,它是一个数据驱动的物理引擎和对现实世界的模拟。 」
但图灵奖得主Yann Lecun并不买账。 他在社交媒体平台上表示,通过生成像素来模拟世界太昂贵,注定要失败。 他认为,仅仅基于文本提示生成一个看似逼真的**,并不意味着模型真正理解了物理世界。 文盛的过程与基于世界模型的因果模型完全不同。 经常和杨丽坤吵架的马库斯,这次也站在了老对手的一边。
一个模型是否掌握了世界模型,是去年ChatGPT发布后,一个实际上引发了业内争论的问题。 以华盛顿大学语言学家 Emily M. 的名字命名Bender认为,大型语言模型(LLM)只不过是随机鹦鹉,它们不理解现实世界,而只是计算一个单词出现的概率,然后随机产生看起来像鹦鹉一样合理的单词和短语。 杨丽坤也有同样的立场。
对立派认为,在大型语言模型中已经存在一个世界模型,尤其是在 GPT 的规模上。 根据哈佛大学-麻省理工学院的研究,大型语言模型(LLMS)在多个尺度上学习空间和时间的线性表示,这些表示对不同的线索变化具有鲁棒性,并且在不同的环境类型(如城市和地标)中是统一的。 吴恩达后来在他的专栏中说:“我相信法学硕士已经建立了一个足够复杂的世界模型,我可以肯定地说,在某种程度上,他们确实理解了世界。 与杨丽坤同时获得图灵奖的杰弗里·辛顿(Geoffrey Hinton)与吴恩达有着相同的观点。
同样的论点似乎在索拉身上重演。 不过,这是OpenAI在发布模型时首次声称自己有潜力构建世界模型,而OpenAI在GPT系列模型(甚至GPT-4)发布时并没有表达这一点。
究竟什么是世界模型?
顾名思义,世界模型是对真实物理世界的建模,杨丽坤是这一概念的主要支持者。 他曾经提出,在未来10年内,AI应该能够构建一个世界模型,一个可以像人类一样为外部世界构建认知模型的系统,并基于这个模型对世界的下一个状态做出决策。
从2022年开始,杨丽坤就一直在尝试为AI构建这样一个世界模型。 他甚至提出了一个自治代理应该具备的架构,它由6个核心模块组成,包括:配置器是协调指挥中心,负责协调、配置和执行其他模块下达的指令; 知觉感知世界状态并提取任务相关信息,并接受特定任务的配置器调用; 世界模型估计感知器未提供的关于世界状态的缺失信息,并做出合理的世界未来状态,包括由Actor模块提出的一系列动作产生的世界的未来状态; 演员负责寻找最佳行动方案; 成本模块负责计算智能体的不适值,目标是最小化未来价值的内在成本。 短期记忆负责跟踪当前和**世界的状态以及相关成本。
在这个智能体系统中,世界模型只是其中一个模块,它负责感知器没有提供的关于世界状态的缺失信息,以便整个架构中的决策者可以利用这些信息来做出决策和规划路径。 杨丽坤认为,只有能够做规划的AI才能被称为通用人工智能(AGI),而目前包括GPT在内的LLMS并不具备这种规划能力,因为它们缺乏对世界运作方式的常识。 这种常识不仅包括人际关系,还包括重力和惯性等物理感知,这些感知被称为世界模型,因此当机器看到苹果离开树枝时,它们可以判断它接下来会落在下面的地面上,而不是向左、向右或其他方向。 无论如何描述,这种数据在语言上都不像视觉数据那样丰富。
2 月 16 日,也就是 SORA 发布的同一天,Meta 还发布了一个名为 V-JEPA(视频联合嵌入预测架构)的 *** 模型。 与完全生成下一个补丁的 Sora 不同,V-Jepa 是一个非生成模型。 它通过***的隐藏或缺失部分的抽象表示来学习,meta 没有说明这种抽象表示是否是文本,但可以肯定的是,它不是像素,而是比像素更抽象的数据表示。
通过这种方式,Meta 试图让模型专注于从内容的高级层次从概念上理解图像,而不必担心通常对完成任务无关紧要的细节,例如 Sora 生成的 Ships in Coffee 中丰富的气泡,这可能不是 V-Jepa 的对象。
V-JEPA是朝着更扎实地理解世界迈出的一步,因此机器可以实现更一般的推理和规划。 杨丽坤在V-JEPA发布后表示,这个工具可以作为物理世界的早期模型——你不必看到眼前发生的一切,模型可以在概念上告诉你那里发生了什么。
作为Meta的副总裁兼首席AI科学家,以及JEPA系列模型的领导者,杨丽坤显然更希望自己的V-JEPA成为第一个拥有世界模型的,而不是SORA。 下一步,Meta 可能会使用 V-Jepa 作为实验规划和持续决策的代理模块。
为什么拥有世界模型很重要?
对世界模型的追求,并声称拥有这种能力,不仅仅是一个好声音,它决定了一个AI能否从2D屏幕移动到3D物理世界,这是成为AGI的必要步骤。
ChatGPT发布后,全球各大机器人公司都在尝试将GPT放入机器人的大脑中。 但他们都知道,机器人仅仅懂语言是不够的,为了在真实的物理世界中行走,机器人的系统必须能够理解现实世界中发生的各种物理事件才能生存:如果一个苹果掉下来,它会撞到它的头; 当玻璃被扔出时,如果它接触到物体就会碎裂; 如果一个人来自另一边,需要多长时间才能找到他......
因此,在2023年下半年,机器人领域的一大趋势是让机器人在阅读千书后旅行千里(加载GPT)——在物理空间训练机器人。 2023 年 7 月,Google Deepmind 团队推出了一款名为 RT-2(Robotic Transformer 2)的机器人,它允许操作员通过自然语言指导 RT-2 机器人完成任务,即使它没有接受过任务训练。 它通过使用将语言模型与体能训练数据相结合的复合模型来实现这一点。
在听说要抓住灭绝的动物后,RT-2抓住了恐龙。
谷歌首先在办公车间环境中训练了 13 个机器人 17 个月,并将生成的数据加载到基于大型语言模型的可视化语言模型 (VLM) 中,从而产生了可视化语言操作 (VLA) 模型,即 RT-2。
如果 SORA 可以加载到 RT-2 中,那么它可能不需要在物理办公环境中接受 17 个月的培训。 Sora的视觉生成功能可以根据现有的场景状态生成下一帧,也就是接下来可能发生的事情,以便智能体提前做好准备。
当然,Sora 和 V-Jepa 目前都不是足够稳定的发电机或发电机。 V-Jepa没有展示它生成的**,OpenAI也在**中承认,SORA生成的**并不完美,它仍然会生成不符合物理定律的图片,例如,在生成的**中,一个人咬了一块饼干却没有留下咬痕,一个人在跑步机上向相反的方向奔跑, 并且杯子打翻后杯子的方向没有改变,杯子里的液体先流出来......然而,在成功生成的**中,3D空间中的物体和场景已经随着摄像机的移动而发生了变化。 这是 Runway 和 Pika 都无法做到的事情。