视觉中国。
文本 |Light Cone Intelligence, 作者 |郝新,王亦素、刘雨琪主编。2024 年初,OpenAI 向世界投下了另一颗 AI 炸弹——*生成模型 Sora。
就像一年前的ChatGPT一样,SORA被认为是AGI(通用人工智能)的另一个里程碑时刻。
SORA意味着AGI的实现将从10年缩短到1年“,360董事长周弘毅预测。
但这个模型之所以如此耸人听闻,不仅仅是因为 AI 一代需要更长的时间和更高的清晰度,而且 OpenAI 已经超越了之前所有 AIGC 的能力,并生成了与现实世界相关的内容。
荒谬的赛博朋克很酷,但正是人工智能让现实世界中的一切都变得更有意义。
为此,OpenAI提出了一个全新的概念——世界模拟器
在OpenAI官方发布的技术报告中,SORA定位为:“生成模型作为世界的模拟器”,“我们的结果表明,扩展生成模型是构建物理世界通用模拟器的可行方法。 ”
资料来源:OpenAI官网)。
OpenAI认为SORA为能够理解和模拟真实世界的模型奠定了基础,这将是实现AGI的一个重要里程碑。至此,在ai**赛道上与Runway、PIKA等公司完全拉开了距离。
从文字(chatgpt)到**(dall·e)再到**(sora),对于OpenAI来说,它似乎在一块一块地收集拼图,试图通过图像媒体的形式彻底打破虚拟与现实的界限,成为电影的“头号玩家”。
如果说苹果的Vision Pro是硬件的化身表现,那么一个能够自动构建最佳虚拟世界的AI系统就是灵魂。
语言模型近似于人脑,模型近似于物理世界,“爱丁堡大学博士生姚傅说。
OpenAI的野心出乎所有人的想象,但似乎是唯一能做到的“,多位AI创业者向Light Cone Intelligence感叹道。
OpenAI 新发布的 SORA 模型在 2024 年打开了 AI** 赛道的大门,在 2023 年之前完全与旧世界划清了界限。
在一口气发布的48个Demo中,Light Cone Intelligence发现,过去被AI诟病的问题,大部分都得到了解决:生成画面更清晰、生成效果更逼真、理解能力更准确、逻辑理解能力更流畅、生成结果更稳定一致等等。
但这一切只是OpenAI所揭示的冰山一角因为OpenAI从一开始就瞄准的不是**,而是所有存在的图像。
图像是一个更大的概念,是它的一个子集,例如在街上滚动的大屏幕、游戏世界的虚拟集合等。 OpenAI想要做的,就是以**为切入点,覆盖所有图像,模拟和理解现实世界,也就是它所强调的“世界模拟器”的概念。
正如AI电影《山海仙境》和行贤文化的制片人陈坤告诉光锥智能,“OpenAI正在向我们展示它在质量方面的能力,但真正的目的是获取人们的反馈数据,探索人们想要生成的东西。 就像大规模模型训练一样,工具一旦打开,就相当于全世界的人都在为它工作,通过不断的标注和输入,世界模型变得越来越智能。 ”
所以我们看到,人工智能成为理解物理世界的第一阶段,主要突出其作为“生成模型”的属性; 只有在第二阶段,它才能提供作为“世界模拟器”的价值。
把握SORA的“**生成”属性的核心,就是要找到差异也就是说,SORA与Runway和PIKA的区别体现在**? 这个问题至关重要,因为它在某种程度上解释了为什么 Sora 能够粉碎。
首先,OpenAI 遵循训练大型语言模型的想法使用大规模可视化数据来训练具有通用功能的生成模型。
这与文盛**领域“专人”的逻辑完全不同。 去年,Runway 也有类似的计划,它称之为“环球世界模式”,有着类似的想法,但没有后续,而这次 Sora 是第一个实现 Runway 梦想的人。
据纽约大学助理教授谢赛宁介绍,SORA参数的数量在30亿左右,与GPT模型相比微不足道,但这个数量级已经远远超过了Runway、Pika等一些公司,堪称降维打击。
万兴科技AI创新中心总经理齐伯全表示,SORA的成功再次验证了“大力创造奇迹”的可能性,“SORA依旧遵循OpenAI的扩容规律,依靠大力奇迹、海量数据、大模型、海量算力。 SORA底层采用在游戏、无人驾驶、机器人等领域验证的世界模型,构建文盛**模型,实现模拟世界的能力。 ”
其次,SORA首次展示了扩散模型和大模型功能的完美集成。
AI**就像一部大片,取决于两个重要元素:剧本和特效。 其中,剧本对应AI**生成过程中的“逻辑”,特效对应“效果”。 为了实现“逻辑”和“效果”,区分了两种技术路径扩散模型和大模型。
去年年底,光锥智能预测,为了同时满足效果和逻辑,扩散和大模型两条路线最终会融合。 没想到,OpenAI这么快就解决了这个问题。
资料来源:OpenAI官网)。
OpenAI 的技术报告强调了以下内容:“我们将各种类型的视觉数据转换为统一的表示,可用于生成大规模的模型训练。 ”
具体来说,OpenAI将屏幕的每一帧编码成视觉补丁,每个补丁类似于GPT中的一个令牌,成为图像中最小的测量单位,可以随时随地被打破和重新组装。 找到统一数据的方法,统一度量衡,并在扩散模型和大模型之间找到桥梁。
在整个生成过程中,扩散模型仍然负责产生效果的部分,并且在加入大型模型变压器的注意力机制后,有更多的生成**和推理能力,这就解释了为什么SORA可以从现有的获取的静态图像中生成**,也可以扩展现有的**或填补缺失的图片帧。
到目前为止,第一个模型已经呈现出复利的趋势,在模型向集成迈进的同时,技术也在向复利迈进。
将之前沉淀的技术积累应用到视觉模型中也成为 OpenAI 的优势。 在SORA Wensheng**的训练过程中,OpenAI引入了DALL-E3和GPT的语言理解能力。 根据 OpenAI 的说法,基于 DALL-E3 和 GPT 的训练使 Sora 能够根据用户提示准确生成高质量的**。
一组组合拳,结果是模拟能力的出现,这构成了“世界模拟器”的基础。
我们发现,模型在大规模训练时会表现出许多有趣的新兴功能。 这些能力使 sora能够模拟人、动物和环境的物理世界的某些方面。 这些特性的出现不会对三维、物体等产生任何明显的感应偏差- 它们纯粹是一种规模现象,“OpenAI 说。
仿真之所以能如此爆炸的根本原因,是因为人们习惯于用大模型来创造不存在的东西,但是却能准确地理解物理世界的逻辑,比如力是如何相互作用的,摩擦是如何产生的,篮球是如何打抛物线的等等,这些都是以前的模型都无法完成的事情, 这也是SORA超越第一代层次的根本意义。
然而,从演示到实际的成品,它可能是一个惊喜或恐惧。 Meta首席科学家杨丽坤直接质问Sora,他说:“仅仅能够根据提示生成逼真的**,并不意味着系统真的理解了物理世界。 与基于世界的因果模型**不同,生成模型只需要从可能性空间中找到一个合理的样本,而不需要理解和模拟现实世界的因果关系。 ”
齐伯全还表示,虽然OpenAI已经验证了基于世界模型的文盛**大模型是可行的,但在物理交互的准确性上也存在困难,虽然SORA可以模拟一些基本的物理交互,但在处理更复杂的物理现象时可能会遇到困难;在处理长期依赖关系方面存在挑战,即如何及时保持一致性和逻辑性;空间细节的准确性,如果对空间细节的处理不够准确,可能会影响内容的准确性和可信度。
Sora成为世界模拟器可能已经过了很长一段时间,但就世代而言,它已经对现在的世界产生了影响。
第一种是解决以往技术无法突破的问题,推动一些行业进入新阶段。
最典型的是影视制作行业,而索拉这次最具革命性的能力,就是最大世代**时长达到了1分钟。 作为参考,流行的PIKA的长度为3秒,而Gen-2的跑道长度为18秒,这意味着有了SORA,AI将能够成为真正的生产力,并实现成本降低和效率提升。
陈坤告诉光锥情报,在SORA诞生之前,使用AI工具制作科幻电影的成本已经降到了一半,而SORA落地后,更值得期待。
Sora上映后,给他印象最深的是海豚骑自行车的演示。 在那个**中,上半身是海豚,下半身是两条腿的人,腿上也穿着鞋子。
这对我们来说简直太棒了! 这幅画营造出一种有想象空间、符合物理定律的荒诞感,既合理又出乎意料,这就是观众可以惊叹的影视作品,“陈坤说。
陈坤认为Sora将像当年的智能手机和抖音一样,将所有内容创作者的门槛降低一大步,将内容创作者放大一个数量级。
未来,内容创作者可能不需要拍摄,只需要说一段或一段,就能在脑海中表达自己独特的想法,就能被更多的人看到。 到时候,我觉得可能会有一个比抖音更大的新平台。 也许下一步是Sora能够理解每个人的潜意识想法,并自动生成和创建内容,而无需用户主动寻求表达,“Chen说。
在同一个行业里,也有游戏,OpenAI技术报告以一款Minecraft游戏**结尾,旁边有一句话:“Sora可以用基本策略同时控制Minecraft中的玩家,同时以高保真度呈现世界及其动态。 只需在 Sora 的工具提示中提及“我的世界”,即可在零距离激活这些功能。 ”
AI游戏创业者陈习告诉我们,“任何一个游戏从业者看到这句话,都惊出一身冷汗! OpenAI毫无保留地展示了它的雄心壮志。 陈习解读分析,短句传达了两件事:Sora在渲染游戏环境时控制游戏角色。 “正如OpenAI所说,SORA是一个模拟器,一个游戏引擎,也是想象力和现实世界之间的接口。 在未来的游戏中,只要你能说出来,画面就会被渲染出来。 Sora 现在已经学会了构建一个一分钟的世界并生成稳定的角色,并且通过他的 GPT-5,一张纯 AI 生成的数千平方公里活跃生物的地图听起来并不异想天开。 当然,屏幕能否实时生成,是否支持多人在线,是一个非常现实的问题。 但无论如何,一种新的游戏模式已经出现,至少与Sora一起生成“我被美少女包围”变得没有问题,“Chen说。
第二类是基于模拟世界和在更多领域创造新事物的能力。
爱丁堡大学(University of Edinburgh)的博士生姚傅(Yao Fu)说:“生成模型学习生成数据的算法,而不是记住数据本身。 正如语言模型对生成语言的算法(在大脑中)进行编码一样,该模型对生成流的物理引擎进行编码。 语言模型可以被认为是人脑的近似值,而模型是物理世界的近似值。 ”
学习了物理世界的普遍规律,使具身智能也更接近人类智能。
例如,在机器人领域,之前的传导过程是先给机器人大脑一个握手指令,然后再传递给手,但由于机器人无法真正理解“握手”的含义,只能将指令转化为“手的直径减小多少厘米”。 如果世界模拟器成为现实,机器人可以直接跳过指令转换的过程,一步到位地了解人类指令需求。
跨维度智能创始人、华南理工大学教授贾奎告诉光锥智能,未来显式物理仿真或将应用于机器人领域,“SORA的物理仿真是隐含的,它展现了只有其内部对物理世界的理解和模拟才能产生的效果。 ”
SORA功能仍然通过海量数据以及字幕重写技术来实现,甚至没有3D显式建模,更不用说物理模拟了。 虽然产生的效果接近通过物理模拟实现的效果。 但是,物理引擎可以做的不仅仅是生成,还有很多其他元素必须在那里训练机器人,“Jaqua说。
虽然SORA仍然存在许多局限性,但在虚拟世界和现实世界之间已经建立了联系,这使得游戏玩家的头号虚拟世界和机器人都更像人类成为可能。
更多精彩内容,关注titanium***id:taimeiti),或**titanium**app