Jim Fan 对 Sora 的评论:
如果有一个超出我们知识范围的存在编写了我们现实世界的模拟**,我们甚至可以尝试估计该程序的编译二进制文件的大小。 以 Meta AI 开发的鸸鹋视频为例,它有 60 亿个参数。 假设有一个名为 SORA 的系统,其大小是 EMU Video 的 10 倍,并且使用 Bfloat16 格式,那么这个“创建者”的程序大小可能不会超过 111GB。
但这里有几点需要注意:
事实上,这样的**可能比我们设想的SORA系统要简单得多,因为SORA距离达到kolmogorov复杂度(一种测量对象信息量的方法,代表最短的无损压缩数据长度)还有很长的路要走;
SORA系统不仅旨在模拟我们所知道的世界,而且能够涵盖所有可能的世界。 换句话说,我们所经历的现实只是SORA能够模拟的众多可能性之一;
就像在游戏设计中一样,在使用虚幻引擎 5 创建逼真的场景时,你不需要渲染每个细节,而且我们物理世界的某些部分实际上可能并不存在,直到我们看到它。
研究人员的解释:
1)效果:远超以往所有文盛**方案,几乎两代改进,贴近消费工业生产的需要。内容60s的长度远远超过了之前文盛**的10s长度,达到了短**流行款的长度; 极其稳定的镜头; 该模型不仅能理解用户在提示中提出的要求,还能理解这些东西在物理世界中是如何存在的,并实现了大量的物理交互(不仅能生成一个饱满流畅的行走和划艇,甚至可以生成一只非常逼真的猫踩在熟睡的人身上, 而船在海浪中旋转,接近物理世界),其他握手和拥抱都不太好。2)能力提升的根本原因:**尚未发布,OpenAI认为SORA作为扩散模型的能力提升来自于更多**(甚至可能拥有3D)作为训练集,准确深入的语言理解能力,以及世界构建能力。从研究人员的角度来看,真正开发SORA的人只有三个人,其余的都是支持工作,我认为最大的改进可能来自三个主要方面:
扩散变压器架构。
有可能通过UE5、Unity、Nerf等生成了大量的合成数据作为训练集。
大型语言模型的改进能力(OpenAI表示,它正在教人工智能理解和模拟运动中的物理世界,目的是训练可以帮助人们解决需要现实世界交互的问题的模型)。
3)目前商业化进展:OpenAI尚未公开开放SORA权限,称SORA目前只是研究项目的开始,CEO阿尔特曼在Twitter上邀请留言生成**演示能力,并表示OpenAI一直在与安全测试机构、电影和**创作者合作,以改进产品。我认为它将在 6 个月内商业化并正式发布。 4)未来市场展望:2000亿美元的空头市场,3D、游戏、商业拍摄、特效、IP转换等内容创作工作流程有望被颠覆,可以提升用户体验,大大降低用户门槛,大大降低创作成本,大大拓展创作者能力的边界。我看到了下一个拥有 1 亿用户的超级应用程序的原型。
转过来,我连续参加了几次小会议,也谈过索拉。 从长期跟踪的角度来看,首先是迭代速度太快。 现在 GPT5 还没出来(在赋能内存的过程中),SORA 先出来了,有理由推测是类似量级的产品,未来 3-6 个月可以看到更多。
二是对我们来说,在这种大力创造奇迹的模式跑完之后,硅谷将进入一个更加狂热的算力军备。 从简报来看,奥特曼的7万亿刀,就算落地10%,也是23年内整个AI投入的两倍。 现在英伟达也准备砸钱了,软硬件、英特尔等也准备跟进。 如果大家都这样玩,创造奇迹,那么相比之下,我们的算力就更短了,不是因为没有钱,而是因为钱买不到算力。
许多人目光短浅,认为SORA只是改变了电影媒体,不值得害怕。 不,是虚拟与现实之间的界限消失了。 这是已经出来的加特纳曲线。 昨天,一位做工业设计的朋友说,他管理着60多人,如果商业用途到位,其中至少有三分之一的人会失去工作。
会议纪要**:温八沽研究]小程序
随便投射到生活中,你教育你的儿子,说你学习不好,以后会捡瓶子。 你的儿子可以看到他已经 30 岁了,正在捡瓶子。 你舔狗说,今天我们去世界坐过山车,去国贸中心买东西,去北京看夜景,她都看得见。 你告诉我这只是电影业的问题吗?
你说的就是你所看到的,这不就是所有人类文明都被骗过的谚语的力量吗?
关键是要快速迭代,在快速迭代的基础上,我们也要大力发挥,创造奇迹。 然后我们拿了钱,却拿不到卡。 这一代拿不来,库存有点,临时能赶上35。但是下一代卡呢?
马斯克也很紧张,他说他FSD有很多数据,从事SORA功能是可以的。 这确实是真的,从数据的角度来看,你**一个行车数据,是沿途100公里的模型,而且是一个真实的场景。 有建筑物、道路、汽车和红绿灯。 当然,可惜他只有视觉和毫米波,如果他能加一个激光雷达,那么馈送这些数据的效果会更好。 人工智能将使物理感知变得更容易。
这些数据也可供我们的车企使用,但问题是马斯克不仅购买芯片,而且还自己动手。 即使 XAI 在短时间内跟不上 OpenAI,也至少有能力保持代沟。 我们的车企不是说他们没有太强的融资能力,就算赚了钱,也拿不到算力。 这个时候,车企还是和大厂合作就好了,至少大厂有钱,手里能挤出一些算力。
它与**无关,没有什么可以映射这波浪潮。 当你去媒体时,你居然嘀咕,它真的是负面的吗? 如果你去光模块什么的,你怕别人会倒给你。 所以它与**无关。 只是焦虑而已,算力基础的焦虑确实导致了这样一个事实,即无论我们多么聪明,我们也缺乏大力创造奇迹的同等基本条件。
这两天,这个我谈了很多,真的和**没什么关系,一天也不值得说**。
是焦虑,我深深地感受到了用算盘敲原子弹的祖先的感受。 好不容易钻出了工业生产能力的老鼠洞,钻了出来,想着眼前没有老鼠洞。 嘿,又一个。 没有好的办法,先进的工艺落后了十年,AI以前还不错,但现在已经拉走了3年左右。 未来5年整体水差能否维持? 我不知道,但我只能继续钻,没有好的办法,但我想钻得更快。
会议纪要**:温八沽研究]小程序