北京时间2月16日凌晨,OpenAI发布了首款文盛**型号SORA。 该模型可以根据用户的输入文本提示描述生成一段 60 秒的内容。
近3天来,OpenAI和Sora占据了AI行业话题的中心,无论是AI工具的用户,还是马斯克、杨丽坤、周弘毅等科技巨头,都纷纷表达了自己的观点。 马斯克说“人类愿意赌输”; 周弘毅预测,“AGI的实现将从10年缩短到1年”。
OpenAI 首席执行官 SAM Altman 在社交平台 X 上积极与网友互动,也借此机会开始招聘:“OpenAI 是我在一个地方遇到的最有才华、最友善的一群人,致力于解决最困难、最有趣和最重要的问题,所有关键资源都到位,非常专注于构建 AGI(通用人工智能), 你也许应该考虑加入我们。 ”
业内人士怎么看?
2023年,文盛图和AI对话如火如荼,进展速度肉眼可见,但文盛**就像是AI慢慢开发的“金矿”,Runway、PIKA等创业公司纷纷浮出水面。 直到 2024 年初,OpenAI 发布了 SORA,并展示了 SORA 生成的多个 **,碾压了行业目前平均“4S”的 ** 代长,将生成质量提升到更高的水平。
在官方演示**中,Sora 可以直接输出多角色、多场景、多镜头移动的图片。 例如,一个提示是这样的:镜头走过东京繁华的街道,跟随几个人享受雪景和购物。 在Sora生成的**中,镜头从天空中的雪花中俯冲下来,跟随一对手牵着手穿过日式街道的情侣。
另一个例子是对东京街头一位时髦、时尚的女士的描述,充满了温暖的霓虹灯和充满活力的城市标志。
在Sora生成的**中,女士穿着黑色皮衣和红色裙子走在霓虹灯街道上,不仅主体连贯稳定,而且有多重镜头,包括从街景到女士面部表情的特写,以及霓虹灯反射在湿漉漉的街道地板上的光影效果。
*发布后,网友们在全世界的社交**上用无数种语言感叹:现实已不复存在。 行业大佬们从不同角度分析和评估SORA的。
马斯克在社交平台X上留言,如“人类甘愿赌输”、“人类会借助AI创造优秀作品”; 人工智能行业参与者之一Runway的联合创始人兼首席执行官克里斯托瓦尔·瓦伦苏埃拉(Cristobal Valenzuela)表示,过去需要一年的进步已经变成了几个月的问题,然后是几天和几个小时。
据**报道,出门问问创始人在朋友圈感叹道:“LLM ChatGPT是虚拟思维世界的模拟器,而基于LLM的**生成模型SORA是物理世界的模拟器,物理世界和虚拟世界都已经建模和模拟了,什么是现实? ”
此外,宏博股份副总裁、英博数码CEO周薇薇也分析了朋友圈里最让她感动的**,并称赞“从艺术的角度来看,空显然知道如何区分和合理搭配各种蒙太奇,意识流.......”从技术角度来看,这确实是......如此快速地完成稳定而复杂的 RTX”
她还直言不讳地表示,在AI时代,一步快,一步快,先发优势壁垒远超互联网时代,“赶超还是弯道超车? 过去很多骄傲的综合人才在强AI面前显得那么斑驳无力,与其当场叹息,不如向游戏低头,至少做一个精通工具的合格工具人。 ”
360集团创始人周弘毅在Sora发布后迅速发长微博和**,预测Sora可能会给广告行业、电影预告片、短**行业带来巨大的颠覆,但可能不会那么快击败TikTok,更有可能成为TikTok的创意工具。
他认为,大型语言模型的力量在于它们能够充分理解世界的知识。 以前,所有的文盛图和文生**都是在二维平面上的图形元素上操作的,不应用物理定律。
这一次,很多人从技术角度和产品体验来分析SORA时,强调它可以输出60秒**,保持多个镜头的一致性,模拟自然世界和物理定律,其实比较肤浅。 最重要的是,Sora的技术思维完全不同。 在SORA制作的**中,它可以像人类一样理解坦克具有巨大的冲击力,坦克可以撞车而不撞车。”
周弘毅认为,这也代表了未来的方向。 基于对人类语言的理解、人类知识和世界模型以及许多其他技术,我们可以创造各个领域的超级工具。 此外,SORA的出现可能意味着AGI的实施时间将从10年缩短到1年。
总部位于旧金山的早期投资人扎克·库科夫(Zak Kukoff)**,一个不到五人的团队,将利用文生模式和非工会劳工制作一部五年内票房收入超过5000万美元的电影。 很多国内AI创作者也在想象,一部由AI制作的电影会尽快到来。
OpenAI详细讲解技术突破点
SORA的出现,让文字变成了一场盛宴,除了震撼之外,相关技术也备受关注。
英伟达(Nvidia)高级科学家吉姆·范(Jim Fan)在X上表示,他看到了一些强烈的反对意见:“Sora不是在学习物理,它只是在2D中操纵像素。 Jim Fan说他不同意这种还原论的观点。
然后,他发帖说,SORA是一个数据驱动的物理引擎,可以模拟许多世界,包括真实的和幻想的。 “模拟器通过一些去噪和梯度数学来学习复杂的渲染、'直观'的物理、长期推理和语义基础知识。 ”
纽约大学助理教授谢森宁发表了多条分析SORA的推文,推测SORA是建立在扩散变压器模型之上的,整个SORA模型可能有30亿个参数。
当大家都在分析SORA在现有信息中的技术成就时,OpenAI却一反常态,公布了相关技术
我们探索了使用**数据来大规模训练生成模型。 具体来说,我们共同训练了一个扩散模型,其中文本作为**的输入,以及不同持续时间、分辨率和纵横比的图像。 我们引入了一种 transformer 架构,该架构对时空序列包和图像的潜在编码进行操作。 我们最先进的模型 Sora 已经能够产生长达一分钟的高保真度,这标志着生成领域的重大突破。
我们的研究结果表明,通过扩大生成模型的规模,我们有望构建可以模拟物理世界的通用模拟器,这无疑是一条很有前途的发展道路。 ”
本技术报告主要关注两个方面:第一,它详细介绍了一种将各种类型的视觉数据转换为统一表示的方法,从而实现生成模型的大规模训练; 其次,对SORA的能力及其局限性进行了深入的定性评估。
需要注意的是,本报告未涵盖该模型的具体技术细节。
此外,OpenAI还公开承认了SORA的一些缺陷:可能难以呈现复杂的物理变化,无法理解因果关系,以及令人困惑的空间细节。
例如,在演示**中,“五只灰狼幼崽在偏僻的碎石路上嬉戏追逐”,狼群数量会发生变化,有些会凭空出现或消失。
SORA目前被描述为研究的早期阶段,不打算供公众使用,因为该公司担心深度伪造的滥用**。 现在只有一部分视觉艺术家、设计师和电影制作人有内部试用机会。 许多业内人士,包括一些影视行业从业者,都表达了对全面开放之日的期待。
合成自OpenAI、21世纪经济报道社、X平台等。