视觉中国。
文本 |AI Blue Media, 作者 |陶然,编者魏潇.SORA** 模型的发布,几乎是一年半前 GPT-3 首次亮相时 AI 圈的盛大场面的翻版:
它突然出现,引起了激烈的讨论和广泛的震惊。
北京时间2月16日,在没有任何消息泄露或事先通知的情况下,OpenAI在社交平台X(原Twitter)上发文,首次公布了一款名为Sora的文生**AI模型。
“介绍sora,我们的文本到视频模型”这句话简短明了,与其说是宣传,不如说是通知:是的,我们又拉出了大的。
接下来介绍了SORA模型的功能:SORA可以创建长达60秒的场景,复杂的摄像机运动以及充满活力,情感丰富的角色。
附上演示案例的提示:美丽的白雪皑皑的东京市熙熙攘攘。 镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。 美丽的樱花花瓣随风飘扬,雪花飘扬。
说到SORA,行业并不统一:
有些人是 100% 批准的,有些人是 % 批准的。
360创始人周弘毅表示,SORA意味着通用人工智能的实现时间可以从10年缩短到1年,模型不仅展示了做出最佳生产的能力,还表明了大模型对现实世界有了理解和模拟后, 它将带来新的成果和突破。
NVIDIA AI 研究所首席研究科学家 Jim Fan 将 SORA 称为生成世界的 GPT-3 时刻:SORA 是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”。
上网密集,一向直言不讳的马斯克,直接打了gg人(人输了)。
不去探究后续影响是正面还是负面,OpenAI能够为AI、影视、社交媒体等行业带来颠覆性和划时代的意义。
比如,一群工程师还在讨论如何进一步完善登月计划,OpenAI的团队已经从火星发回了一批**——他们总是领先一个版本,为什么?
NVIDIA AI 研究所的科学家 Jim Fan 从技术角度评论了 SORA:他将 SORA 定义为物理引擎和世界模型。 在传统意义上,图片是二维的,而人们生活的物理世界是三维的。
这就成为了AI模型设计之初的概念差异:在生成过程中,AI的作用应该是拆分和组合多个片段,还是应该作为主体来构建和记录一个虚拟的AI空间。
OpenAI的选择是后者。
在其网站上发布的SORA技术报告中,有一句话值得注意:“我们的结果表明,能够模拟物理世界动力学的通用模拟器的开发是一条很有前途的途径,具有前所未有的准确性和真实性。 ”
做个肤浅的理解,SORA不是编辑器**,而是在生成之前先建模一个空间,然后就变成一个镜头来记录这个立体的虚拟空间。
立体建模可以提供比平面图更多的信息在设计思路上,OpenAI领先一个维度,或者说提前一个版本。
当然,更多的信息意味着更大的数据流,在有限的算力内跑出更好的结果,在保证效果的前提下尽可能地节省算力,本质上是同一个问题:AI计算效率。
但对于 OpenAI 来说,可以从这些问题中吸取教训从ChatGPT到GPT-4等项目的技术积累,成为OpenAI构建SORA模型的良好基础。
受大语言模型成功案例的启发,OpenAI在探索第一个模型时,正在思考“如何获得类似的好处”:在大模型的运行过程中,token(词汇单元)作为自然语言处理任务中最小的文本单元,承载着输入信息的作用,帮助模型处理和理解文本。 ChatGPT将**、数学和各种不同的自然语言拆分为代币,然后交给模型对代币进行处理和理解,通过学习代币之间的关系,可以获得更多的语义信息。
同样,在**生成模型中,OpenAI也创建了与Token对应的数据单元“patch”(图像单元),并将图形语言转换为相应格式的补丁进行计算,在保证模型可扩展性的同时,大大提高了单元算力的计算效率。
在模型的前端,OpenAI 也运用了自己在 GPT 系列模型中的成果:
与文本对话类似,在培养文人的过程中,除了物质案例外,还需要大量相应的文本描述。 OpenAI 采用了最初在 DALL·E 3,并使用高度描述性的标题生成器为训练集中的**材料生成文本描述。结果还证明,在制作过程中为素材添加额外的注释可以提高整体质量,包括准确性。
此外,遵循DALL·E 3,OpenAI还使用GPT对用户输入的简短提示词进行扩展,使AI更容易理解,并将用户输入的文本展开为更长更详细的描述,然后由**生成模型进行处理。
对于像OpenAI这样的技术驱动型公司来说,经验和技术的积累是一种加速,可以遵循的成功经验和团队自己对AI概念的领先理解,让OpenAI始终可以站在自己的肩膀上,或者推动自己加速前进。
比技术领导力更可怕的,或者更值得朋友关注的是,这种领导力往往会一步一步地变成惯性。 预计通过加速追赶和对标,跟上OpenAI的步伐,在配套设施日趋成熟的阶段,难度可能只会增加。 真正的增量仍然在于顶层设计的创新。 因此,与其说是AI挤出了人们的创新空间,不如说是AI提高了有效创新的门槛:设计AI,或者说可以超越AI创意的设计,是大模型时代的有效增量。