关于已知和未知的索拉

2 月 16 日，OpenAI 发布了 60 秒**的多个人工智能作品，首次向世界展示了 OpenAI 的文本转**工具 SORA 的结果。它以日语中的“天空”一词命名，意思是“无限的创造潜力”。

文本到**的 AI 工具并不是全新的。 Runway 发布的 Runway Gen-1 和 Gen-2、Google 的 Imagen Video 和 Phenaki、Meta 的 Make a Video 以及类似的 AI 文本到图像转换工具并不少见。

以前的大多数工具都需要逐帧生产每张纸，然后将它们连接在一起。这种技术的缺点是，虽然每个**之间可能共享相同的关键字，但可能会造成非常不同的生成结果，因此生成的**的长度受到严格限制，一旦过长，就可能导致**字符变色或其他不连贯的问题。

与上述工具相比，SORA的主要优势在于它代表了长度和一致性的重大突破。根据OpenAI发布的技术文档和一些专家的解释，SORA采用的“时空补丁”技术，允许其在阅读文本需求后，将预定的**切割成多个具有时空信息的小部分，并分别生成。

OpenAI 技术论文中“时空修补”技术的示意图。

这使得SORA能够以更精细的方式确保一致性，并大大丰富其中的细节。在SORA发布的模拟中，这种连贯性的好处包括更好地模拟角色与环境之间的简单交互，向前和向后扩展，以及将两者融合成一个连贯形式的能力。

除此之外，SORA在物理建模和构图方面表现更好。与以往将输入图像裁剪为固定格式的工具不同，SORA可以直接以原始比例和分辨率生成图像，这意味着SORA可以更好地掌握主要内容，并从不同角度模拟同一物体的动作。

OpenAI 发布的一个演示的截图，并附有相应的说明“美丽的锡拉丘兹市东京熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，并在附近的摊位购物。美丽的樱花花瓣在雪花的风中飘扬”。

但当外界惊呼它的能力时，仍然有很多未知数。例如，目前尚不确定 Sora 是否会支持英语以外的语言，或者何时会向更多人开放。目前只有一小部分“视觉艺术家、设计师和电影制作人”以及特定的安全测试人员被授予访问权限。

官网上的技术文档只简单解释了该技术的一般原理，提到了使用GPT和Dalle-3等以前的技术进行文本分析，但没有像GPT-3那样在**中发布训练集和模型结构。

这种保密性似乎已经成为大公司最近发布大模型新版本的标准动作。谷歌在发布 Sora 的同一天推出了 Gemini 15 升级版，也为一小群开发人员和企业客户提供有限预览版。斯坦福大学基础模型中心（Center for Foundational Models）对十个主要人工智能模型的分析显示，没有一个主要的基础模型开发人员提供足够的透明度。

OpenAI 对不发布工具的解释和更多细节是，它还需要减少生成的 ** 中的错误信息、仇恨内容和偏见，并且所有生成的 ** 都有水印，但水印也可以去除。鉴于短期已经可以对政治产生重大影响，人工智能行业的监管压力将比以往任何时候都高。（实习生尚毅）。

关于已知和未知的索拉

相似文章

关于 Sora 的其他一些想法

燃烧的威尔和野乡村罗宾目前知道什么时尚装备

介绍 OpenAI 的 Sora

面对OpenAI的Sora技术颠覆，中国AI领域这些年发展了什么？

OpenAI 的 Sora 技术解释