2 月 16 日,OpenAI 发布了 60 秒**的多个人工智能作品,首次向世界展示了 OpenAI 的文本转**工具 SORA 的结果。 它以日语中的“天空”一词命名,意思是“无限的创造潜力”。
文本到**的 AI 工具并不是全新的。 Runway 发布的 Runway Gen-1 和 Gen-2、Google 的 Imagen Video 和 Phenaki、Meta 的 Make a Video 以及类似的 AI 文本到图像转换工具并不少见。
以前的大多数工具都需要逐帧生产每张纸,然后将它们连接在一起。 这种技术的缺点是,虽然每个**之间可能共享相同的关键字,但可能会造成非常不同的生成结果,因此生成的**的长度受到严格限制,一旦过长,就可能导致**字符变色或其他不连贯的问题。
与上述工具相比,SORA的主要优势在于它代表了长度和一致性的重大突破。 根据OpenAI发布的技术文档和一些专家的解释,SORA采用的“时空补丁”技术,允许其在阅读文本需求后,将预定的**切割成多个具有时空信息的小部分,并分别生成。
OpenAI 技术论文中“时空修补”技术的示意图。
这使得SORA能够以更精细的方式确保一致性,并大大丰富其中的细节。 在SORA发布的模拟中,这种连贯性的好处包括更好地模拟角色与环境之间的简单交互,向前和向后扩展,以及将两者融合成一个连贯形式的能力。
除此之外,SORA在物理建模和构图方面表现更好。 与以往将输入图像裁剪为固定格式的工具不同,SORA可以直接以原始比例和分辨率生成图像,这意味着SORA可以更好地掌握主要内容,并从不同角度模拟同一物体的动作。
OpenAI 发布的一个演示的截图,并附有相应的说明“美丽的锡拉丘兹市东京熙熙攘攘。 镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。 美丽的樱花花瓣在雪花的风中飘扬”。
但当外界惊呼它的能力时,仍然有很多未知数。 例如,目前尚不确定 Sora 是否会支持英语以外的语言,或者何时会向更多人开放。 目前只有一小部分“视觉艺术家、设计师和电影制作人”以及特定的安全测试人员被授予访问权限。
官网上的技术文档只简单解释了该技术的一般原理,提到了使用GPT和Dalle-3等以前的技术进行文本分析,但没有像GPT-3那样在**中发布训练集和模型结构。
纽约大学教授谢森宁指出,SORA可能使用了他和另一位研究人员开发的技术模型,也有理论认为SORA使用虚幻引擎5创建了一些训练数据。 OpenAI 一直拒绝透露系统学到了多少**或 ***,只是表明训练包括公共和版权所有者的许可。
这种保密性似乎已经成为大公司最近发布大模型新版本的标准动作。 谷歌在发布 Sora 的同一天推出了 Gemini 15 升级版,也为一小群开发人员和企业客户提供有限预览版。 斯坦福大学基础模型中心(Center for Foundational Models)对十个主要人工智能模型的分析显示,没有一个主要的基础模型开发人员提供足够的透明度。
OpenAI 对不发布工具的解释和更多细节是,它还需要减少生成的 ** 中的错误信息、仇恨内容和偏见,并且所有生成的 ** 都有水印,但水印也可以去除。 鉴于短期已经可以对政治产生重大影响,人工智能行业的监管压力将比以往任何时候都高。 (实习生尚毅)。