**:IT之家。
扭曲的翅膀,错误的数字,鹦鹉尾巴跑向猴子......作者 |连然.
编辑 |郑轩.
一只鹦鹉飞过青翠的哥斯达黎加丛林,然后降落在树枝上与一群猴子一起吃一块水果的鸟瞰图; **周期,35mm胶片。 这是彭博社给 OpenAI 研究人员的提示词,他们用它来创建 Sora 上的场景。
23日,彭博社联系OpenAI测试SORA测试,从结果来看,SORA还没有达到**期。
在给出的四个提示中,由于时间限制,SORA团队只生成了其中两个。
问题出现了。
在只有10秒时长的**中,一只鹦鹉在丛林中飞翔,乍一看很正常,但仔细观察就会发现,鹦鹉的翅膀在飞过猴子时会扭动,提示要求一只鹦鹉,但是在SORA的**输出中却有好几只, 其中一只猴子的臀部似乎有一条鹦鹉的尾巴。这样看,似乎有点翻车。
对此,OpenAI研究科学家比尔·皮布尔斯(Bill Peebles)也向彭博社坦言,他确实会在片段中发现一些奇怪的动作
在 The Verge 捕捉并发布在 TikTok 上的 Sora 生成的**片段中,我们也可以看到一些非理性的情况,包括物体相互穿行和变形,这反映了 Sora 无法准确理解和呈现物体的物理特征:篮球穿过篮筐侧面,狗狗在走路时相互穿过, 而且手的形状有点奇怪。
篮球穿过篮筐的侧面**tiktok
狗狗边走边擦肩而过**TikTok YouTube 上也有博主更详细地分析了 Sora 输出中的问题,与 The Verge 所展示的类似,除了狗狗似乎穿过对方身体的**,在柯基犬视频博客中,一只海鸥在镜头前飞翔却突然消失了, 然后另一个出现在图片中,以一种奇怪的方式行走;在建筑工地的**中,叉车似乎能够轻松通过,而不会受到周围物体的影响。 还有一个生日派对场景,参与者的表情和动作看起来难以形容的怪异。
看来,虽然SORA可以生成出色的**,但当场景复杂时,它可能会给出一些与现实生活场景不符的动作。 OpenAI 官员还表示,SORA 还有很长的路要走,有很多技术挑战需要解决——包括前面提到的身体部位的混乱和对物理学的理解水平。
OpenAI在SORA的技术报告中指出,SORA在模拟现实世界作为领先的生成模型时面临一系列挑战和限制。 具体而言,SORA在技术层面存在以下主要限制:
物理相互作用的准确性:SORA在模拟一些基本的物理相互作用方面存在缺点,例如无法准确模拟碎玻璃等物理现象。
对象状态变化的一致性:在模拟进食等交互时,SORA 可能无法在对象状态中产生正确的变化,从而导致视觉效果不连贯。
长期样本的一致性:在较长的时间内生成样本时,SORA可能存在相干性问题,导致对象出现不自然的过渡或突然变化。
物体的自发出现:SORA有时会在**中自发地生成可能与场景不匹配或逻辑上不合理的物体。
手和身体部位的处理:SORA在处理手和身体部位方面存在问题,例如可能行为不自然或与其他物体不切实际互动的手。
计算资源要求:生成 SORA 需要更多的计算资源和时间,这限制了其在实时或快速响应场景中的使用。
模型的泛化能力:尽管SORA在某些特定场景中表现出色,但在泛化到新场景和处理各种输入方面可能还有很多不足之处。
编辑和扩展能力:虽然 SORA 能够执行某些编辑任务,例如扩展或更改场景设置,但这些功能在复杂场景中可能表现不佳。
由于上述技术限制,在给外界先睹为快之后,Sora的短暂翻车似乎也不足为奇。
作为文本到**模型,SORA使用Diffusion Transformer技术(包括特征提取、编码和序列组合等多个步骤)。
与大模型处理文本的原理类似,SORA将内容分解成一系列类似于视觉词汇的补丁(视觉编码块),然后降低这些补丁的维度,以便于分析和理解。 换句话说,SORA的训练过程类似于人类认知的过程,这使得它能够大大优化生成的有效性。
随着技术的突破,问题将得到解决。 对于正在快速推出新产品的 OpenAI 来说,这应该不需要很长时间。
微信***Geekpark(ID:geekpark),作者:连然。
广告声明:正文中包含的外部跳转链接(包括但不限于超链接、**密码等)用于传达更多信息和节省选择时间,结果仅供参考,IT之家所有文章均包含本声明。