制作人 |老虎嗅探技术集团。
作者 |王一鹏.
页眉 |OpenAI官网,作者:Sora
2月16日凌晨,在没有任何预警和消息披露的情况下,OpenAI突然发布了首款文盛模型:SORA,大幅刷新了行业多项指标,重新定义了现阶段AI文盛的技术极限,颠覆了该领域生成式AI的全球市场格局。
使用Transformer架构,SORA建立在DALL·E 3 和 GPT 型号可生成长达一分钟的基于运动的多机位镜头**。与行业水平相比,SORA一次性将发电时间提高了15倍,直接超过了市场上所有短时间要求。
同时,Sora还具有世界模型的品质。 世界模型不是AI生成的必要元素,但它是该领域一个相对高端的研究方向。 所谓世界模型,简单来说,就是对真实的物理世界进行建模,让机器能够像人类一样对世界有一个全面而准确的理解。 与文本不同,它们大多描绘了主体在真实或想象的物理世界中的行为,因此世界模型将使AI生成更流畅、更合乎逻辑,降低模型的训练成本,提高训练效率。 同时,世界模型也为生成式人工智能真正进入自动驾驶行业铺平了道路。
这一次,SORA的世界模型已经能够帮助它还原越野车在山路上的行驶情况,增加一种接近现实的倾斜感和颠簸感。
*来自OpenAI官网,为SORA生成**,部分截图。
然而,Sora的世界模型仍然存在很多问题,例如饼干被咬了却没有留下咬痕。 OpenAI非常实用,并在其官方网站上写下了这些问题。
目前,SORA只对少数人开放进行封闭测试,据说是由视觉艺术家、设计师和电影制作人进行的。 同时,OpenAI仍在对模型的道德方面进行对抗性测试,例如错误信息、仇恨内容、偏见内容,至于色情暴力,在输入文本时会被拒绝。
对于SORA,我们今天必须注意一些明显的推论:
OpenAI狠狠地砸了大家的肚子:全球AI**一代赛道的投资逻辑,甚至相关企业的生存逻辑,都在这一刻发生了变化。 下个季度,如果公司发电能力仍卡在4s,否则将导致直接停电;
AI迅速走过了文生问和聊天机器人的时代,在世代领域大踏步前进:最火的短剧和短剧将迎来AI的到来; 那些陷入瓶颈的领域,如自动驾驶和智慧城市,可能会迎来突破。
不要过度神话 SORA 或其他 AI 生成的工具,仍然有大量的技术、产品和业务问题等待解决; 但不要低估AI技术的速度,它被冻结在未来,看不清,正在向我们迈进。
*来自OpenAI官网,为SORA生成**,部分截图。
索拉牛到底在哪里?
就在几年前,2024年1月27日,Tiger Sniff举办了一场关于AI生成的公开沙龙,会上有一个有趣的互动:AI生成会以多快的速度迎来中途时刻?
选项在六个月、一年、1-2 年或更长时间内。
在现场,每个选项都有自己的风扇但 OpenAI 今天宣布了确切的答案:20 天。
AI生成的真正难点在文生**,而不是土生**,生**。 奥秘在于,温生需要按照指令从文本中解码时空逻辑,同时确保在这种逻辑下,画面中所有物体的运动和变化都符合要求,符合现实世界的规律。 而学生**、学生**的图片,都有“按猫画老虎”的意思,所以比较简单。 这也是为什么,市面上的AI一代总是停留在2-4s的范围内——一旦超过这个时间,**的可控性和质量就会大打折扣。
很多**世代,更像是一个带有动态背景的固定角色,画面非常单调,几乎没有动作,这也是因为从文字到**在时空逻辑推理的局限性。 同时,很多企业更加关注所谓AI生成的产品化和商业化,重点推出一些基于模板并快速用于营销生成的工具,这些工具在世界模型层面是缺乏的。
OpenAI 的 SORA 是文盛**主要难点的突破性一步,增加了持续时间,并建立了一个世界模型。 但这并不意味着Sora没有问题,它可能是假的,目前最矛盾的问题是它是凭空产生的:三只小狗在嬉戏,第四只小狗和第五只小狗凭空出现; 一个男人捡起一大块塑料,一把塑料椅子凭空出现。
另一个主要问题是SORA的世界模型仍然不足。 例如,一个男人倒着在跑步机上跑步,他的跑步动作不连贯和自然。 或者一个篮球击中篮筐并按照物理定律弹跳,但下一秒它就撞穿了篮筐并发生了。 一群考古学家在沙漠中挖出一把塑料椅子,煞费苦心地清理灰尘,而椅子本身却飘了起来,奇怪地变形了。
男子倒立跑步机,**来自OpenAI官网,为SORA生成**,部分截图。
世界模型一直处于一个相当狭窄的研究领域,这个概念很难研究,过于雄心勃勃,而且相当学术,所以一次参与者很少。
值得一提的是,Meta 首席 AI 科学家、图灵奖获得者 Yann Lecun 是世界模型概念的主要提出者,尽管他面临着落后于 Meta 生成式 AI 的巨大压力。
杨丽坤长期以来一直嘲笑生成式人工智能的幻觉和反智行为,认为人工智能只有真正理解物理世界,才能有真正的价值,断言GPT模型五年都存不下去。 2023 年 6 月,他基于自己的想法推出了 i-JEPA 模型,用真实世界的背景知识补充缺失的图像碎片,但这仍然是一个技术研究概念。
2023 年 12 月,AI 世代的领导者之一 Runway 正式宣布结束通用世界模型,并发布了一系列备受瞩目的招募,宣布将使用生成式 AI 模拟整个世界,以应对 Pika 的方法。
这是一个信号,或许在杨丽坤看来,情况一度朝着好的方向发展:他的研究方向得到了认可,拖累Meta的谣言弄巧成拙。
但这种幸福并没有持续三个月,啪,消失了。
空为谁的生活平反了?
在SORA发布之前,有很多烟雾弹更新,比如:OpenAI组建了一个新的团队来研究儿童安全,OpenAI准备推出GPT-45-turbo,但真正的“杀手级更新”隐藏得很好,这也导致像Pika,Runway这样的明星创业公司措手不及。 更重要的是,OpenAI 的联合创始人 Andrej Karpathy 最初是 Pika 的投资者之一。
源码资本副总裁李璐林在Tiger Sniff 主办的沙龙上表示,空头**是目前硬件基础设施大众市场渗透率最高的形态。
有数据显示,目前国内短途用户规模超过10亿,有数据称抖音2022年的年收入将超过700亿美元,快手也将超过900亿元。 然而,面对这样的市场,在SORA发布之前,没有一个最好的发电工具达到商业或工业生产的水平。
有专家告诉Tiger Sniff,目前大型厂商对AI**生成的态度相当暧昧。 根本问题在于,目前人工**生成效果更好,成本也可接受,而AI生成并没有大家之前想象的那么具有颠覆性,所以整体策略偏向于“防御”而不是“进攻”。
这一切不仅让 Pika 和 Runway 等初创公司陷入瘫痪,也让他们认为机会已经到来,前景已经足够好; 这也让这些公司及其投资者低估了第一代赛道的竞争激烈程度,认为窗口期还够长。
在这种瘫痪中,所有人工智能生成的公司都陷入了同质化的竞争:过分关注更高的图像质量、更高的成功率和更低的成本,而不是更大的持续时间和世界模型。
Pika、Runway、Meta,一般来说,在4秒或更短的范围内,可以达到极其漂亮的图像质量,但物体本身的运动却极低且失真。
国内的字节跳动是替代方案之一。 在**领域,Byte的嗅觉更加敏锐。 2023 年 11 月,字节跳动发布了 PixelDance,它为下一个 **片段的第一帧到上一个片段的最后一帧提供了指导,并在时长上取得了突破,但截至发稿时,仍未开放用户测试。
Pixeldance官网**案例。
对资本市场的下一个影响很可能是隐藏的。 鼠兔的创始团队被贴上了“雪霸”和“完美”的标签,并于2023年11月底完成了5500万美元的融资。 2023年5月的1号跑道41亿美元的融资,但专注于世界模式的团队仍在组建中,下一次融资的速度也值得怀疑。
如果PIKA和Runway还有布局价值,那么对于国内AI企业出海来说,形式会变得更加困难。 换言之,从移动时代迁移到现在的基于场景和产品能力快速推出插件的商业模式,在海外AI市场正在失败
因为像 OpenAI 这样的公司在市场上屹立不倒。 他们几乎复制了甲骨文过去的市场领导地位,一步一个脚印,一步一个脚印,并且比所有竞争对手都降维。 对于所有做模式、抓住趋势的机会主义创始人来说,如果巨头们想杀了你,恐怕只会在一夜之间发生。
正在改变并想要改变世界的人都在Tiger Sniff app上