视觉中国。
文本 |作者 Tseri 的见解 | renee在AI的长河中,不乏一夜成名的技术。 上面的图片取自Sora的演示**,无论是微微蓬松的猫毛,还是主人醒来时皱起的眉毛,都与现实世界中的图片无异。
半个月前,Open AI发布了首款文生**模型Sora,再次让AI世界沸腾——它是第一款可以根据人类指令生成长达一分钟**的模型,而最后一个讨论度如此之高的产品就是ChatGPT。
从ChatGPT到Sora,在过去的16个月里,AI世界的战争已经从千模大战的战场蔓延到各种细分应用。
对于普通人来说,就是你可以问各种问题,比如文心一言、寻飞星火等一般的大模型,生成各种文本和答案,但现在你可以通过文字描述产生高度的还原。 这是 OpenAI ** 的演示,一架无人机围绕着阿马尔菲海岸岩石露头上一座美丽而历史悠久的教堂......
更让人吃惊的是,之前的**模型是多个真实**的组合,却没有理解能力,而sora是“理解”人的话之后的**的构建。
我们可以看到,在OpenAI SORA的官方介绍页面中,纸飞机有自我意识,可以自由飞行。 这或许是OpenAI的终极目标,也将是无数AI厂商的愿景。
目前,SORA已经擂响了战鼓,而Byte、Byte等各大AI标签厂商是否会效仿,能否打造出类似的模型,是摆在李彦宏和张一鸣面前的一个问题。 但目前,大厂们都默默无闻,等待着自己的质变。
当然,一旦制作完成,类似Sora的模型变现路径比ChatGPT更“现实”。
它可以成为抖音、浩侃**等平台的高效创作工具,也可以制作简单的特效,为最近火热的微短剧提供更多题材。 再猜测一下,影视作品中大部分的特效成本和人工成本都可以节省下来。
不过,对于国内大模型创业的企业来说,又有一个障碍——ChatGPT还没消化,又有了新的话题。 有了,没有更多的能量,没有跟随,没有热量可能会冷却得更快。
一系列文章和**显示效果表明,SORA的诞生意味着文盛**模型应用的细分现在是 iPhone 的时候了。
其实文盛**并不是什么新鲜事,去年年底,全球AI公司陆续发布了自己的文盛**模型。 去年 11 月,Meta 发布了**生成模型鸸鹋视频。 从官方示例中可以看出,它仅限于更简单的操作。
紧接着,稳定性AI 还发布了一个开源的生成模型 Stable Video Diffusion (SVD),并在官方**中大方地承认了自己的缺点——生成的 ** 在动态上相对缺乏。
也就是说,在去年年底,生成高度一致和动态的动态内容是生成领域面临的最大挑战
在 Sora 发布之前表现最好的是 Pixeldance。 从显示的结果来看,在基本模式(用户只需要提供指南**+文字描述)下,角色的动作、面部表情、摄像机透视控制、特效动作都可以很好的完成。
国内大型厂商也在去年年底开始布局。
去年11月18日,字节跳动推出了文生**模型Pixeldance,可以产生高度一致和丰富的动态**。 阿里还推出了Animate Anyone模型,一个角色**,在骨骼动画的指导下,可以生成动画**。
23年底,文盛**工具“Du Plus Editing”发布,据说可以一键获取最新热点和AI生成的文案一键生成**。与此同时,一大批“应ChatGPT而生”的AI创业公司也在去年年底参与其中,共同探索AI大模型的应用。
时间到了 2024 年 2 月中旬,OpenAI 的 SORA 仍然遥遥领先,效果更加逼真流畅。
为什么SORA能脱颖而出? 周弘毅叔叔给出了答案,大致意思是,在此之前,我们用扩散来制作**和图片,我们可以把**看作是多个真实**的组合,它并没有真正掌握这个世界的知识。
但是索拉可以像人类一样理解,坦克具有巨大的冲击力,坦克可以撞车而不会撞到坦克。 Openal 利用其作为大型语言模型的优势,将 LLM 和 DIFFUSION 相结合进行训练,使 SORA 能够实现对现实世界的理解和模拟。
由于 Transformer 架构引领了通用大模型的浪潮,因此 LLM+DIFFUSION 的新兴研究框架可能会有大量的追随者。
是否遵循开源,是否从事开源,已经成为每个AI厂商的难题。
事实上,是否遵循SORA的问题可能不再取决于单个公司的意愿,而是取决于一些硬性条件+软实力。 例如,公司是否还有足够的筹码?
去年,根据Cerry Insight的估算,ChatGPT仅在接入阶段就消耗了3万多A100,这已经是巨头的游戏了。 根据去年流传的一份交流纪要,大型厂商拥有丰富的资源——阿里云AI专家提到,阿里云在云上有数万个A100个,总体数量可以达到10万个,集团规模应该是阿里云的5倍。 腾讯云使用 H800 加速卡构建大规模算力集群,集群规模为数千台服务器。
虽然SORA只是一个**模型,但对算力的渴求却不小。 目前,在训练端没有明确的算法架构和详细的训练数据。 根据民生预估,所有新YouTube都需要在一个月内进行培训约231片A100。 考虑到模型经过多次训练,算力需求仍有可能大幅增加。 而对推理的需求更是惊人假设 SORA 模型参数为 30 亿,则对应1846万A100需求
紧接着,第二个致命的问题是,公司是否拥有高质量的数据集? 现阶段,谷歌、OpenAI等国际厂商都在争夺高质量的文本数据集。
根据第一批大型模型潮流引领者的经验,如果没有足够的弹药,他们很可能会匆匆离开现场。
据智东不完全统计,2023年11月至2024年1月,有4家AI大型模型创业公司宣布关闭。 其中,有来自大厂的独立团队,有明星产品创始人新成立的公司,也有走过十几年的“老”企业。 有的缺钱,有的缺精准定位,想玩AI,光有空的热情是远远不够的。
事实上,更致命的问题是,这家公司有人工智能天才吗?
周弘毅表示,科技的终极竞争是人才密度和深度积累。 这里的人才密度,绝不是规模问题——毕竟OpenAI的SORA团队只有13人,由新人博士领衔,由00后参与。
我们不得不佩服OpenAI充分发挥“选拔人才”的勇气,除了未知的潜力,年轻人还有一个最大的优势——生存。 据谢赛宁介绍,SORA是Bill在OpenAI的苦心工作,“虽然不知道细节,但他们基本上天天不睡觉,一年都高强度工作。
从上述部分团队成员的背景可以看出,门槛极高——大部分都是名校博士毕业生+实习工作经验,也有本科生,但也必须有创业经验和多重工作经验。 无论是 OpenAI,还是人才本人,积累了无数的量变,为质变做准备。
或许,包括OpenAI在内的AI公司,正在等待哪个“没人”(要么是麻省理工学院、青北级的学生,要么是3-5年的创业经验、大工厂经验,或者两者兼而有之)实现AI的真相,一举成名,成为AI之神。
ChatGPT和SORA告诉我们的是,A100、高质量数据、AI天才是新时代的稀缺材料,国内大型厂商还缺。
在各类AI资源都非常有限的情况下,所有在AI厂商在纷纷效仿之前,都不可避免地会考虑投资回报率,也就是说,SORA能大幅改变哪些行业模式? 同时,也与大厂的现有业务密切相关?
答案就是短期行业。
对于定位于热点话题的创作者来说,SORA可以说是大大提高了工作效率。 毕竟热点话题竞争是时效性的,大家很难有二次创作的空间,只要学会,就能迅速拉开差距。 目前,国内已有电商服务机构推出“AI根据热梗自动编写**脚本”服务,以主播商品。
对于一些深度话题,创作者可以在分工上与AI合作。
创作者制作活动产品的差异化内容,并确认文章大纲; AI负责部分重复性工作,比如展示产品的特点,自动给文字添加背景,不需要创作者去大搜索。 也就是说,创作者依靠AI可以节省很多东西,并且会有更多的“灵感闪现”。吸引更多用户留下来。
其中,最大的受益者是平台。 因此,不难理解为什么2月7日,抖音集团CEO张楠辞去集团CEO职务,专注于建英的发展。 据了解,在过去的一年里,张楠将大部分精力都倾注在了与建英相关的业务上,并亲自带领团队在AI辅助创作上寻求突破,即将推出AI原始画面和一流的产品。
*平台快手必然会朝着这个方向努力:在去年的大模型浪潮中,快手宣布成立大模型研发团队,推动搜索和AIGC的创建**应用方面。
,也跟不上步伐。 好看**虽然存在感不高,但每年都在以实实在在的方式推广业务:从2020年下半年开始,一系列大规模的运营开始了。 先后投资MCN沐云文化,引进宋健(内容生态平台总经理,一年前离职),并于11月17日宣布以36亿美元收购YY中国。
2024年,微短剧将爆发,并将继续增加市场。 据光子星球介绍,适配微短剧的基础设施建设将在上半年完成,包括创作者生态、发行逻辑、用户运营等,并尝试贯穿变现路径。
微短剧可能是“使用的地方”,例如sora**模式。
相较于大型影视大作,微短剧的特效制作和内容创作门槛较低,同时,类似SORA的模式可以为最近火热的微短片剧,比如科幻,提供更多的题材。 如果角色的细节逼真,演员的片酬可能为零,如果成本很低,内容行业就会迅速洗牌。
我们亟需在中国推出SORA项目,除了新业务的需求外,还需要考虑选址问题。 作为最后一场千模大战的发起者,是时候再次证明自己了。
2024年的春天来得很晚,无论是在真实天气方面,还是在人工智能行业方面。
去年冬天,研究部凭借过去AI的积累,能够赶上大模型的浪潮,市场部也得以趁此召开会议,与朋友展开千模大战。
这个冬天,当科研人员还在加班加点思考如何将通用模型落实到千行百行时,文盛领域又出现了一个劲敌**。
总是在黑暗中前行,总会有人走得更快,国产AI厂商的曙光近了又远。
不过,离黎明更近的索拉,也需要加强对常识的学习——完整看完头像的原文**后,发现女孩的胳膊和手不在同一维度上。