自从OpenAI宣布其新的生成式AI模型Sora以来,可以说是“一石激起千浪”,相关讨论一直没有停止。
人们感到期待、焦虑和恐惧......新工具,声称能够输出 60 秒的文本命令**它们共同构成了一个巨大的“索拉混沌地图”。 一方面,各种标签都说“the** is generated by sora”,但实际上网友们制作的搞笑**,却成了“一生”的流量密码,让很多网友好玩的人收获了快乐。
网友们将这个搞笑**标记为“the**tagged by sora”。
另一方面,虽然SORA尚未开放使用,但互联网上出现了大量“培训机构”,利用行业焦虑和信息不对称开始收割韭菜。 一位自称是清华大学博士的博主,以199元一本的价格卖出了520多本AI入门课程。 还有人发现,他这个AI课程一年卖出25万套,销量近5000万。 所以网友们纷纷称他为唯一能与奥特曼平起平坐的AI巨头。
网友制作的模因。
索拉到底是什么?
Sora源自日语单词“sora”,不仅指天空,还象征着无限的空间和无限的可能性,从而引出了自由的意义。 在OpenAI对SORA的介绍中,可以看到无数的纸飞机在空中自由飞翔,象征着SORA模型的自主性和创造性,体现了“空”中蕴含的自由概念。
SORA 介绍页面。
我想大家应该看过很多各类SORA一代**,相信很多人看完都会有疑问**:SORA是如何产生的**?
在OpenAI发布的技术报告中,SORA是这样描述的:SORA是一个“扩散变压器”。 在处理方式上与传统转换器(包括编码器和解码器)有相似之处,但它们处理的不是文本标签,而是称为“补丁”的视觉数据。
补丁实际上是大型模型在处理**和图像数据时将视觉数据分解成小块或小部分的一种方法。 通过将图像压缩成低维潜空间,将空间的身份分解为多个补丁,使模型能够更好地处理和生成高质量的图像内容。 这种方法的优点是它允许模型处理具有不同分辨率、持续时间和纵横比的视觉数据,从而为图像生成提供更大的灵活性和能力。
可视化编码过程。
“扩散变压器”是一种将扩散模型与变压器架构相结合的技术,它可以通过利用变压器处理数据之间复杂关系的能力,以及扩散模型逐步细化数据的策略,从嘈杂的数据中逐步恢复干净的数据来生成图像或**,从而在图像中生成或***“干净”的补丁。
让我们举个简单的例子,如果我们现在有一只狗**,我们可以一步一步地给这个**添加噪音,让它变得越来越模糊,最终它会变成一团乱七八糟的噪音。 如果我们把这个过程反转过来,我们也可以针对一堆杂乱无章的噪声一步一步地去掉噪声,并恢复到目标**,而扩散模型的关键就是学会反转噪声。
其实之前流行的《Midjourney》和《Stable Diffusion》的图像和**生成器也是基于扩散模型的,但不同的是,Sora可以一次将模型**制作成多帧,保证了主体即使离开视线也能保持不变,也展现了对影视拍摄语法的全新自发理解, 不仅可以跟随拍摄对象移动相机,还可以在移动镜头时改变角度。仍然可以保持图片的合理性和完整性。
SORA的另一个强项是它“继承”了OpenAI对文本的理解能力,可以根据提示词生成高质量的**和**,并且可以向前或向后扩展**,例如,在这个官网上展示的这个**中,SORA可以基于相同的**开头进行扩展,延伸到不同的结尾,或者从不同的开头介绍, 最后得到同样的结局。
所有三个开始最终都会导致相同的结局。
但事实上,OpenAI的野心远不止于此,SORA不仅仅是一个创造性的工具,它实际上是一个复杂的基于数据的模拟系统,能够模拟真实或想象的世界。 它通过学习如何正确渲染场景、模拟物理行为、执行长期推理和理解场景的含义来创建逼真的 3D 场景和动画。
这让它能够创造出很多现实中不存在的**,比如在下面的**中,提示“两艘海盗船在一杯咖啡中航行时互相争斗的逼真特写**”不仅要求Sora生成逼真的3D模型,还要让这些模型按照物理规则进行动画制作,并模拟液体的动力学, 并使用先进的渲染技术来达到**级的真实感,即使场景的语义在现实世界中不存在,但引擎仍然达到了我们期望的正确物理规则。
尽管SORA目前仍然存在缺陷,但它是一个很有前途的目标,通过构建如此复杂的仿真系统,我们可以对现实世界的数字交互进行建模和构建。 无论是谷歌、OpenAI还是马斯克的XAI,最终目标都是构建世界模型,比如电影《流浪地球2》中的MOSS就是强人工智能的化身,它可以通过构建真实世界的模型和强大的算力,推断出不同选择导致的结果,从而达到最终目标, 在很多人眼中,这可能是人工智能的终极形式。
但无论如何,这些都是以后的事情。
Sora真的会砸掉整个影视行业的工作岗位吗?
事实上,人工智能从诞生之日起就经常成为很多人幻想中的“假想敌”,而随着ChatGPT等新工具的开发,对AI的遥远恐惧逐渐演变成对手头工作的深深担忧,尤其是在SORA发布之后。
就SORA的产生能力而言,首当其冲的一定是影视从业者。 毕竟用传统方式制作1分钟的片段成本非常高,除了场景、灯光、演员之外,还需要提前沟通故事板,找到一个好的角度,考虑摄影机和演员的位置。 如果你需要一些特殊的因素,比如转瞬即逝的光影、理想的天气条件等,那么你就得赌运气了。
而这一切在SORA这里都不是问题,只要通过简单的提示语句,就可以直接生成**,并且与以往的AI工具相比,无论是**时长、画面的精细度,还是细节的完整性,甚至是多镜头拍摄,SORA都可以用“碾压”来概括, 这显然会对相关从业者产生更大的影响。
在网友们制作的模因图中,经典的好莱坞标志“好莱坞”变成了“索拉伍德”。
根据行业研究公司CVL Economics最近对好莱坞行业领导者的调查,焦虑目前笼罩着好莱坞,36%的受访者表示,生成式人工智能减少了对公司日常工作技能的需求,72%的受访公司是生成式人工智能工具的早期采用者。
其中,75%的受访者表示,生成式人工智能工具促使其业务部门削减了与合并相关的工作。 预计未来三年好莱坞将有超过20万个工作岗位受到人工智能的影响,尤其是视觉效果、音效艺术家和素描师等后期制作工作。
事实上,受影响的不仅仅是影视行业的人。 面对来自SORA的“降维攻击”,AI领域的一些创业者,比如RUNWAY首席执行官克里斯托瓦尔·瓦伦苏埃拉,已经做好了“游戏开启”的准备,有的像PIKA创始人郭文静开始准备一款以SORA为基准的新产品,也有像Stability AI首席执行官Emad Mostak这样的人,忍不住感叹“奥特曼真是个魔术师”,把SORA当成AI**全球的GPT-3瞬间。 这一次,很多人真的感受到了危机感。
风景应该是有远见的。
虽然 sora 真的很令人兴奋,但您不必对此过于焦虑。 一方面,在sora产生的**中,还有很多经典的“灵魂错误”。 例如,在许多**中,角色和动物会消失、变形或凭空变出克隆体; 也会有一些违背物理常识的“闹鬼”图像,比如一个人吹的蜡烛不变,篮球穿过篮筐,椅子漂浮和移动等。
在空产生的**中,老人吹灭蜡烛前后的火焰根本没有动,有点诡异。
另一方面,人工智能在创作逻辑上与人类完全不同,因此无法真正区分好故事和坏故事。 有很多人认为,机器生成的东西越多,对人类的创造就越珍贵,比如,带有“锅气”的食物往往比预制菜更好,体现工人努力的器皿不如机器准确,但具有更多的“温度”......这样的例子可以说无处不在,更不用说在影视中了,最能体现人类情感,囊括了各种艺术范畴。
比如,在很多电影场景中,在人物的表情、语气、表情背后,不仅有各种细腻的人类情感,更是半辈子的经历、情感和习俗的总和。
这些内容虽然看似不起眼,却无时无刻不在传达着大量的信息,而正是这些内容真正融入到每一个独特的人身上,也通过各种反应和互动,形成了人物之间的情感流动,正是这些细节的变化,默默地影响着我们的情感,带给我们感动, 这是生成式AI很难做到的,这或许是很多AI生成器“没有灵魂”的根本原因。
经典电影《黎明前的爱情》几乎全部由对白组成
此外,AI在影视行业的应用并不新鲜,此前横扫好莱坞最佳影片、最佳导演等7个奖项的《瞬时宇宙》都使用了Runway的AI**工具,去年21世纪福克斯曾与IBM Watson合作,使用AI工具为AI题材恐怖片《摩根》制作预告片, 迪士尼的漫威完全使用人工智能制作了《秘密入侵》的开场动画。
不久前,英伟达创始人黄仁勋在接受采访时表示,“在过去的10年或15年里,几乎每个人都会告诉你,学习计算机对孩子来说很重要,每个人都应该学习如何编程。 但其实恰恰相反,我们的工作就是创造计算技术,让没有人需要编程,让编程语言更加灵活,现在世界上的每个人都是程序员,技术鸿沟已经完全弥合了。 ”
而这似乎已经成为了AI时代的真实写照,无论是chatgpt-4还是SORA,在日新月异的新技术的帮助下,不懂编程语言的人也可以制作软件程序,没有影视相关技术背景的人也可以从容地制作自己的**,这无疑会走得更远, 激活新的产能,推动行业发展,甚至在人与人之间产生新的联系,这或许是生成式AI更大的意义。
我们有理由期待,未来,AI技术和电影或电视剧的制作必然会有更多的组合和创新,也许会出现一些我们从未想象过的精彩作品,给我们带来更多的惊喜。