2024年2月15日无疑是全世界都需要记录的一天,OpenAI上传了一段由人工智能大模型SORA生成的1分钟长**,惊艳各方,让人直奔冷汗,虚拟闪耀现实,那么SORA是什么? 为什么有这么大的魅力,连SpaceX马斯克都忍不住答道:人类完蛋了!!
下面就来看看,让笔者带你领略索拉的惊艳,揭开它的奥秘,以及它的神奇之处。
sora它是一种可以从文本描述中生成**的人工智能模型,由美国一家尖端科技公司的人工智能研究院OpenAI开发。
SORA于2024年2月15日首次出现在公众视野中,并首次以**的形式公布。 **内容展示SORA大模型生成的公众多个高清**。
让我们先简单介绍一下**,文末有一个完整版:
从**可以看出,这部**,高度细腻的场景,复杂的捕捉角度,**镜头的操作,极其复杂的镜头运动,画面中塑造的人物情感丰富,让这部电影一上映就红了。 对人们来说,感染前沿科学技术的发展,是一种巨大的魅力和挑战。
让我们从sora这个名字开始,它的含义来源于日语单词“sora”,意思是天空展现其无限的创作潜力。它背后的含义被 OpenAI 赋予了新的灵魂:即文本被生成到图像模型中。
目前,SORA模型在模型中"dall·e"根据开发,它可以创建到60 秒**,甚至更多(通常是概念一代、开发一代、优化一代、成熟一代)。
SORA模型基于OpenAI开发的人工智能模型DALL-E,这也是它能够基于文本输入生成高度创新图像的原因之一。 Dall·e 又来了"gan"(生成对抗网络)和"transformer"这两者的意义在于,可以创造出从未见过的新颖图像,即从“零”到“一”,从“无”到“存在”。
总的来说,从官方技术报告中可以看出,SORA与之前的模型最大的区别在于融合和协同使用了DIFFUSION TRANSFORMER模型、TRANSFORMERS模型、稳定扩散模型、DALL-E-2等多种模型,可以看出SORA的**是在上一代不断迭代更新的基础上诞生的。
由此带来的优势不言而喻,带来了惊人的能力,要知道,SORA模型并不是第一个**生成模型,早在2023年,就有很多**生成模型,如Runway、Stability AI、Pick Labs等,但生成能力只有3个19秒,在速度和时间上都远不如SORA, 此外,SORA还能够生成适应不同设备的**内容,具体来说,就是它可以生成各种宽高比和分辨率,包括宽屏1920x1080p和纵向1080x1920p,以及介于两者之间的所有分辨率。
但是,SORA模型从目前的角度来看并不完美,因为它是基于“扩散模型”的扩散模型(后面介绍的),所以也有一定的缺点,比如在贴片噪声处理和相应的外部输入(目前的交互模式只有文本)时,也会存在画面真实感的缺陷和理性逻辑思维的不足, 比如椅子失去重力,随着角色移动,当一个物体挡住另一个物体时,另一个物体就会在下一个画面中丢失。
平时我们都知道**是一帧一帧拍出来的,但画面和最后呈现的一张镜头的连贯性是另一回事,从正常的实体拍摄中我们可以知道,“一枪到底”经常被电影当作宣传噱头,所以“一枪到底”一直被认定为一项艰巨的任务。
为了实现“一镜到底”,模型需要对现实世界、物理定律、因果关系、如何表达每个元素的属性,以及元素之间的相互作用有清晰的认识,这样当摄像机切换旋转时,要表达的对象仍能保持之前的属性, 以及前后动作的连贯性。
以上对于我们人类来说并不难,因为我们能感觉到,基于现在的图片**下一帧,但是模型不容易理解两帧之间的关联,需要大量的训练,这不是一条带**的链,而是一条“链”+“链”,呈几何级数增长。 下面是一个示例:
1.例如,不同可乐罐之间的相互作用会留下不同的痕迹。
2.例如,如果车辆飞得太快,车辆就会损坏和碎屑。
2.例如,如果车辆飞得太快,车辆就会损坏和碎屑。
作为一种新型的人工智能模型,可以从技术层面来观察这到底是怎么回事。
首先,从官方的介绍中我们知道,SORA模型是从众多模型的应用中诞生的,所以我将介绍一些模型原理。
1. 扩散模型
扩散模型的灵感来自非平衡热力学,就像一滴墨水滴入水中时看到的扩散现象一样,我们将生成图像的整个过程进行反转,形成我们的扩散模型,这就像是成千上万次训练的成员。 此外,我们还需要呈现其随机性的特点,在无数的随机过程中,技术人员不断地从噪声图像中一点一点地去除不需要的噪声成分,从而达到所需内容的生成。
在整个扩散模型的训练过程中,分为常见的正向传播和反向传播过程,也称为正向传播和反向传播。
a)前向传播:前向传播是神经网络训练过程中的一个步骤,它将输入数据从输入层通过每个隐藏层传递到输出层,以获得模型的最佳结果。在正向传播过程中,输入数据通过每层的权重和激活函数的作用逐层计算,并传递到下一层,直到输出层。 这个过程可以看作是信息从输入到输出的过程。 示例:将随机噪声添加到实数**中,直到它变成纯噪声**。
b) 反向传播:反向传播是神经网络训练过程中的关键步骤。它通过比较模型结果与实际标签之间的差异来计算损失函数,并将此误差从输出层向后传播到各个隐藏层,以更新模型的权重和偏差。 反向传播使用梯度下降法计算各层参数的梯度,并根据梯度方向调整参数值,使损失函数最小化。 这个过程可以看作是从输出到输入的错误传递和参数更新的过程。 示例:从您刚刚得到的纯噪声**中去除噪点**,直到图像清晰可见。
基于传播节点之间的交互和信息传输,通过正向传播和反向传播的交替迭代,神经网络可以逐步调整参数,使模型的第一个结果更接近实际标签,从而提高模型的准确性,表达信息的完整传播过程, 网络的影响或创新。白话理解:就是更快、更有效地生成“场景中的躺猫”。
1.变压器型号
Transformer 模型是当前主流模型的基石,比如 chat-gpt、一定程度的文心一言等,归根结底还是一个 transformer,它的核心是从编码器到解码器的过程。
简单来说,“我是中国人”作为文本输入,首先,transformer模型会把“我是中国人”拆分,即分成一个基本单元“我”、“是”、“中国”、“国家”和“人民”,我们可以称之为“token”,编码器会开始将token变成一个抽象向量,用单元补丁来表示,这些抽象编码的信息完整地记录了词汇信息, 文本的语法特征和词汇顺序。
解码器会根据需求使用编码器的“抽象向量”输出来生成目标序列,除了将“抽象向量”作为输入外,还会使用前面的文本,即之前自己生成的文本作为输入,为自己提供和保证自身输入与外部输入的相关性。 通俗地说,理解前面的问题,“如果你是重庆人,那么你就是**人? ”
这是编码器和解码器的关键用途,SORA在一定程度上同时考虑到了关键元素对象在时空运动变换中,两者是合理的,既考虑了元素对象在生成中的时间位置,也考虑了空间位置。 当然,除此之外,还有很多其他的模型,如果你有兴趣的话,可以去资料查看,然后我们会在它们的基础上继续研究这些模型的使用,这样我们才能真正化衰变为魔法。
在笔者看来,整个过程可以分为四个部分。
1.**生成**:通过对准确文字描述的需求,让SORA生成与之匹配的高质量图像,这是用户与SORA的基本交互模式。
2.**数据编码和压缩**:SORA通过**压缩网络压缩,将输入**或**压缩成低维的时空表示,此步骤旨在有效地对原始信息进行编码和存储,这是后续步骤实施的基础。
3.**生成**:在压缩信息的基础上,SORA通过时空补丁将其分解为基本的构建块,然后重新组合生成,用于潜在的时空训练,最终形成新的**内容。 涉及的技术包括计算机视觉、深度学习、自然语言处理等。
4.合成:Sora 依赖于强大的合成功能,允许您将多个不同的元素组合成一个,以创造新的、无与伦比的影响。 比如上面提到的写实的sora**,这种能力就是由于它对内容的深刻理解和精细把控。
人工智能引发了一场工业革命,通常被称为工业 40、其中,人工智能受到时代潮流的广泛追捧,因此向世界注入了大量的资本、人力、资源等,并迅速发展,开始影响人类发展的方方面面,在某种程度上不亚于整个人类发展之前的任何一场革命。
在教育领域,学生可以通过SORA浏览各种书籍,提供一种新颖的学习工具,使学生能够增强他们的理解和情境学习。
在商业领域,SORA产生的优质**可以用于营销活动,丰富公司的品牌形象,取得更好的营销效果。
在军工领域,SORA可以用其逼真的**迷惑对手,达到假货的效果。
在娱乐领域,SORA可以创造各种炫酷的虚构场景,给用户带来更多的乐趣和新奇,等等。
虽然在许多领域可能有很好的发展,但仍然存在对生成内容的准确性和真实性的担忧,即对虚拟反映现实的未知恐惧,及其对用户隐私和数据安全的影响。
甚至不可避免地会引起很多思考,改变影视广告、动漫游戏等行业,轻松淘汰淘汰最好的版权的素材公司和广告公司,这些担忧是目前最热议的话题,但笔者相信还会有更多的变化。 有人会问:SORA的出现是否意味着电影人已经开始成为夕阳产业,电影等娱乐制作行业是否进入了新时代,大量失业是否会引发社会问题等等。
虽然SORA的出现不断拉开了中国与世界领先的人工智能产业的距离,直接让中国的AI成为了原型,但笔者认为,除非OpenAI继续开源,否则中国要打破这个技术壁垒还需要很长的路要走,但每一次开源,都意味着对方手中有更多的资本, 这是很难想象的。
AI越强,对数据训练的要求就越复杂、越大规模,这不仅需要先进的专业知识、大量的计算资源,还需要精心准备的训练数据和训练方法等,比如蓝队和红队的对抗训练技术是最关键的,也就是蓝队是积极的一方, 而红队人员是反面(错误信息、仇恨内容、偏见领域的专家),两个团队紧密合作,对模型进行AI“对抗性测试”,而中国仍然缺乏大量这样的人才。
此外,人工智能的核心是数据和互联网驱动的技术产品新阶段,不仅是人工智能,还有机器人、物联网、大数据和云计算都在其中发挥着重要作用,而OpenAI开发的“SORA”或类似技术可能是这场革命的一部分, 其技术壁垒还可能包括数据处理、算法优化和硬件要求方面的挑战。
仅“SORA”模型就包含了对自然语言处理(NLP)和计算机视觉最基本的深入理解和应用,其中包括从理解大规模文本数据到生成逼真内容的复杂过程,这需要先进的模型设计和强大的计算能力。
别人发光不是坏事,有被激励的压力,也正是因为Open AI等前沿科技公司的“工程技术大进步”,才给人类发展带来了前所未有的神秘面纱。
笔者认为,随着国家对人工智能投入的加大和重视度加大,国内科技公司将迎头赶上,或许下一个“SORA”二代将在中国,笔者坚信总有一天,成功将属于中国的伟大舞台,绽放出属于自己的光芒。
希望那些人还在思考加大游戏投入,进军预制菜一家试图从人们的衣食住行中赚钱的“科技公司”,可以孵化出像OpenAI这样的科技公司。
不要让引子过分,西方给东方最大的错觉就是你以为对你有好处,不要发展到最后,就像《三体》里的那句话:毁灭你与你有什么关系?
下面我们来看看Sora生成的官方原版**的完整版(通过一段英文提示):
送给我思念已久的诗的作者的特别礼物:
无题(含一个)。
当我第一次听说这个名字还不够时,努力的步伐非常出色。
青云一飞冲天,必将闪耀于世间。
如果您觉得不错,请评论、点赞并关注三遍! 谢谢!