2024 人工智能AI的重磅核弹Sora

2024年2月15日无疑是全世界都需要记录的一天，OpenAI上传了一段由人工智能大模型SORA生成的1分钟长**，惊艳各方，让人直奔冷汗，虚拟闪耀现实，那么SORA是什么？为什么有这么大的魅力，连SpaceX马斯克都忍不住答道：人类完蛋了！！

下面就来看看，让笔者带你领略索拉的惊艳，揭开它的奥秘，以及它的神奇之处。

sora它是一种可以从文本描述中生成**的人工智能模型，由美国一家尖端科技公司的人工智能研究院OpenAI开发。

SORA于2024年2月15日首次出现在公众视野中，并首次以**的形式公布。 **内容展示SORA大模型生成的公众多个高清**。

让我们先简单介绍一下**，文末有一个完整版：

从**可以看出，这部**，高度细腻的场景，复杂的捕捉角度，**镜头的操作，极其复杂的镜头运动，画面中塑造的人物情感丰富，让这部电影一上映就红了。对人们来说，感染前沿科学技术的发展，是一种巨大的魅力和挑战。

让我们从sora这个名字开始，它的含义来源于日语单词“sora”，意思是天空展现其无限的创作潜力。它背后的含义被 OpenAI 赋予了新的灵魂：即文本被生成到图像模型中。

目前，SORA模型在模型中"dall·e"根据开发，它可以创建到60 秒**，甚至更多（通常是概念一代、开发一代、优化一代、成熟一代）。

SORA模型基于OpenAI开发的人工智能模型DALL-E，这也是它能够基于文本输入生成高度创新图像的原因之一。 Dall·e 又来了"gan"（生成对抗网络）和"transformer"这两者的意义在于，可以创造出从未见过的新颖图像，即从“零”到“一”，从“无”到“存在”。

总的来说，从官方技术报告中可以看出，SORA与之前的模型最大的区别在于融合和协同使用了DIFFUSION TRANSFORMER模型、TRANSFORMERS模型、稳定扩散模型、DALL-E-2等多种模型，可以看出SORA的**是在上一代不断迭代更新的基础上诞生的。

由此带来的优势不言而喻，带来了惊人的能力，要知道，SORA模型并不是第一个**生成模型，早在2023年，就有很多**生成模型，如Runway、Stability AI、Pick Labs等，但生成能力只有3个19秒，在速度和时间上都远不如SORA，此外，SORA还能够生成适应不同设备的**内容，具体来说，就是它可以生成各种宽高比和分辨率，包括宽屏1920x1080p和纵向1080x1920p，以及介于两者之间的所有分辨率。

但是，SORA模型从目前的角度来看并不完美，因为它是基于“扩散模型”的扩散模型（后面介绍的），所以也有一定的缺点，比如在贴片噪声处理和相应的外部输入（目前的交互模式只有文本）时，也会存在画面真实感的缺陷和理性逻辑思维的不足，比如椅子失去重力，随着角色移动，当一个物体挡住另一个物体时，另一个物体就会在下一个画面中丢失。

平时我们都知道**是一帧一帧拍出来的，但画面和最后呈现的一张镜头的连贯性是另一回事，从正常的实体拍摄中我们可以知道，“一枪到底”经常被电影当作宣传噱头，所以“一枪到底”一直被认定为一项艰巨的任务。

为了实现“一镜到底”，模型需要对现实世界、物理定律、因果关系、如何表达每个元素的属性，以及元素之间的相互作用有清晰的认识，这样当摄像机切换旋转时，要表达的对象仍能保持之前的属性，以及前后动作的连贯性。

以上对于我们人类来说并不难，因为我们能感觉到，基于现在的图片**下一帧，但是模型不容易理解两帧之间的关联，需要大量的训练，这不是一条带**的链，而是一条“链”+“链”，呈几何级数增长。下面是一个示例：

1.例如，不同可乐罐之间的相互作用会留下不同的痕迹。

2.例如，如果车辆飞得太快，车辆就会损坏和碎屑。

作为一种新型的人工智能模型，可以从技术层面来观察这到底是怎么回事。

首先，从官方的介绍中我们知道，SORA模型是从众多模型的应用中诞生的，所以我将介绍一些模型原理。

1. 扩散模型

扩散模型的灵感来自非平衡热力学，就像一滴墨水滴入水中时看到的扩散现象一样，我们将生成图像的整个过程进行反转，形成我们的扩散模型，这就像是成千上万次训练的成员。此外，我们还需要呈现其随机性的特点，在无数的随机过程中，技术人员不断地从噪声图像中一点一点地去除不需要的噪声成分，从而达到所需内容的生成。

在整个扩散模型的训练过程中，分为常见的正向传播和反向传播过程，也称为正向传播和反向传播。

a）前向传播：前向传播是神经网络训练过程中的一个步骤，它将输入数据从输入层通过每个隐藏层传递到输出层，以获得模型的最佳结果。在正向传播过程中，输入数据通过每层的权重和激活函数的作用逐层计算，并传递到下一层，直到输出层。这个过程可以看作是信息从输入到输出的过程。示例：将随机噪声添加到实数**中，直到它变成纯噪声**。

b）反向传播：反向传播是神经网络训练过程中的关键步骤。它通过比较模型结果与实际标签之间的差异来计算损失函数，并将此误差从输出层向后传播到各个隐藏层，以更新模型的权重和偏差。反向传播使用梯度下降法计算各层参数的梯度，并根据梯度方向调整参数值，使损失函数最小化。这个过程可以看作是从输出到输入的错误传递和参数更新的过程。示例：从您刚刚得到的纯噪声**中去除噪点**，直到图像清晰可见。

基于传播节点之间的交互和信息传输，通过正向传播和反向传播的交替迭代，神经网络可以逐步调整参数，使模型的第一个结果更接近实际标签，从而提高模型的准确性，表达信息的完整传播过程，网络的影响或创新。白话理解：就是更快、更有效地生成“场景中的躺猫”。

1.变压器型号

Transformer 模型是当前主流模型的基石，比如 chat-gpt、一定程度的文心一言等，归根结底还是一个 transformer，它的核心是从编码器到解码器的过程。

简单来说，“我是中国人”作为文本输入，首先，transformer模型会把“我是中国人”拆分，即分成一个基本单元“我”、“是”、“中国”、“国家”和“人民”，我们可以称之为“token”，编码器会开始将token变成一个抽象向量，用单元补丁来表示，这些抽象编码的信息完整地记录了词汇信息，文本的语法特征和词汇顺序。

解码器会根据需求使用编码器的“抽象向量”输出来生成目标序列，除了将“抽象向量”作为输入外，还会使用前面的文本，即之前自己生成的文本作为输入，为自己提供和保证自身输入与外部输入的相关性。通俗地说，理解前面的问题，“如果你是重庆人，那么你就是**人？ ”

这是编码器和解码器的关键用途，SORA在一定程度上同时考虑到了关键元素对象在时空运动变换中，两者是合理的，既考虑了元素对象在生成中的时间位置，也考虑了空间位置。当然，除此之外，还有很多其他的模型，如果你有兴趣的话，可以去资料查看，然后我们会在它们的基础上继续研究这些模型的使用，这样我们才能真正化衰变为魔法。

在笔者看来，整个过程可以分为四个部分。

1.**生成**：通过对准确文字描述的需求，让SORA生成与之匹配的高质量图像，这是用户与SORA的基本交互模式。

2.**数据编码和压缩**：SORA通过**压缩网络压缩，将输入**或**压缩成低维的时空表示，此步骤旨在有效地对原始信息进行编码和存储，这是后续步骤实施的基础。

3.**生成**：在压缩信息的基础上，SORA通过时空补丁将其分解为基本的构建块，然后重新组合生成，用于潜在的时空训练，最终形成新的**内容。涉及的技术包括计算机视觉、深度学习、自然语言处理等。

4.合成：Sora 依赖于强大的合成功能，允许您将多个不同的元素组合成一个，以创造新的、无与伦比的影响。比如上面提到的写实的sora**，这种能力就是由于它对内容的深刻理解和精细把控。

人工智能引发了一场工业革命，通常被称为工业 40、其中，人工智能受到时代潮流的广泛追捧，因此向世界注入了大量的资本、人力、资源等，并迅速发展，开始影响人类发展的方方面面，在某种程度上不亚于整个人类发展之前的任何一场革命。

在教育领域，学生可以通过SORA浏览各种书籍，提供一种新颖的学习工具，使学生能够增强他们的理解和情境学习。

在商业领域，SORA产生的优质**可以用于营销活动，丰富公司的品牌形象，取得更好的营销效果。

在军工领域，SORA可以用其逼真的**迷惑对手，达到假货的效果。

在娱乐领域，SORA可以创造各种炫酷的虚构场景，给用户带来更多的乐趣和新奇，等等。

虽然在许多领域可能有很好的发展，但仍然存在对生成内容的准确性和真实性的担忧，即对虚拟反映现实的未知恐惧，及其对用户隐私和数据安全的影响。

甚至不可避免地会引起很多思考，改变影视广告、动漫游戏等行业，轻松淘汰淘汰最好的版权的素材公司和广告公司，这些担忧是目前最热议的话题，但笔者相信还会有更多的变化。有人会问：SORA的出现是否意味着电影人已经开始成为夕阳产业，电影等娱乐制作行业是否进入了新时代，大量失业是否会引发社会问题等等。

虽然SORA的出现不断拉开了中国与世界领先的人工智能产业的距离，直接让中国的AI成为了原型，但笔者认为，除非OpenAI继续开源，否则中国要打破这个技术壁垒还需要很长的路要走，但每一次开源，都意味着对方手中有更多的资本，这是很难想象的。

AI越强，对数据训练的要求就越复杂、越大规模，这不仅需要先进的专业知识、大量的计算资源，还需要精心准备的训练数据和训练方法等，比如蓝队和红队的对抗训练技术是最关键的，也就是蓝队是积极的一方，而红队人员是反面（错误信息、仇恨内容、偏见领域的专家），两个团队紧密合作，对模型进行AI“对抗性测试”，而中国仍然缺乏大量这样的人才。

此外，人工智能的核心是数据和互联网驱动的技术产品新阶段，不仅是人工智能，还有机器人、物联网、大数据和云计算都在其中发挥着重要作用，而OpenAI开发的“SORA”或类似技术可能是这场革命的一部分，其技术壁垒还可能包括数据处理、算法优化和硬件要求方面的挑战。

仅“SORA”模型就包含了对自然语言处理（NLP）和计算机视觉最基本的深入理解和应用，其中包括从理解大规模文本数据到生成逼真内容的复杂过程，这需要先进的模型设计和强大的计算能力。

别人发光不是坏事，有被激励的压力，也正是因为Open AI等前沿科技公司的“工程技术大进步”，才给人类发展带来了前所未有的神秘面纱。

笔者认为，随着国家对人工智能投入的加大和重视度加大，国内科技公司将迎头赶上，或许下一个“SORA”二代将在中国，笔者坚信总有一天，成功将属于中国的伟大舞台，绽放出属于自己的光芒。

希望那些人还在思考加大游戏投入，进军预制菜一家试图从人们的衣食住行中赚钱的“科技公司”，可以孵化出像OpenAI这样的科技公司。

不要让引子过分，西方给东方最大的错觉就是你以为对你有好处，不要发展到最后，就像《三体》里的那句话：毁灭你与你有什么关系？

下面我们来看看Sora生成的官方原版**的完整版（通过一段英文提示）：

送给我思念已久的诗的作者的特别礼物：

无题（含一个）。

当我第一次听说这个名字还不够时，努力的步伐非常出色。

青云一飞冲天，必将闪耀于世间。

如果您觉得不错，请评论、点赞并关注三遍！谢谢！

2024 人工智能AI的重磅核弹Sora

相似文章

AI大模型专题 2023人工智能大模型行业创新价值研究报告

智能未来：2024年人工智能的发展与应用

前沿2024：人工智能发展新趋势

大恒科技（600288）人工智能概念股，扣除非净利润偏低

2024年，人工智能赋能职场提升工作效率，抢占晋升机会关键