长文解释中国如何复制索拉！ 996 OpenAI 研究员 Sora 是 GPT 2 时刻

编辑：编辑部。

新致远指南]透露自己 996 工作和休息的 OpenAI 研究员 Jason Wei 表示，SORA 代表了 GPT-2 时刻的产生。竞争的关键是计算能力和数据。是否有可能在国内成功繁殖 Sora？这份由中国团队撰写的37页技术报告或许可以给我们一些启示。

如今，这张图片在AI社区中很火爆。

它列举了一些学者模型的出生时间、结构和作者身份。

毫不奇怪，谷歌仍然是第一个成立模型的作者。但现在AI**的聚光灯已经被Sora抢走了。

与此同时，曝光996工作和休息时间表的OpenAI研究员Jason Wei表示

SORA 是一个里程碑，代表了 GPT-2 时刻的产生。」

对于文本生成领域来说，GPT-2无疑是一个分水岭。 2018 年 GPT-2 的推出标志着一个能够生成连贯、语法正确的文本段落的新时代。

当然，GPT-2 也很难完成一篇完整无误的文章，会出现逻辑上的不一致或捏造事实的情况。然而，它为随后的模型开发奠定了基础。

在不到五年的时间里，GPT-4 已经能够执行复杂的任务，例如串联思维，或写一篇长篇文章，而无需捏造事实。

而今天，SORA已经意味着这样一个时刻。

它创造了既艺术又现实的短**。虽然还不能创作一部40分钟的电视剧，但人物的一致性和讲故事的方式已经非常引人入胜了！

Jason Wei 认为，保持长期一致性、近乎完美的真实感和创造深刻故事情节的能力将在 SORA 和未来的生成模型中逐渐形成。

Sora会扰乱好莱坞吗？离大片有多远？

好莱坞知名导演泰勒·佩里（Tyler Perry）看到索拉的**后感到震惊，并决定取消他在亚特兰大工作室的8亿美元扩张计划。

因为在未来拍摄的大片中，可能不需要找外景地，也不需要搭建真实场景。

那么，SORA会颠覆电影业吗？ Jason Wei 表示，就像现在的 GPT-4 一样，它可以作为辅助工具来提升作品质量，所以距离专业电影制作还有一段路要走。

现在，**和文本最大的区别在于前者的信息密度较低，因此在学***推理等技能时，将需要大量的计算能力和数据。

因此，对高质量数据的竞争将非常激烈！就像现在每个人都在争夺高质量的文本数据集一样。

此外，将**与其他信息模式相结合作为学习过程的辅助手段也至关重要。

而在未来，拥有最佳处理经验的AI研究人员将变得非常抢手！然而，他们也需要适应新的技术趋势，就像传统的自然语言处理研究人员一样。

OpenAI 的 TikTok 帐户仍在发布 Sora 的新作品。

Sora离好莱坞大片有多远？让我们来看看这部电影中经常出现的一个场景——一辆汽车在瓢泼大雨中飞驰在城市街道上。

a super car driving through city streets at night with he**y rain everywhere, shot from behind the car as it drives

例如，SORA生成的建筑工地也非常逼真，有叉车、挖掘机、脚手架、建筑工人。

它还捕捉到了微型摄影的效果，使一切看起来都像一个微观世界。

当然，如果仔细观察，图片会有一些问题。

例如，一个人会突然变成几个人。

或者，一个人突然变成另一个人。

这家人工智能公司的创始人SWYX得出结论，根本原因是SORA没有中间物理模型，这与Lecun的世界模型完全相反。

尽管如此，它还是在电影制作过程中创造了巨大的飞跃，并大大降低了成本。

虽然跑道可以做类似的事情，但 Sora 将一切都提升到了一个新的水平。

以下是 Sora 和 Pika、Runway Gen-2、Animatediff 和 Leonardoai 的比较。

在不久的将来，也许我们每个人都可以在几分钟内制作出自己的电影。

例如，我们可以使用 ChatGPT 来帮助编写脚本，然后使用 SORA 转换文本**。未来，SORA一定会突破60年代的时间限制。

想象一下，如果你的脑海中有一部从未存在过的电影会是什么样子。

或者，我们可以使用 DALL-E 或 Midjourney 生成图像，然后使用 Sora 生成 **。

d-id 可以使角色的嘴巴、肢体动作和台词保持一致。

之前风靡全网的《哈利·波特》巴黎世家时尚大片。

Elevenlabs，可以为**中的角色配音，增强情感冲击力**，并创造视觉和听觉叙事的无缝融合。

制作自己的大片就是这么简单！

不幸的是，SORA的培训费用约为10百万美元。

去年ChatGPT发布后，千模大战的宏大场面突然浮现。而这一次距离Sora的诞生已经过去了半个月，公司仍然保持沉默。

中国企业如何复制SORA技术？

近日，中国团队也发布了一份非常详细的SORA分析报告，或许会给这个问题带来一些启示。

中国团队对SORA进行逆向工程

最近，利哈伊大学的一个中国团队和Microsoft副总裁高建峰博士共同发表了一份37页的分析**。

通过对公开技术报告的分析和对该模型的逆向工程研究，全面考察了SORA的发展背景、所依赖的技术、在各行业的应用前景、当前的挑战以及文本到**技术的未来趋势。

其中，研究主要集中在SORA的发展过程和构建该虚拟世界模拟器的关键技术上，深入探讨了SORA在电影制作、教育、营销等领域的应用潜力和可能的影响。

*地址：项目地址：

如图 2 所示，Sora 能够展示准确理解和执行复杂人类指令的能力。

在制作可以详细显示运动和交互的长一代方面，SORA也取得了长足的进步，在长度和视觉表现方面突破了上一代技术的局限性。这一能力标志着人工智能创意工具的重大飞跃，允许用户将文本叙述转化为生动的视觉故事。

据研究人员称，SORA之所以能够达到如此高的水平，不仅是因为它能够处理来自用户的文本输入，还因为它能够理解场景中各种元素的复杂相互关系。

如图 3 所示，生成式计算机视觉（CV）技术的发展路径在过去十年中是多种多样的，尤其是在 Transformer 架构成功应用于自然语言处理（NLP）之后。

研究人员通过将 Transformer 架构与视觉组件相结合，例如突破性的 Vision Transformer （VIT）和 Swin Transformer），推进了其在视觉任务中的应用。

同时，扩散模型在图像和图像生成领域也取得了突破性进展，它们展示了一种通过u-net技术将噪声转换为图像的数学创新方法。

自 2021 年以来，人工智能领域的研究重点已转移到那些能够理解人类指令的语言和视觉生成模型，即多模态模型。

随着 ChatGPT 的发布，我们看到了 2023 年出现 Stable Diffusion、Midjourney、Dall-E 3 等商业文本转图像产品。

然而，由于时间固有的复杂性，大多数最新一代的工具只能制作几秒钟的短工具。

在此背景下，SORA的出现象征着一个重大突破——它是第一个能够基于人类指令生成长达一分钟**的模型，其意义可与ChatGPT在NLP领域的影响相媲美。

如图4所示，SORA的核心是扩散变压器，可以灵活处理不同维度的数据，主要由三部分组成：

1.首先，时空压缩器将原始**映射到潜空间。

2.接下来，Visual Transformer （VIT）模型处理已分割的潜在表示，并在去除噪声后输出潜在表示。

3.最后，一个类似于CLIP模型的系统引导扩散模型根据用户的指令（已通过大型语言模型增强）和潜在的视觉线索生成具有特定样式或主题的**。经过几个去噪过程后，获得生成的**的潜在表示，然后由相应的解码器将其映射回像素空间。

如图 5 所示，SORA 的标志之一是它能够处理、理解和生成各种尺寸，从宽屏的 1920x1080p 到纵向屏幕的 1080x1920p。

如图 6 所示，与仅在均匀裁剪的正方形上训练的模型相比，SORA 显示出更好的图像布局，确保完全捕捉到场景中的主体，避免了有时因正方形裁剪而截断图像的问题。

Sora对特征的细粒度理解和保留是生成模型领域向前迈出的重要一步。

它不仅展示了生成更逼真和更引人入胜的潜力**，而且还强调了训练数据多样性对于实现生成式 AI 高质量结果的重要性。

为了有效地处理各种各样的视觉输入，例如不同长度、锐度和图像比例的**和**，一个重要的方法是将这些视觉数据转换为统一的表示。这样做还有助于生成模型的大规模训练。

具体来说，SORA首先将**压缩为低维潜在空间，然后将表示分解为时空补丁。

如图 7 所示，SORA 的 ** 压缩网络（或视觉编码器）的目标是降低输入数据的维数，并输出在时空压缩中被压缩的潜在表示。

技术报告中的参考资料显示，这种压缩技术基于VAE或矢量量化-VAE（VQ-VAE）。然而，根据该报告，VAE很难在不调整图像大小和裁剪图像的情况下将不同大小的视觉数据映射到一个统一且固定大小的潜在空间中。

针对这个问题，研究人员确定了两种可能的技术实现：

1.空格补丁压缩。

此过程涉及将 ** 帧转换为固定大小的补丁，类似于 VIT 和 MAE 模型中使用的方法（如图 8 所示），然后将它们编码为潜在空间。

通过这种方式，模型可以有效地处理不同的分辨率和纵横比，因为它可以分析这些补丁以了解整个帧的内容。接下来，这些空间标记按时间顺序排列，形成时空潜在表示。

2.时空补丁压缩。

该技术包括数据的空间和时间维度，不仅考虑图片的静态细节，还关注图片之间的运动和变化，从而充分捕捉图片的动态特性。利用 3D 卷积是实现这种集成的一种简单而有效的方法。

压缩网络部分还有一个关键问题：在将补丁馈送到扩散转换器的输入层之前，如何处理潜在空间维度（即潜在特征块或不同类型的补丁的数量）的变化。

根据 SORA 的技术报告和相应的参考资料，补丁 n'Pack（pnp）很可能是一种解决方案。

如图 10 所示，PNP 将来自不同图像的多个补丁打包到单个序列中。

在这里，补丁和令牌嵌入步骤需要在压缩网络中完成，但 Sora 可能会像 Diffusion Transformer 一样，进一步将潜在的补丁平静到 Transformer 令牌中。

DIT和U-VIT是最早使用视觉变换器进行潜在扩散模型的机构之一。与VIT一样，DIT也采用了多头自注意力层和点卷积前馈网络，交错了一些层归一化和缩放层。

此外，DIT还通过自适应层归一化（ADALN）进行零初始化，并增加了一个额外的MLP层，使每个残差块都初始化为一个恒等函数，从而大大稳定了训练过程。

U-VIT将所有输入（包括时间、条件和噪声图像补丁）视为令牌，并提出了浅层和深层Transformer层之间的长跳连接。结果表明，U-VIT在图像和文本到图像生成方面取得了破纪录的FID分数。

与掩模自编码器（MAE）方法类似，掩模扩散转换器（MDT）也在扩散过程中增加了掩模潜伏模型，有效提高了图像中不同对象部分之间上下文关系的学习能力。

如图 12 所示，MDT 在训练阶段使用侧插值执行额外的掩码令牌重建任务，以提高训练效率并学习用于推理的强上下文感知位置嵌入。与 DIT 相比，MDT 具有更好的性能和更快的学习速度。

在另一项创新工作中，Diffusion Vision Transformer （Diffit）采用瞬态自注意力（TMSA）模块来模拟采样时间步长内的动态去噪行为。

此外，Diffit 采用两种混合分层架构，分别在像素空间和潜在空间进行高效去噪，并在各种生成任务中实现新的 SOTA。

由于世界的时空性质，在该领域应用DIT的主要挑战是：

1）如何在空间和时间上将**压缩到潜在空间中，以实现高效的去噪;

2）如何将压缩的潜空间转换为补丁并输入到变压器中;

3）如何处理远距离的时空依赖性，保证内容的一致性。

imagen video 是由 Google Research 开发的文本到图像生成系统，它利用级联扩散模型（由 7 个执行文本条件、空间和时间超分辨率的子模型组成）将文本提示转换为高清。

如图 13 所示，首先，冻结的 T5 文本编码器根据输入的文本提示生成上下文嵌入。随后，将嵌入信息注入基础模型以生成低分辨率**，然后通过级联扩散模型进行细化以提高分辨率。

Blattmann 等人提出了一种将二维潜伏扩散模型（LDM）转换为视频潜伏扩散模型（video LDM）的创新方法。

模型指令调优旨在增强 AI 模型准确跟随提示的能力。

为了提高遵循文本指令的文本到模型的能力，Sora 使用了与 DALL-E 3 类似的方法。

该方法涉及训练描述性标题生成模型，并使用模型生成的数据进行进一步的微调。

通过这种指令调优，SORA能够满足用户的各种要求，确保对指令中的细节给予精确的关注，最终的**能够满足用户的需求。

文本提示对于指导文本到模型模型（如 Sora）至关重要，使其既具有视觉冲击力又能精确地满足用户的创建需求。

这需要创建详细的指令来指导模型，以弥合人类创造力和人工智能执行能力之间的差距。

Sora的提示涵盖了广泛的场景。

最近的研究工作，如 VOP、Make-A-Video 和 Tune-A-Video，已经展示了提示工程如何利用模型的 NLP 功能来解码复杂的指令，并将它们呈现为连贯、生动和高质量的叙述。

如图 15 所示，一个经典的 sarra 演示展示了一个时尚的女人走在霓虹灯闪烁的东京街道上。

提示包括角色的动作、设置、角色外观，甚至所需的情绪，以及场景的氛围。

这是一个精心设计的文本提示，可确保 SORA 生成的 ** 与预期的视觉效果非常匹配。

提示工程的质量取决于单词的仔细选择、所提供细节的具体性以及对它们对模型输出影响的理解。

图像提示就是为生成的内容和其他元素（如人物、场景和情绪）提供视觉锚点。

此外，文本提示可以指示模型对这些元素进行动画处理，例如，通过添加动作、交互和叙事进展等图层来使静态图像栩栩如生。

通过使用图像提示，Sora 可以使用视觉和文本信息将静态图像转换为动态的、叙事驱动的**。

在图 16 中，显示了一个戴着贝雷帽和高领毛衣的 AI 生成的柴犬、一个独特的怪物家族、一朵形成 sora 这个词的云，以及一个在历史悠久的大厅里乘着巨浪的冲浪者。

这些示例演示了使用 DALL-E 生成的图像提示 SORA 可以实现的目标。

提示也可用于生成。

最近的研究（如fast-vid2vid）表明，好的提示需要具体和灵活。

这确保了模型在特定目标上得到明确的指导，例如对特定对象和视觉主题的描述，并且可以在最终输出中富有想象力地进行更改。

例如，在扩展任务中，提示可以指定扩展的方向（前进或后退时间）以及背景或主题。

在图 17（a）中，提示指示 SORA 向后延伸一个部分以探索原始起点的事件。

b）表明，在使用提示执行工具编辑时，模型需要清楚地了解所需的过渡，例如更改样式、场景或氛围，或更改照明或情绪等微妙方面。

c），提示指示 SORA 连接，同时确保现场不同场景中对象之间的平滑过渡。

SORA对各行各业的影响

最后，研究团队还研究了SORA在电影、教育、游戏、医疗保健和机器人领域可能产生的影响。

随着SORA所代表的扩散模型成为一项前沿技术，其在不同研究领域和行业的应用正在迅速加速。

这项技术的影响远远超出了单纯的创造，它为从自动化内容生成到复杂决策过程等任务提供了变革潜力。

*生成技术的出现预示着电影制作的新时代，从简单的文本制作自己的电影的梦想正在成为现实。

研究人员已经涉足电影生成领域，将生成模型扩展到电影创作。

例如，使用 MovieFactory 从 ChatGPT 使用扩散模型制作的脚本生成电影风格的 **，整个工作流程已经运行完毕。

MobileVidFactory 只需提供来自用户的文本即可自动生成垂直移动**。

Sora 能够毫不费力地让用户生成爆炸性的电影剪辑，这标志着任何人都可以制作电影的时刻。

这将大大降低电影业的进入门槛，并为电影制作引入一个新的维度，将传统叙事与人工智能驱动的创造力相结合。

这种人工智能的影响不仅仅是让电影制作变得简单，而且它有可能重塑电影制作格局，在面对不断变化的观众偏好和发行渠道时变得更加容易获得和通用。

人们说，2024年是机器人的第一年。

正是因为大模型的爆发，再加上第一款模型的迭代升级，机器人才进入了一个新时代

生成和解释具有增强感知和决策能力的复杂序列。

特别是，扩散模型为机器人解锁了新功能，使它们能够与环境交互并以前所未有的复杂性和精度执行任务。

在机器人技术中引入网络规模的扩散模型证明了使用大规模LLM来增强机器人视觉和理解的潜力。

例如，在DALL-E的加持下，机器人可以准确地排列餐盘。

另一项新技术是潜扩散模型。

它可以通过语言引导，使机器人能够理解并通过***中的动作结果来执行任务。

此外，机器人研究对环境模拟的依赖可以通过扩散模型来解决，扩散模型可以创建高度逼真的序列。

通过这种方式，可以为机器人生成多样化的训练场景，打破缺乏真实世界数据造成的限制。

研究人员认为，将SORA等技术整合到机器人领域有望带来突破。

利用SORA的力量，机器人技术的未来将以前所未有的方式发展，机器人可以无缝导航并与周围环境互动。

此外，对于游戏、教育、医疗等行业来说，AI**模式也将为此带来深刻的变化。

最后，好消息是，虽然SORA还没有开放，但我们可以申请红队测试。

从申请表可以看出，OpenAI正在寻找认知科学、化学、生物学、物理学、计算机、经济学等以下领域的专家。

符合条件的学生可以申请！

长文解释中国如何复制索拉！ 996 OpenAI 研究员 Sora 是 GPT 2 时刻

相似文章

印度能否复制中国的崛起？网友和民国太像了，有四个致命的缺陷！

同时翻拍！神里绫和赛诺如何选择？大佬是这么说的

返回页首解读中国复兴之路

北斗系统中国科技底牌，演绎前瞻未来全球定位

2024年、2024年中国乙二醇产业链前瞻解读及市场需求分析

长文解释中国如何复制索拉！ 996 OpenAI 研究员 Sora 是 GPT 2 时刻

相似文章

印度能否复制中国的崛起？网友和民国太像了，有四个致命的缺陷！

同时翻拍！神里绫和赛诺如何选择？大佬是这么说的

返回页首 解读中国复兴之路

北斗系统中国科技底牌，演绎前瞻未来全球定位

2024年、2024年中国乙二醇产业链前瞻解读及市场需求分析

返回页首解读中国复兴之路