丁磊5000字，面对空，不废话！

在过去的一周里，相信大家的朋友圈都被一个词刷过：sora。

2月16日凌晨，在没有任何预警和消息披露的情况下，OpenAI突然发布了首款文盛模型：SORA，大幅刷新了行业多个指标，一次性将生成时间提升了15倍，颠覆了该领域生成式AI的全球市场格局。

OpenAI新人气SORA热度持续发酵，以黑马身份占据各大平台话题中心——马斯克感叹“人类甘愿赌博输”; 杨丽坤批评“SORA不是世界模型，参数数量可能只有30亿”; 周弘毅预测“AGI的实现时间将从10年缩短到1年”......

似乎在一夜之间，人们又回到了一年多前那个焦虑的“chatgpt时刻”。在争议之外，索拉的“牛”在哪里？对于创业者和行业来说，会不会引出“**？

丁博士在人工智能领域拥有20多年的研究和工作经验，曾为硅谷公司PayPal创立了人工智能平台，并出版了《生成式AI》一书。中信学院邀请丁磊博士从资深从业者的角度为我们梳理思路。

来源 |中信书院（ID： CITICBOOK）作者 |编辑：丁磊|三昧。

从文本到**sora是多么“可怕”

OpenAI 发布了 Sora 基于一段文字生成的 60 秒**，要知道不久前，谷歌最新的**生成模型 VideoPoet 发布，它的生成**只有 10 秒。

当然，SORA的突破不仅仅在时长上，这60秒**，无论是流畅度和稳定性，还是对光影反射、运动模式等细节的处理，尤其是对物理世界的学习能力，都表现出了非常高的水平。

那么，Sora究竟是如何根据一段文字生成如此惊人的**的呢？

我们知道**是由一帧一帧连接起来的，如果我们想理解“文本生成”，首先要理解“文本生成”。

近两年，随着Midjourney、Stable Diffusion、Dall-E等一流世代工具的出现，以及性能的升级和强化，几乎与ChatGPT一起，人们对生成式AI的关注度被推到了前所未有的高度。这些工具能够根据提示创建非常不同的风格和丰富的内容，并且它们对细节的处理已经相当不错（参见图 1）。

图1：生成工具生成的图像源：这些生成工具的背后，是一条叫做扩散模型的关键技术，它可以连续地将一个类似马赛克的**与提示词提供的信息结合起来，多次还原，最终形成一个完整清晰的**。

扩散模型的完整扩散过程包括正向扩散和反向扩散两个过程（如图2所示），在正向扩散过程中，**通过逐渐添加高斯噪声而变得模糊，在反向扩散过程中，通过学习正向和反向过程对模型进行训练，并将两者结合起来，形成最终的扩散模型。

图2：扩散模型扩散过程。

既然我们有了**，为了得到最终的**，我们需要想办法让**移动，这需要著名的变形金刚模型。

Transformer 模型是一个强大的模型，用于处理各种序列问题，一个是文本生成，ChatGPT 使用 Transformer 模型根据用户输入的提示词生成连续的文本内容。另一种类型是生成，因为它本质上是由连续的帧组成的，我们也可以将其理解为图像数据的序列，无非是它在图像领域的自然延伸。

在实践中，SORA将**分解为更小的数据单元补丁（时空片段），每个补丁相当于文本序列模型中的一个令牌（token），这也是SORA最重要的概念之一。

从SORA生成的**中，我们似乎能够感知到，它就像拥有了理解世界常识的能力，能够准确地模拟事物在现实世界中的真实表现，比如最基本的动作连贯性、流体操作的形状、与动物的光影变化、物体尺寸的比例等，无不呈现出仿佛在现实生活中拍摄的**，令人叹为观止。

例如，给出提示：“镜头跟随一辆白色老式 SUV，顶部有一个黑色行李架，它加速穿过一条被松树包围的陡峭土路，地形陡峭，车轮卷起灰尘。 SORA生成汽车在山间驰骋的**（图3），而“世界模型”需要**车轮胎与路面的相互作用形成的车轮痕迹，汽车疾驰时扬起的灰尘，以及一系列的光影变化。

图 3：SORA 生成的 ** 部分截图来源：OpenAI 官网。

SORA的出现，不仅在生成领域带来了新的应用体验，也让人们对生成式AI有了新的认识和思考，它具有生成内容和理解世界的能力。

三维看SORA引起的“**”

SORA真正令人惊奇的是，该模型可以理解物体在物理世界中的存在和运行方式，并且该模型可以学习物理世界的规律并准确模拟真实的物理世界。随着这种能力的进一步深化，SORA驱动的人工智能的跨越式发展，将大大拉近我们与未来更加通用的智能世界的距离。

点燃AI产业投资热情。

资本市场一直非常敏感，SORA引爆了资本对AI产业的投资热情，涉及AI概念的整体轨迹，更多的人看到了生成式AI的发展和希望。其中，科技巨头仍走在前列，国内外科技巨头都在加大对AI技术的持续投入。

随后，无论是互联网、信息、金融、零售等行业，都有更多企业宣布积极投入大模型和AI相关布局的研发。越来越多的投资者也意识到，要使人工智能在特定行业得到更广泛和更深入的应用，需要更多的投入和耐心，这对生产力水平的提高和产业结构的调整和发展也具有深远的意义。

给行业带来了“巨大的地震”

最先受到影响的无疑是影视、短片、广告、互动娱乐等。 SORA可以快速生成高质量的**内容，大大降低了特效和高风险镜头的制作成本，提高了内容制作的效率。借助SORA，广告公司可以快速创建满足市场需求的最佳广告，缩短从创意到成品的周期。

而这将是一把双刃剑，**内容制作成本和门槛将大大降低，同时也会加剧行业竞争，它对创作者提出了更高的要求，创作者必须不断创新，才能保持自己作品的吸引力和市场占有率。

我们离失业还很远吗？

不仅**，生成式AI带动了文本、图像、音频等各种内容生成技术的快速发展，应用场景的快速演进，将影响到各行各业，这也加剧了人们的担忧和担忧，有人不禁感叹“硅基生命终将取代碳基生命”和“AI接管人类社会的步伐正在加快”。有些人可能会选择完全“躺平”，认为人工智能进化得太快了，甚至可以学习物理世界，而我们离失业还很遥远！

目前，各种生成式AI模型仍处于发展阶段，还有待进一步应用，现在谈论它们是否能取代人类的工作还为时过早，但这并不能否认AI的影响。人工智能带来的变化深深植根于各行各业，深深植根于我们生活的每一个角落。

人工智能的快速发展将大大提高生产效率和工作方式，重新定义人在工作中的位置。随着越来越多的新职业和新岗位的出现，如AI产品经理、提示工程师、AI创作者、AI调音师等，这些职业的需求和数量将逐渐增加，可以说AI也会带来职业结构的变化。

与其说是AI取代了从业者，不如说是AI取代了枯燥繁重的工作内容，AI不会淘汰人类，而是淘汰落后的生产力。当谈到人工智能时，我们不应该将其视为竞争对手，而应将其视为我们合作、训练和使用的合作伙伴。俗话说，君子不一样，做事就行。

从SORA到世界模型的生成式AI的未来就在这里。

面对SORA带来的冲击，人们的反应也可以说是喜忧参半。一方面，我们见证了生成式AI的又一个“奇迹”，另一方面，我们或许会发现，大型语言模型离解决实际问题还很遥远，“驯服”大型模型还需要时间。

一些研究声称，随着越来越多的人使用它，大型模型似乎变得更笨，甚至出现了“幻觉”。造成这个问题的主要原因是，目前主流的生成模型仍然缺乏对物理世界的理解，以至于普通人容易回答的问题在大模型眼中无法给出正确的输出。

SORA的出现让我们更加意识到了这个问题，也为生成式AI的未来发展提供了方向，就是让大模型理解和学习物理世界，建立大模型与物理世界的联系。这将不可避免地导致人工智能的新应用和突破。有人认为，SORA意味着实现通用人工智能的时间大大缩短。

人脑感知事物的过程类似于模型。从认识论的角度来看，在人脑的认知过程中，逐渐形成了一个“世界模型”。人们的主观知识不一定从一开始就符合现实规律，而是通过不断的实践和不断的比较，对模型得到的预期结果和实践结果进行修正，以缩小模型与实践的差异。这种调整机制可以使人脑的世界模型更接近真相。

这就好比说，体育是人类对物质世界的认知和学习过程的体现。以乒乓球为例，运动员一开始就可以掌握最简单的推攻技巧，一般可以处理常规的来球，回球路线也符合他们的预期。随着来球速度和旋转的变化，球员发现很难完全应对之前的接球技巧，回球时而入网，时而出网。

球员们逐渐意识到，他们可以通过调整球拍接球的强度和角度来应对不同的来袭情况。随着来球变得越来越多样化，大脑变得越来越复杂，构建一个“世界模型”，然后很容易处理场上的任何情况。这就是人类“世界模型”认知和学习的过程。

“世界模型”也是心理学和工程学科学中的一个重要概念。例如，知名 AI 科学家 Yann Lecun 在谈到机器智能时提到了世界模型的重要性：世界模型模块构成了架构中最复杂的部分，其作用包括估计有关世界状态以及世界未来状态的缺失信息（图 4）。

图 4：自主智能的系统架构（从原始图中简化）资料来源：Yann Lecun，“通往自主机器智能的道路”。

世界模型可以看作是世界相关方面的一种“模拟器”，它模拟了真实的物理世界，使机器和人类一样，对世界有了全面而准确的理解，可以是世界的自然演化，也可以是特定行为产生的未来世界状态。

回到SORA的讨论，SORA带给人们的震撼是，它似乎通过学习，在物理场景中不断创造一个“知识系统”，通过整合这些知识，产生高质量的内容，为人类带来真实的视觉体验。当然，如果我们以“世界模型”的标准重新审视当前一代的结果，SORA距离真正意义上的“世界模型”还有很长的路要走。

一方面，SORA在处理复杂的场景和物理效果时仍然存在一些缺点。例如，当场景涉及多个物体的交互或复杂的物理运动时，SORA可能会出错或偏差。

另一方面，SORA主要依靠大量的训练数据来学***的生成规律，虽然有效，但在一定程度上限制了其在新场景下的泛化能力。

一旦AI与物理世界建立了连接，学会了“世界模型”，AI的推理和先进能力将实现突破，这将在许多应用场景和专业领域大有可为。这样的AI能够执行复杂的任务和操作，甚至能够完全模仿人类智能的行为，最终实现通用人工智能。

引领科技革命。

为什么这次又是美国？

我为硅谷公司PayPal建立了一个数据科学平台，服务全球用户，我在AI领域有20多年的研究和工作经验。在硅谷工作多年，我很清楚为什么像 OpenAI 和 Sam Altman 这样的人会出生在硅谷——是硅谷的“工程师文化”造就了他们。

OpenAI是美国硅谷重视工程师地位的文化土壤，有着很强的“工程师文化基因”，简单来说就是工程师可以引领研发，拥有更大的自主权，拥有更大的创造力空间。

同时，OpenAI坚持产品驱动，没有知识分子的明确高度，无论是Transformer还是Instruction Tuning等算法模型，它都不会因为别人发明而回避它，而是坚持“要么接受，要么放弃”的原则，继续在自己的大模型中努力。对于一个企业来说，最大的价值创造永远在用户使用的产品中。

那么，为什么谷歌这样的大公司很难在人工智能领域的研发上超越OpenAI呢？

一个关键因素是，这些大公司仍然按照原有的软件开发方法开发新的AI技术，将任务拆分为不同的细分领域，多部门人员负责细分业务，这就是“养鸡模式”。

以大模型训练为核心的新兴AI技术研发本质上是一项艰巨的任务，这就要求核心领导层在技术、产品、业务层面具备端到端的愿景和管理能力。这更像是一种“育儿模式”，家长需要站在大局观上，亲自教导和训练孩子，也就是说，孩子的教育不需要那么多老师，核心人物也就只有少数。根据 OpenAI 发布的 SORA 技术报告，SORA 创作团队只有 13 人。

值得一提的是，OpenAI的CEO山姆·奥特曼（Sam Altman）个人能力非常强，不仅懂技术，还懂业务运营，甚至在去年年底发生举世闻名的“公斗”事件后，他都能迅速回到原来的位置，可见他的影响力之强。正是有了这样一位统控公司整体运营模式，避免过于受股东约束的领导者，OpenAI才能始终走在AI技术创新的最前沿。

就AI产业的发展而言，中国的人才不亚于美国，想要在AI竞争中快速占据有利位置，不妨加快布局，充分尊重模型训练本身的规律，用客观全面的AI思维迎接新一轮的挑战。

在我的新书《生成式人工智能：AIGC的逻辑和应用》中，我详细研究了AIGC的未来趋势及其对个人的影响。

推荐阅读]丁磊的《生成式人工智能》阐述了人工智能的未来，这是一本了解AIGC逻辑和应用的书。

本文为原创，**转载请注明出处：中信书院。

丁磊5000字，面对空，不废话！

相似文章

5000字2024年投资历程回顾熊市结束了！

大鼎通宝背字，单件5000余件

5000字超详细年终总结模板

《刑法典》中的犯罪形式（5,000字）。

看完5000字详细电动牙刷评测买不踩雷，惠乐、松下、雷芬、飞利浦

丁磊5000字，面对空，不废话！

相似文章

5000字2024年投资历程回顾 熊市结束了！

大鼎通宝背字，单件5000余件

5000字超详细年终总结模板

《刑法典》中的犯罪形式（5,000字）。

看完5000字详细电动牙刷评测买不踩雷，惠乐、松下、雷芬、飞利浦

5000字2024年投资历程回顾熊市结束了！