在过去的一周里,相信大家的朋友圈都被一个词刷过:sora。
2月16日凌晨,在没有任何预警和消息披露的情况下,OpenAI突然发布了首款文盛模型:SORA,大幅刷新了行业多个指标,一次性将生成时间提升了15倍,颠覆了该领域生成式AI的全球市场格局。
OpenAI新人气SORA热度持续发酵,以黑马身份占据各大平台话题中心——马斯克感叹“人类甘愿赌博输”; 杨丽坤批评“SORA不是世界模型,参数数量可能只有30亿”; 周弘毅预测“AGI的实现时间将从10年缩短到1年”......
似乎在一夜之间,人们又回到了一年多前那个焦虑的“chatgpt时刻”。 在争议之外,索拉的“牛”在哪里? 对于创业者和行业来说,会不会引出“**?
丁博士在人工智能领域拥有20多年的研究和工作经验,曾为硅谷公司PayPal创立了人工智能平台,并出版了《生成式AI》一书。 中信学院邀请丁磊博士从资深从业者的角度为我们梳理思路。
来源 |中信书院 (ID: CITICBOOK) 作者 |编辑:丁磊|三昧。
从文本到**sora是多么“可怕”
OpenAI 发布了 Sora 基于一段文字生成的 60 秒**,要知道不久前,谷歌最新的**生成模型 VideoPoet 发布,它的生成**只有 10 秒。
当然,SORA的突破不仅仅在时长上,这60秒**,无论是流畅度和稳定性,还是对光影反射、运动模式等细节的处理,尤其是对物理世界的学习能力,都表现出了非常高的水平。
那么,Sora究竟是如何根据一段文字生成如此惊人的**的呢?
我们知道**是由一帧一帧连接起来的,如果我们想理解“文本生成”,首先要理解“文本生成”。
近两年,随着Midjourney、Stable Diffusion、Dall-E等一流世代工具的出现,以及性能的升级和强化,几乎与ChatGPT一起,人们对生成式AI的关注度被推到了前所未有的高度。 这些工具能够根据提示创建非常不同的风格和丰富的内容,并且它们对细节的处理已经相当不错(参见图 1)。
图1:生成工具生成的图像源:这些生成工具的背后,是一条叫做扩散模型的关键技术,它可以连续地将一个类似马赛克的**与提示词提供的信息结合起来,多次还原,最终形成一个完整清晰的**。
扩散模型的完整扩散过程包括正向扩散和反向扩散两个过程(如图2所示),在正向扩散过程中,**通过逐渐添加高斯噪声而变得模糊,在反向扩散过程中,通过学习正向和反向过程对模型进行训练,并将两者结合起来,形成最终的扩散模型。
图2:扩散模型扩散过程。
既然我们有了**,为了得到最终的**,我们需要想办法让**移动,这需要著名的变形金刚模型。
Transformer 模型是一个强大的模型,用于处理各种序列问题,一个是文本生成,ChatGPT 使用 Transformer 模型根据用户输入的提示词生成连续的文本内容。 另一种类型是生成,因为它本质上是由连续的帧组成的,我们也可以将其理解为图像数据的序列,无非是它在图像领域的自然延伸。
在实践中,SORA将**分解为更小的数据单元补丁(时空片段),每个补丁相当于文本序列模型中的一个令牌(token),这也是SORA最重要的概念之一。
从SORA生成的**中,我们似乎能够感知到,它就像拥有了理解世界常识的能力,能够准确地模拟事物在现实世界中的真实表现,比如最基本的动作连贯性、流体操作的形状、与动物的光影变化、 物体尺寸的比例等,无不呈现出仿佛在现实生活中拍摄的**,令人叹为观止。
例如,给出提示:“镜头跟随一辆白色老式 SUV,顶部有一个黑色行李架,它加速穿过一条被松树包围的陡峭土路,地形陡峭,车轮卷起灰尘。 SORA生成汽车在山间驰骋的**(图3),而“世界模型”需要**车轮胎与路面的相互作用形成的车轮痕迹,汽车疾驰时扬起的灰尘,以及一系列的光影变化。
图 3:SORA 生成的 ** 部分截图 来源:OpenAI 官网。
SORA的出现,不仅在生成领域带来了新的应用体验,也让人们对生成式AI有了新的认识和思考,它具有生成内容和理解世界的能力。
三维看SORA引起的“**”
SORA真正令人惊奇的是,该模型可以理解物体在物理世界中的存在和运行方式,并且该模型可以学习物理世界的规律并准确模拟真实的物理世界。 随着这种能力的进一步深化,SORA驱动的人工智能的跨越式发展,将大大拉近我们与未来更加通用的智能世界的距离。
点燃AI产业投资热情。
资本市场一直非常敏感,SORA引爆了资本对AI产业的投资热情,涉及AI概念的整体轨迹,更多的人看到了生成式AI的发展和希望。 其中,科技巨头仍走在前列,国内外科技巨头都在加大对AI技术的持续投入。
随后,无论是互联网、信息、金融、零售等行业,都有更多企业宣布积极投入大模型和AI相关布局的研发。 越来越多的投资者也意识到,要使人工智能在特定行业得到更广泛和更深入的应用,需要更多的投入和耐心,这对生产力水平的提高和产业结构的调整和发展也具有深远的意义。
给行业带来了“巨大的地震”
最先受到影响的无疑是影视、短片、广告、互动娱乐等。 SORA可以快速生成高质量的**内容,大大降低了特效和高风险镜头的制作成本,提高了内容制作的效率。 借助SORA,广告公司可以快速创建满足市场需求的最佳广告,缩短从创意到成品的周期。
而这将是一把双刃剑,**内容制作成本和门槛将大大降低,同时也会加剧行业竞争,它对创作者提出了更高的要求,创作者必须不断创新,才能保持自己作品的吸引力和市场占有率。
我们离失业还很远吗?
不仅**,生成式AI带动了文本、图像、音频等各种内容生成技术的快速发展,应用场景的快速演进,将影响到各行各业,这也加剧了人们的担忧和担忧,有人不禁感叹“硅基生命终将取代碳基生命”和“AI接管人类社会的步伐正在加快”。 有些人可能会选择完全“躺平”,认为人工智能进化得太快了,甚至可以学习物理世界,而我们离失业还很遥远!
目前,各种生成式AI模型仍处于发展阶段,还有待进一步应用,现在谈论它们是否能取代人类的工作还为时过早,但这并不能否认AI的影响。 人工智能带来的变化深深植根于各行各业,深深植根于我们生活的每一个角落。
人工智能的快速发展将大大提高生产效率和工作方式,重新定义人在工作中的位置。 随着越来越多的新职业和新岗位的出现,如AI产品经理、提示工程师、AI创作者、AI调音师等,这些职业的需求和数量将逐渐增加,可以说AI也会带来职业结构的变化。
与其说是AI取代了从业者,不如说是AI取代了枯燥繁重的工作内容,AI不会淘汰人类,而是淘汰落后的生产力。 当谈到人工智能时,我们不应该将其视为竞争对手,而应将其视为我们合作、训练和使用的合作伙伴。 俗话说,君子不一样,做事就行。
从SORA到世界模型的生成式AI的未来就在这里。
面对SORA带来的冲击,人们的反应也可以说是喜忧参半。 一方面,我们见证了生成式AI的又一个“奇迹”,另一方面,我们或许会发现,大型语言模型离解决实际问题还很遥远,“驯服”大型模型还需要时间。
一些研究声称,随着越来越多的人使用它,大型模型似乎变得更笨,甚至出现了“幻觉”。 造成这个问题的主要原因是,目前主流的生成模型仍然缺乏对物理世界的理解,以至于普通人容易回答的问题在大模型眼中无法给出正确的输出。
SORA的出现让我们更加意识到了这个问题,也为生成式AI的未来发展提供了方向,就是让大模型理解和学习物理世界,建立大模型与物理世界的联系。 这将不可避免地导致人工智能的新应用和突破。 有人认为,SORA意味着实现通用人工智能的时间大大缩短。
人脑感知事物的过程类似于模型。 从认识论的角度来看,在人脑的认知过程中,逐渐形成了一个“世界模型”。 人们的主观知识不一定从一开始就符合现实规律,而是通过不断的实践和不断的比较,对模型得到的预期结果和实践结果进行修正,以缩小模型与实践的差异。 这种调整机制可以使人脑的世界模型更接近真相。
这就好比说,体育是人类对物质世界的认知和学习过程的体现。 以乒乓球为例,运动员一开始就可以掌握最简单的推攻技巧,一般可以处理常规的来球,回球路线也符合他们的预期。 随着来球速度和旋转的变化,球员发现很难完全应对之前的接球技巧,回球时而入网,时而出网。
球员们逐渐意识到,他们可以通过调整球拍接球的强度和角度来应对不同的来袭情况。 随着来球变得越来越多样化,大脑变得越来越复杂,构建一个“世界模型”,然后很容易处理场上的任何情况。 这就是人类“世界模型”认知和学习的过程。
“世界模型”也是心理学和工程学科学中的一个重要概念。 例如,知名 AI 科学家 Yann Lecun 在谈到机器智能时提到了世界模型的重要性:世界模型模块构成了架构中最复杂的部分,其作用包括估计有关世界状态以及世界未来状态的缺失信息(图 4)。
图 4:自主智能的系统架构(从原始图中简化) 资料来源:Yann Lecun,“通往自主机器智能的道路”。
世界模型可以看作是世界相关方面的一种“模拟器”,它模拟了真实的物理世界,使机器和人类一样,对世界有了全面而准确的理解,可以是世界的自然演化,也可以是特定行为产生的未来世界状态。
回到SORA的讨论,SORA带给人们的震撼是,它似乎通过学习,在物理场景中不断创造一个“知识系统”,通过整合这些知识,产生高质量的内容,为人类带来真实的视觉体验。 当然,如果我们以“世界模型”的标准重新审视当前一代的结果,SORA距离真正意义上的“世界模型”还有很长的路要走。
一方面,SORA在处理复杂的场景和物理效果时仍然存在一些缺点。 例如,当场景涉及多个物体的交互或复杂的物理运动时,SORA可能会出错或偏差。
另一方面,SORA主要依靠大量的训练数据来学***的生成规律,虽然有效,但在一定程度上限制了其在新场景下的泛化能力。
一旦AI与物理世界建立了连接,学会了“世界模型”,AI的推理和先进能力将实现突破,这将在许多应用场景和专业领域大有可为。 这样的AI能够执行复杂的任务和操作,甚至能够完全模仿人类智能的行为,最终实现通用人工智能。
引领科技革命。
为什么这次又是美国?
我为硅谷公司PayPal建立了一个数据科学平台,服务全球用户,我在AI领域有20多年的研究和工作经验。 在硅谷工作多年,我很清楚为什么像 OpenAI 和 Sam Altman 这样的人会出生在硅谷——是硅谷的“工程师文化”造就了他们。
OpenAI是美国硅谷重视工程师地位的文化土壤,有着很强的“工程师文化基因”,简单来说就是工程师可以引领研发,拥有更大的自主权,拥有更大的创造力空间。
同时,OpenAI坚持产品驱动,没有知识分子的明确高度,无论是Transformer还是Instruction Tuning等算法模型,它都不会因为别人发明而回避它,而是坚持“要么接受,要么放弃”的原则,继续在自己的大模型中努力。 对于一个企业来说,最大的价值创造永远在用户使用的产品中。
那么,为什么谷歌这样的大公司很难在人工智能领域的研发上超越OpenAI呢?
一个关键因素是,这些大公司仍然按照原有的软件开发方法开发新的AI技术,将任务拆分为不同的细分领域,多部门人员负责细分业务,这就是“养鸡模式”。
以大模型训练为核心的新兴AI技术研发本质上是一项艰巨的任务,这就要求核心领导层在技术、产品、业务层面具备端到端的愿景和管理能力。 这更像是一种“育儿模式”,家长需要站在大局观上,亲自教导和训练孩子,也就是说,孩子的教育不需要那么多老师,核心人物也就只有少数。 根据 OpenAI 发布的 SORA 技术报告,SORA 创作团队只有 13 人。
值得一提的是,OpenAI的CEO山姆·奥特曼(Sam Altman)个人能力非常强,不仅懂技术,还懂业务运营,甚至在去年年底发生举世闻名的“公斗”事件后,他都能迅速回到原来的位置,可见他的影响力之强。 正是有了这样一位统控公司整体运营模式,避免过于受股东约束的领导者,OpenAI才能始终走在AI技术创新的最前沿。
就AI产业的发展而言,中国的人才不亚于美国,想要在AI竞争中快速占据有利位置,不妨加快布局,充分尊重模型训练本身的规律,用客观全面的AI思维迎接新一轮的挑战。
在我的新书《生成式人工智能:AIGC的逻辑和应用》中,我详细研究了AIGC的未来趋势及其对个人的影响。
推荐阅读]丁磊的《生成式人工智能》阐述了人工智能的未来,这是一本了解AIGC逻辑和应用的书。
本文为原创,**转载请注明出处:中信书院。