Sora爆炸下的冷思考生成式AI的精彩还在泡沫背后

温清源。编辑：程默。

* 10,000 点研究。

天空中没有翅膀的痕迹，但我已经飞过了。泰戈尔的名言，恰恰可以形容OpenAI的**生成模型SORA（日语“天空”发音）对**领域的惊人影响。

在SORA的简报下，被誉为“生成式AI硬件霸主”的英伟达市值已突破2万亿美元大关，其创始人黄仁勋成为人类科技发展的顶级布道者。而就在十几个月前，受到加密货币泡沫破灭打击的英伟达股价暴跌了60%，《经济学人》杂志甚至落入了陷阱：“当他透过眼镜看着他认为会改变人工智能面貌的花哨新模型，以及元宇宙等更模糊的概念时，有没有一种危险，他会低估此时此地的残酷性？ ”

在一系列令人眼花缭乱的生成式人工智能技术**问世之际，投资者对生成式人工智能的未来越来越感到兴奋。

事实上，早在四分之一个世纪前，技术奇点理论的布道者雷·库兹韦尔（Ray Kurzweil）在他的代表作《灵魂机器时代》中，就对“大规模并行神经网络计算机”的发展充满期待，而**2020年左右，在这个算力基础的支持下，人工智能技术将实现一些里程碑：

绝大多数业务交易场景都包含虚拟人;

大多数道路都配备了自动驾驶系统;

人们开始将机器人作为伴侣、老师、照顾者甚至恋人;

虚拟艺术家出现在各种艺术领域;

* 据广泛报道，计算机已经通过了图灵测试，尽管这些测试尚未达到专家批准的标准。

在经历了 20 多年的兴奋和失望之后，OpenAI 的崛起似乎已经让我们赶上了未来科学界所描绘的进步里程碑。

低调的深度学习教父杰弗里·辛顿（Geoffrey Hinton）也对生成式人工智能的技术意义赞不绝口：“人工智能对世界的改变比人类历史上任何事情都大，在规模上可以与工业革命相媲美，或者车轮和电力的发明。（"ai is going to change the world more than anything in the history of humanity.”）

的确，即使他们不能说出像Hinton或Huang这样的大牌的金句，普通大众也不难从ChatGPT和Sora的病毒式传播中醒来，并意识到正在发生重大变化。如果说2016年的Alphago人机大战完成了人工智能“有用性”的普及，那么现在越来越火爆的AI模型，也算是“易用性”的鲜明论证。

声称SORA代表了OpenAI的底层模型具备了识别和理解现实世界的能力，AI足以生成自己的开放世界，并在这个世界中自我交互和进化，通往通用人工智能（AGI）的道路已经完成。

不过，过滤掉李一舟式的“马上土法”玩家，围绕生成式AI的解释已经用尽，却能真正解释“有什么用？它有多大用处？这些本质问题仍然没有明确的答案，事实上，已经打磨出来的技术和业务演进的故事已经非常接近了许多关键的里程碑并不是事先存在于技术天才的脑海中，而是研究界在工程实践中相互启发的共识的结果，或者它们只是由神经网络模型自己“涌现”出来的"特性。

人们不知道他们想要什么，直到你把它展示在你眼前“，史蒂夫乔布斯的这句名言既适用于创新的受众，也适用于创新的主题。

以 OpenAI 为例，其 GPT 模型的性能“浮现”，是一次工程探索中模型参数数量提升带来的“意外”，至于 SORA 展现的帧间一致性和对象一致性，项目开发者 Tim Brooks 也承认，这是一种没有提前设定的能力，从所谓的扩散变压器工程原理来看，SORA或许谈不上“世界模型”，按照Yann Lecun对世界模型的描述，其中真实物理世界的直觉“常识”是必要的，显然与擅长近似隐含概率分布的传统神经网络路径格格不入，而这种惊人的效果可能只能证明SORA已经学会了物理定律的概率分布，而不是物理定律本身。

从技术路线的角度来看，Sora仍然没有证明或证伪一个极其重要的问题：面对神经网络的“黑匣子”，剧烈提升复杂性的缩放定律是通往AGI的可行路径，还是唾手可得的果实被摘下并喂饱后的甜蜜幻觉？

如果答案是前者，那么毫无疑问，美国已经牢牢捏住了所有导致AGI的关键芯片，从以英伟达为代表的基础设施**，到OpenAI、谷歌等大型模型开发商，其相对于海外竞争对手的优势令人惊叹，而其对主要竞争对手中国的反复打压，也表明了美国人主动捍卫这一优势的决心，但在美国，AI产业“赢得高光时刻”，或许有必要同时记住一个冰冷的定律：命运的馈赠往往同时包含着代价。

在埃森哲之前进行的一项关于生成式人工智能对人类工作影响的研究中，银行、保险和软件位列风险敞口最高的前三大行业之列，众所周知，这些是当前美国经济的高端支柱。

如果答案是后者，那么人工智能史上第一个大低谷的判断也可以无缝地挪用到今天：“第一个爬树的人可以说这是飞向月球的显着进步”。

在缩放定律边际效应递减的情况下，大语言和写作模型的应用能否克服间歇性幻觉和灾难性遗忘，避免输出类似前段时间“动车组列车温度达到1538”的笑话？

以SORA为例，其应用前景能否指向所谓的“一句话生成一部电影”？从目前的推测来看，如果模型不能实现连续的提示修正，而只能依靠提示反复尝试掷骰子的效果，那么它在图像制作场景中的应用仍将是昙花一现，哪怕是短期广告制作，其细分市场规模能否支撑目前不低于10万亿美元的生成式AI概念？

无论如何，值得强调的是，自工业革命开始以来，今天公众对SORA的热情已经重复了很多次，每次都认为自动化带来的人类社会新时代只是一箭之遥。看看控制论之父维纳在1950年的著作《人类的有用性》中讨论的机器取代人类的可能性及其影响，以及它与今天的**主题有多么相似：“从这个阶段开始，所有的工作都可以由机器完成。这种机械化的方法也适用于工业企业图书馆和档案馆的绝大多数工作。换句话说，机器对体力劳动形式的体力劳动或文书工作没有偏好。因此，新的工业革命将能够渗透到广泛的领域，包括执行所有不需要太多大脑的任务。新工业革命是一把双刃剑，它可以用来造福人类，也可以用来毁灭人类，如果我们不明智地使用它，它可能会发展到非常快的地步。 “

当然，如今的ChatGPT、SORA甚至更早的AlphaGo，虽然对大众的感知影响是明显而深刻的，但对于任何一个切换到生产者视角的普通人来说，不难立刻明白，他们的能力和场景与生产力工具的要求之间还有很深的差距，激发了公众的好奇心，只是从技术可能性到商业变革的长征的第一步。

让时间来证明答案也许是最明智的态度。

毋庸置疑，现在的AI狂潮堪比千年互联网泡沫，当时狂热的投资者和创业者也愿意在没有明确应用场景的情况下，把一切都放在想象中的变化愿景上，而泡沫破灭后不久，亚马逊在2001年圣诞购物季扭亏为盈，标志着互联网经济找到了方向感。

一次又一次，人们因为看到高峰而出发，又因寻找路径而望而却步，直到在低谷和边缘，工程和应用创新的重大突破自下而上点燃，历史脉络总是那么简洁深刻。

以史为例，生成式人工智能的产业化之路可能还是这样，前行迷茫，后看清晰。在各大平台巨头的AI算力和AI模型的“军备竞赛”完成后，OpenAI甚至英伟达的资本泡沫或许都无法逃脱清朝的命运，抢紧抓住时机套现价值，这或许是前者精心包装SORA做公关的用意，但这个行业的兴奋可能要等到泡沫破灭才能真正上演。

库兹韦尔的另一个预测可以作为本文的结论和期望：“考虑到所有这些因素，可以合理地估计，到2020年左右，一台价值1000美元的个人电脑在计算速度和容量方面将与人脑相当，特别是在神经连接（人脑的主要计算模式）方面。

Sora爆炸下的冷思考生成式AI的精彩还在泡沫背后

相似文章

人工智能热潮下的冷思维大型模型已经从“通才”转变为“专家”。

烟花爆竹销售热潮下的冷思考：极简主义商业模式的启蒙

冷思考凯尔特人队的三分狂潮下，战绩耀眼，但难以掩饰战术妄想？

爆炸性的索拉，准备出海的人们

空爆了，10个为普通人赚钱的机会

Sora爆炸下的冷思考 生成式AI的精彩还在泡沫背后

相似文章

人工智能热潮下的冷思维 大型模型已经从“通才”转变为“专家”。

烟花爆竹销售热潮下的冷思考：极简主义商业模式的启蒙

冷思考凯尔特人队的三分狂潮下，战绩耀眼，但难以掩饰战术妄想？

爆炸性的索拉，准备出海的人们

空爆了，10个为普通人赚钱的机会

Sora爆炸下的冷思考生成式AI的精彩还在泡沫背后

人工智能热潮下的冷思维大型模型已经从“通才”转变为“专家”。