OpenAI 向业界抛出了一枚重磅炸弹 SORA,引发了科技界极其激烈的意见交流。
图灵奖得主、Facebook首席AI科学家Yann Lecun公开表示,SORA是一个生成像素,无法理解物理世界; 360董事长周弘毅和猎豹CEO傅晟最近几天也一直在“擂台上”。
在SORA出现后,周弘毅提到了一个广为流传的观点,他认为SORA的出现意味着AGI(通用人工智能)的实现将从十年缩短到一两年。 傅晟在公开场合表示,SORA是产品级的里程碑,但不是AI的技术革命,AGI不会在一年内到来。 两人在社交平台上展开了激烈的辩论。
OpenCSG创始人陈然认为,SORA是比ChatGPT更重要的里程碑,“在我看来,ChatGPT是一块垫脚石,为SORA创新做了基础准备,我认为SORA是下一代的创新。
关于SORA,OpenAI的官方技术文件没有给出更多信息,围绕其观点的对抗也没有最终答案,但OpenAI在年初投下的重磅炸弹有望成为整个2024年讨论的焦点,就像ChatGPT之于2023年一样。
这壶酒足以让所有人类最聪明的头脑品尝一会儿。 复旦大学计算机科学与技术学院教授、上海市数据科学重点实验室主任肖阳华认为,机器可能会颠覆科学家和哲学家几千年来对世界的解释方式。
一个更重要的里程碑?
SORA的出现,让萧阳华既意料之中,又出乎意料。
预计GPT一定会向多模态发展,这是去年年初形成的共识。 出乎意料的是,看到结果,尤其是当涉及到物理世界的模拟时,将颠覆我们已经知道的很多东西。 ”
从理性的角度来看,肖阳华告诉第一财经,OpenAI的进步速度并没有超出他的预期,因为当ChatGPT出现的时候,很多人都判断这是人类社会的奇点时刻,一旦跨越这个时刻,未来将是指数级发展,而我们只是在见证指数级发展。 但从情感的角度来看,“我们的受体从来都无法接受只有轻微的线性变化,而SORA的冲击仍然是一个巨大的冲击。 ”
业内分为谨慎和冷静,乐观SORA的出现。 早在SORA发布当天,周弘毅就在微博上发长文表达了对SORA的看好,他认为SORA不仅展现出了最好的生产能力,而且在大模型对现实世界有了理解和模拟之后,会带来新的成就和突破,“这真的离AGI不远了, 不是10年20年的问题,可能在一两年内很快就能实现。 ”
傅晟给这股热度泼了一盆冷水,在他看来,SORA其实是产品上的一个重大里程碑,但在技术上并不比ChatGPT更大的突破,甚至和AGI也没有那么大的关系,是大模型能力的延伸。
陈然并不认为SORA可以模拟物理世界,但他告诉第一财经,OpenAI将Transformer架构和稳定的扩散模型相结合,是一种独创的新结构,无疑是一次巨大的技术创新,也许是走过这条路更重要的里程碑。 陈然是作为技术人才的大规模模型创业成员,他创立的openCSG专注于开源大规模模型的生态建设,希望能联动上下游,让大规模模型、数据集、智能体AI(**集)更加民主和公平。
我们现在认识到,ChatGPT的文生文是一个里程碑式的创新,现在是文生的一个新的巨大创新**,会让应用端出现很多变数,这对未来的创业形态和投资形式来说是一个巨大的变化,比文生文更具革命性。 陈然认为,SORA有技术创新,是一个不错的产品,但到目前为止还没有真正展现出它的威力,它未来的应用可能比ChatGPT更广泛。
作为投资人,联想创投董事总经理罗旭认为,相较于去年ChatGPT上线带来的冲击,SORA对行业的感官影响类似,但从技术难度上来说,SORA这次会比ChatGPT更高。
主要原因是文本数据可以结构化,但**的数据不是结构化的,体积大,用这样的数据进行训练比较困难。 罗旭认为,SORA解决了大量计划外数据的训练问题,找到了工程方法,所以之前在行业内的所有尝试都被粉碎了。
投资者对SORA的关注程度不亚于企业家,在它出现之后,SORA的话题在投资会议的所有讨论中都无法回避。
罗旭告诉第一财经,联想创投内部会议讨论的第一点是,这项技术现在处于什么样的状态,其次,这项技术接下来会带来什么?
我们认为现在推出的技术应该处于生成初期,但有些东西在早期就已经验证过了,比如训练方法可以解决时间线的连贯性和一致性问题,但多模态模型本身的上限和能力边界非常高,进一步发展的可能性更大。 罗旭表示,经过内部讨论,他对技术做出了这样的判断,今年这个领域会有很多发展机会。
随之而来的问题是,如果文盛发展得像语言模型一样,它接下来会带来什么? 罗旭认为,语言描述是对世界知识的压缩,语言模型无法压缩大量的感知信息和关于物理世界的信息,但这些信息比语言更丰富,如果AI能够被训练出来,就意味着模型将对物理世界的认知提升到另一个层次, 这对它的逻辑判断和推理非常重要。
我认为这是多模态的开始,是朝着认知方向迈进了一步,但下面能产生多少价值,就看多模态模型在认知世界能起到多大作用了,现在我们看到它更像是一个生成的工具。 如果你把握好这个方向,你对世界的理解就会更加深刻。 罗旭说。
论战的背后。 SORA上线后,科技界最有争议的一点是该模型能否理解物理世界,并在此基础上推动AGI的快速到来?
在技术文档中,OpenAI 将 SORA 定位为 World Simulators 的生成模型。 “SORA是能够理解和模拟真实世界模型的基础,我们相信这种能力将成为实现AGI的一个重要里程碑。 ”
有人认为,基于其物理相互作用效应,SORA是基于对物理世界的理解而产生的,但很多人认为SORA并不了解物理定律,而只是基于比例训练来扩展图像。
就连图灵奖得主Yann Lecun(Yann Lecun)也曾多次发表声明,2月17日,他在社交平台X上表示:澄清一个“巨大”的误区,从提示中生成大部分看似现实的**并不表示系统理解物理世界,而生成与因果世界模型大相径庭**。 他认为,通过生成像素来构建世界模型的方法注定要失败。
2月26日,周弘毅发了一条20分钟的**来驳斥“权威”,他说,“现在最看不起SORA的人是杨丽坤”,虽然他是这个领域的资深人士,但不一定是权威所说的。
SORA可能没有从现象的研究中总结出公式的规律,但应该已经建立了常识的认知,只有在此基础上才能还原图景。 周弘毅认为,SORA的推出宣告了人工智能的一个里程碑,不要只看表象,我们一定要看到它背后人工智能的发展,如果机器不仅懂语言,还学习人类的知识,并隐藏着很多隐藏在人与世界互动过程中的知识和物理规律, 学会理解,那么它就离真正的AGI不远了。
此前,傅生公开表示,SORA不会推动AGI的快速到来,这与周弘毅之前的观点背道而驰。在**中,周弘毅也提到了“小福(傅)同学”,并重申了自己的观点。
随后,傅晟模仿周弘义身穿红裙,拿着手机对着镜子**,回答“老周在偷偷改变观念”,他提到的不是SORA是否了解世界,而是SORA是否缩短了AGI的时间,或者是否会对AGI的到来有很大的帮助, 以及SORA是否提高了AI对世界的理解。”
老周同志一上来就说,索拉非常了解这个世界,AGI从10年变成了1年,我想这种观点一定是错误的。 Sora对连续**的理解肯定比以前更强了,但是底层技术没有革命性的突破,对世界的理解没有比大型语言模型更好的了。 傅晟说,AI当然要有一定的理解,但就能否再现物理世界而言,他认为随着时间的推移还是会有偏差的。
学术界也有不少业内人士表明了立场。 上海人工智能实验室首席科学家林大华近日在朋友圈发文称,“这一次,我明确同意颜乐村的观点。 诚然,SORA是构建中的里程碑式突破。 但是生成逼真的**和掌握物理定律甚至 agi 之间存在着巨大的差距,这是完全不同的事情。 ”
我们对 GPT-4 测试得越多,我们就越觉得人类离 AGI 还很远。 林大华说。
浙江大学博士生导师赵俊波也公开表示,SORA可能不是世界模式,“我也反对很多自导自演地将这项技术类比到AGI,我们离AGI还很远。 他说,一个世界模型需要具备输出行动的能力,输出未来**,输出对当前状态的判断。 Sora很可能已经了解了世界如何运作的一些模式,但我们不知道它是否具有上述其他能力。
陈然研究了OpenAI的技术文档,他说,就像大语言模型使用前一个单词(token)到下一个单词(token)一样,SORA实际上使用像素来**并生成下一个像素,但是在**模型中,它的基本单位从token变为patch,即像素块。
对于曾经制作可视化模型的公司来说,他们经常基于 Diffusion 进行图像和生成,但 OpenAI 的功劳在于将大型语言模型 Transformer 与 Diffusion 的架构集成在一起,从下一个 Token 到下一个补丁,以及新的生成路径。
对于我们这些从事科技的人来说,我们觉得更震撼的其实不是**的生成,而是在像素和字符之间做了一个对接,用补丁代替了传送锚点中最关键的一点,很有新意,语言就是一个字符,图像也可以用字符来表示法则, 我认为这是一场非常大的革命。陈然说。
陈然认为,未来更大的价值是元宇宙可能会加速,因为图像也有规律,“每一帧,每一**,收集到一定程度,就会生成虚拟世界。 从这个意义上说,这也是SORA比ChatGPT更宏伟和里程碑的地方。 ”
正视差距。 对于国内大型模型公司来说,GPT-4还没有赶上,OpenAI又取得了进展。
SORA的出现可能会让很多人意识到这种差距。 肖阳华说,差距一直存在,我们必须正视差距,要有危机感。 但是,承认差距并不意味着放弃,我们必须迎头赶上,缩小差距,但我们也必须充分认识到追赶的艰巨性。
从国内来看,赵俊波认为,我们和北美的差距在这个方向上已经拉大了。 “而这一次它与GPT的不同之处在于,如果你想追逐它,你基本上甚至没有锚点。 Meta 是最有可能开源的参与者,但 V-Jepa 目前正在走一条截然不同的技术路线。 ”
陈然从2022年4月开始做大模型,“我看到大模型和美国的差距越来越大,一方面投资环境越来越差,试错成本越来越低,二来算力'卡在脖子上', 大模型靠的是数据集、算力、**和生态,其中算力是关键点,短时间内没有办法解决,这就决定了我们会越走越慢,这相当于美国在高速公路上开车,我们走乡间小路。 ”
不过,陈然并不悲观,他认为国内应用层有优势,大模型开发会有缓冲期。
去年是大模式的第一年,再过三年左右,中国可能就处于惊人阶段,与美国的差距越来越大,但我认为不会超过3-5年,最终资本是逐利的,如果这个市场能赚钱, 资本将回流。陈然**,2027年和2028年之后,与美国的差距将开始缩小。
我认为,这个市场最终需要一些像阿里巴巴这样的公司在人工智能领域崭露头角,需要一些敢于做事、有国际视野的创业者来创造这个市场。 陈然说。
对于国内的追赶,肖阳华认为,我们一般都是盲目追随更多,真正想了解为什么要追随,如何追随,如何区分竞争。 未来,我们可以积极部署在AGI的其他轨道上,形成优势,从而在整体战略上平衡对手。 “从小处看,AI的竞争关系到国家的命运,从大处看,SORA在未来开辟了更广阔的想象空间,这是整个人类发展的重大机遇,同时也伴随着重大挑战。 ”
从投资人的角度来看,罗旭认为,像OpenAI这样拥有头部技术模型的公司,能力提升似乎还没有达到天花板,而且还在迭代中,速度会比创业公司快,这些公司不仅拥有更丰富的算力等资源,还拥有外界不为人知的工程训练手段, 这些方法使得培训成本降低,效率提高,这些创业公司仍在填补和寻求工程方法的经验。这样距离就会越来越远。
国内能不能有像SORA这样的公司,在罗旭看来,还没有下结论,SORA的技术方法还没有完全掌握,从投资的角度来看,它的出现只能说让大家看到了未来进步的方向。
从去年开始,罗旭就讲了很多注重愿景的创业公司,但是在SORA出现之后,对国内外同类创业公司的影响更大,因为所采用的技术路线不同。 SORA是否会影响投资者对AI项目的选择,对文盛**会更加谨慎吗? 罗旭对这个方向更有信心,因为“它向我们展示了产生**的可能性和可能的正确前进方向”。
去年,我们专注于多模态和发电的方向,而这次SORA多次提高了整个技术能力的上限,我们对未来技术方向实施的可能性更有信心。 罗旭表示,未来会继续寻找相应的创业者来做这件事,但要赶上SORA可能还是有点困难,投资的时候要控制好预期,对行业进行更深入的研究。