正文|数智一线赵艳秋.春节开学后的一周,国内人工智能圈和SORA技术相关各大厂商对OpenAI宣布SORA的反应,与**上的热情形成了鲜明的对比。编辑|牛辉.
OpenAI越来越闭源化,几乎没有具体信息,中国仍处于开盲盒阶段。 不得不承认,SORA是算法组合、数据选择、训练策略、算力优化等能力的结合,虽然这些技术可能不是OpenAI独创的,但OpenAI对它们的深刻洞察,以及精湛的系统构思和设计能力,做出了“颠覆性”的突破,而不是简单的蛮力。
面对如此大规模的系统项目,国内人工智能圈在各个方面仍需补充。
01 各大厂商的反应 本周,字节、阿里巴巴、腾讯、华为、浪潮等公司均未发声。 一些相关厂商的研发团队正在“开箱”,信息绝对保密,“SORA将影响公司今年的产品研发计划”。 ”
值得注意的是,大型厂商中高层对SORA的积极关注和洞察程度,一般不如去年ChatGPT上线后那么迫切和深入。
在各大工厂的内网上,核心研发团队之外的“吃瓜群众”零星发帖讨论,“别说讨论热度了”,就连国内各大人工智能工厂的内网都是“零贴”。 这种情况与**上的热搜新闻,甚至对中美差距拉大的哀嚎截然不同。
然而,一些较快的举动也可以让人瞥见该行业的一些紧迫感。 2月17日,SORA发布后的第二天,Alimo社区发起了对SORA技术路径的分析,文章非常火爆; 2月18日,学校推出SORA口译系列课程; 春节刚过,浪潮相关业务已经向SORA提交了分析报告。 许多大型工厂都安排了与其业务线相关的研究和报告业务,其中一些工厂将在本周进行SORA分析和研究。
由于OpenAI透露的信息很少,不像ChatGPT上线后对技术的一些具体分析,SORA的分析有更多的猜测成分,而具体依据较少。
从各大工厂员工的内部讨论中,大家都聚焦在几个方向:SORA的技术机制,包括SORA能否成为真实世界的模拟器; 计算能力; 商业方向和时机。 目前,关于技术机制的“谜团”还很多; 关于算力消耗的猜测也令人困惑; 在SORA商业时间方面,**从一个月到半年不等,一般认为速度会很快。
从 OpenAI 的行动来看,包括 SORA、ChatGPT、Dalle 和一直强调的代理,OpenAI 可能会在今年下半年发布 GPT5,这将是真实代理的第一个版本。 以这个代理为例,以后如果你想做一个应用,GPT5可以自动生成**,打包部署,包括应用,配置域名,最后生成一个可访问的APP。 这些猜测还表明,每个员工的未来工作正在被重塑。
虽然在大厂论坛上对技术差距的哀嚎不多,但员工们在交流中却有抱怨和无奈。 不过,也有人认为SORA对国产AI超级有利,因为在全球空头市场中,Byte、腾讯、快手占据了前三名,大家都知道SORA原理是基于国内现有的GPU算力,推测“如果快一年”, 中国将有类似产品推出。
02 OpenAI不依赖蛮力,业界纷纷关注SORA的惊人效果,这要归功于新的算法组合和训练策略。 不过,与ChatGPT类似,单纯在具体算法上,并不是OpenAI的原创。
SORA在算法组织和数据训练策略上投入了大量精力,以充分挖掘算法和数据的潜力,并学习更深入的知识。 云之盛董事长梁佳恩表示,OpenAI通过架构设计和训练策略,而不是简单的算法改进,持续刷新行业认知。 这反映了OpenAI对算法和数据潜力的深刻洞察,以及其独创的系统构思和设计能力,而不是简单地用“蛮力”来做出这样的“颠覆性”突破。
在SORA正式宣布后,纽约大学的谢森宁对其技术进行了推测。 由于谢赛宁与SORA团队关系密切,他的猜测影响广泛,尤其是他猜测“SORA参数可能为30亿”。
有些人认为 30 亿参数有一定的道理。 据一位资深人士分析,SORA产生的最佳效果是惊人的,但存在很多细节问题,应该先是OpenAI大显身手,OpenAI将进一步扩展模型; 另一位资深人士从算力角度直观分析,**是立体的,单元处理所需的算力非常大,如果SORA参数太大,算力就会不足。
不过,也有业内人士认为“30多亿”。
30亿个参数,我认为这是误导性的。 一位简短的人工智能资深人士告诉 Digital Intelligence Frontline,“SORA 依靠 OpenAI 最强大的语言模型来生成字幕(字幕、字幕)。 在Sora提供的技术报告中,他们简要描述了他们如何设计自动化技术,生成文本描述,或将简短的用户提示转换为较长的详细描述,以提高整体质量。
而从OpenAI摸索人工智能边界的风格来看,也有人认为30亿太小了。 “这与它一直以来的做法不符,它们都是'奇迹'。 中科神智CTO宋健对数智一线表示,其实理论上已经指出了这条路,很多企业也尝试过。
一位Wave消息人士表示,SORA的突破再次证明AI是一种系统工程,纯粹的静态推测参数可能没有意义。
在生成方面,过去大家的难点是很难保持**的连贯性或一致性,因为有很多事情违背了常理,比如光影错,空间变形,所以业界想不通。
根据公开的信息,OpenAI 最终是否会采用更大规模的参数尚不清楚,但我怀疑他们肯定会以自己的风格尝试。 梁佳恩表示,此前,OpenAI从GPT2做GPT3的时候,就坚信,只要算法架构合理,通过超大规模的无监督学习,就有可能通过小样本甚至零样本学习击败监督学习,这是OpenAI对规模效应的坚定信念。 “这一次,SORA通过算法组合和数据设计,学到了更多符合物理定律的'知识',这符合OpenAI多年来的一贯风格。 ”
然而,SORA还不能被称为物理世界的适当模拟器。 在它生成的**中,存在大量错误。 OpenAI本身也在其技术报告中提出,这是一个很有前途的方向。
人们对SORA有不同的需求。 “如果你现在正在做一个数字孪生,你不妨直接用物理引擎作为底层来构建它,就像NVIDIA的Omniverse一样,它并不完全是物理的,但它已经非常准确了。 宋健说,“但对于视觉艺术来说,是关于视觉感性的,反物理也没关系,只要在视觉上给大家足够好的冲击力就行了。 ”
03 算力猜想 “现在大家对算力的猜测非常混乱。 一位英伟达消息人士告诉Digital Intelligence Frontline。 由于OpenAI此次发布的信息很少,业界很难评估。
视觉模型或多模态模型在计算能力方面与大型语言模型不同。 一位人工智能算力资深人士告诉数智一线,尽管SORA可能只有几十亿个参数,但其算力估计与数百亿或数千亿个大型语言模型相似。
他进一步分析说,他可以参考文生图模型Stable Diffusion,只有10亿个左右的参数,但用几十万台服务器训练算力却花了将近一个月的时间。 他估计,SORA的训练算力可能至少比前者大一个数量级,也就是上百台服务器,OpenAI肯定会更进一步,把SORA模型做大。
另一方面,该模型的推理算力也远大于大型语言,有数据表明,稳定扩散的推理算力消耗与LLAMA 70B(700亿)参数模型相似。 换句话说,就推理算力而言,一个10亿的文生图模型和一个1000亿的大语言模型差不多。 第一个生成模型SORA的推理计算能力肯定比第一个生成模型大得多。
文本是一维的,三维的,单位的计算能力更强。 一位人工智能专家告诉数字智能前线,他认为它需要几千卡路里大才有机会。
由于SORA推动的文盛**的发展,今年国内整体算力仍将非常紧张。 据某计算基础设施公司人士介绍,在人工智能算力方面,北美几家巨头的算力现在是中国总算力的十倍以上,甚至更多。
然而,在一些地方,国内的算力已经闲置。 这其中就包括几种情况,比如一些公司在去年上半年开始训练大模型,放弃了大模型的开发,转而使用开源模型; 去年,大型语言模型的应用遇到了挑战,大量的推理应用尚未落地,这将导致一些企业出现数十或数百台闲置机器的情况。
宋健也发现了算力闲置的问题。 他观察到,特别是从2023年11月左右开始,算力的租赁变得更加容易,可能是原来的2 3,甚至1 2。