文本 VR 陀螺仪。
不可否认,OpenAI总能创造出爆炸性的模型。
就在农历新年假期结束前,OpenAI再次在社交媒体上投下了一颗重磅炸弹**。 新的人工智能系统SORA的出现预示着现代内容创作方式的根本变化。
来源:SORA
根据 OpenAI 的说法,Sora 不仅可以生成长达一分钟的文本提示,还可以从静止图像中生成它们,或者通过扩展现有提示或生成缺失的帧来填补空白。
虽然该模型目前只在应用中进行内测,但从国内外社会**的反应和官方提供的实例来看,SORA生成的**在质量和可靠性上都超越了该领域的“前辈”,显示出成为下一个ChatGPT的强劲势头。
当然,这其中也有一些炒作,但不可否认的是,SORA爆发的背后是信息革命后第四次重大技术变革的全国狂欢,而“多模态真人工智能”演进的又一个里程碑出现在2024年初。
在SORA及其技术报告发布后,OpenAI的60秒长、高清、可控图像、多角度切换**的高级效果在国内外社交网络上风靡一时。
在Sora的魔力下,人们第一次知道AI生成的**可以如此逼真。
即使融入纪录片,也没有不服从的感觉(来源:SORA)。
要知道,2023年AI的**世代效应还是这样的:
现实,但显然,对象是不灵活的(来源:鼠兔)。
短短几个月,文字生成技术实现了从5秒到60秒的飞跃,从动画到纪录片质量,让人无所适从。
逼真的视觉效果和“未来已来”的社交**病毒式营销,让Sora成为2024年初AI领域最具突破性的人物,风头甚至盖过了几乎同时发布的Gemini 15. 一时间,娱乐圈和科技圈都充斥着索拉的身影。
一年前,人工智能生成的威尔·史密斯(Will Smith)吃面条在互联网上风靡一时,仅Twitter上的面条数量就超过800万条。
一年后,威尔·史密斯(Will Smith)在索拉(Sora)刷屏后,在他的Instagram上上传了一条**,并配文“它越来越失控了”。
如您所见,屏幕分为两个部分:上半部分显示一年前的 AI,下半部分显示当前的 AI
图源:x 虽然大家很快发现这只是威尔·史密斯玩的一个表情包,**后半部分不是AI生成的,而是他自己录制的,但很多网友却大喊自己上当受骗了:“最令人毛骨悚然的是,你分不清这是表演还是人工智能生成的。 ”
这也从侧面证明,SORA的出现,让人们开始相信,生成式AI可以是假的,也可以是真的,AI取代编辑的时刻似乎已经到来。 在Sora发布的另外一个demo**中,可以看出角色在吃饭时咬人的动作,汉堡上的缺口和牙印,都和现实的规律一模一样,完全比不上一年前史密斯吃面条的恐怖效果。
汉堡有瑕疵,但牙印恢复得很厉害(来源:Sora)。
但是,无论生成效果有多好,总会有人能从中发现破绽。 在分析了SORA生成的demo后,很多影视业人士表示,SORA虽然在画质、细节、光影、色彩等方面都有出色的表现,但目前还不能直接用于影视作品中,因为它在涉及镜头移动角度和更精细的内容控制方面还存在不足。
一个明显的例子来自这个**,其中角色在跑步机上倒车奔跑,而空显然还不了解运动规律。
来源:SORA
另一个佐证是四足蚂蚁,空知道什么图像代表蚂蚁这个词,但对完整的蚂蚁形象的理解仍然不够。
来源:SORA
然而,即使SORA并不完美,生成效果也足够震撼,业内普遍认为SORA可以用于概念设计等前期影视开发。
再加上OpenAI致力于积极改善SORA的不成熟度,以及推出AI语音克隆初创公司Elevenlabs来解决SORA的一系列“失声”问题,在突破现实与虚拟的界限后,SORA将在未来为影视行业带来更多的创新和突破。
SORA并不是第一个问世的文本生成AI模型,但为什么只有SORA成为全球的现象级热门?
从根本上说,一个是一流品质的跨级飞跃,一个是“意想不到的核心技术”。
其中,SORA生成的质量有目共睹,单单是60s的相干生成时间,是跑道和鼠兔无法比拟的。 故障型之所以质量领先,业内人士认为是核心技术的强项。
博主“每日新闻”展示的三种模型生成效果(来源:x)。
国内深度学习专家李牧认为,SORA类似于世代世界GPT2升级为GPT3的那一刻,模型的DIT比例可能与之前的作品变化不大,但使用了数百倍的算力,这是一个奇迹。 VIT,DALL·基于这个模型的 E、DiffusionMethods 和 VAE 并不是新技术,我相信学术界和开源社区很快就会跟进这种演示应用程序。
与Runway和Pika不同,SORA在扩散模型领域使用了之前在GPT上非常有用的Transformer解决方案,并利用文本模型强大的上下文理解能力进行扩散**的“帧生成”。
来源:SORA
简单来说,SORA不会直接将文本转换为文本中的每一帧,而是通过处理每个时空补丁来完成整体。
这类似于3D生成领域的块生成,SORA对文本进行分析,将整个内容所代表的时空中的关键元素切割成相应的图像贴片,包括物体、动作、背景等,并通过内置的知识图谱将这些贴片与物理世界的数据信息重新整合成嘈杂的画面。 最后,通过扩散模型对噪声图像进行细化,成为逐帧生成的**。
来源:SORA
在时空信息的约束下,SORA生成的**内容显然更忠于指令,相当于SORA提前为**铺设了剧本,**中生成的内容就像严格按照剧本运行的演员和布景,这也是Runway和Pika之前做不到的。
而这些成绩,离不开SORA背后的核心团队。 OpenAI 研究员 Jason Wei 在透露了一份比 996 更紧凑的日常工作时间表清单后感到惊讶,他说:“没有它的人,Openal 什么都不是。(没有员工的贡献,OpenAI什么都不是。 )”
图源:X 根据此前的社**消息,SORA团队成员非常年轻,团队中甚至还有00后的科研成员。 在这些参与者中,已知的核心成员包括研发负责人 Tim Brooks、William Peebles 和系统负责人 Connor Holmes。
与算力一起,人才被视为AI发展的基石之一,此前被歪曲为SORA作者之一的CV之神谢赛宁也认为,人才是SORA这样复杂系统诞生的三个核心因素,另外两个是数据和算力。
凭借足够惊艳的demo**+世界第三大独角兽背后的年轻团队,Sora在发布前就获得了足够的流量,成为拳打脚踢鼠兔的文字生成**领域唯一的神,甚至在国内打造了全新的“AI变现通道”。
在SORA还没公开测试的时候,以李一舟为代表的“AI讲师”们就已经大张旗鼓地卖线上课程了,势必会让“家族”赶上第一波用SORA赚大钱的浪潮。
资料来源:互联网。
只不过李一舟早就被人捡到了,并不是AI方面的专家,他的课程内容基本都是最基本的常识,更多的是“强调AI的力量和重要性”和“利用SORA关键词吸引流量变现,卖账号,卖生成**,卖教程”等互联网讲师的老式变现操作。 和之前的“教你如何使用ChatGPT”一样,属于吃OpenAI的二次流量切韭菜。
与其关注如何赶上最新的AI技术,不如多关注AI的出现来改变生产模式,毕竟AI未来会朝着傻瓜式的易用性迈进,探索AI如何更好地在哪个领域进行增值内容生产,才是未来工作者更应该关注的。
AI“一键生成广告图片”工具亚马逊AD(来源:亚马逊)。
这也是SORA成为热门话题的另一个原因,在这种文本生成技术的帮助下,人们看到了AGI改变内容创建过程的例子。
在此之前,AIGC已经突破了文字生成和图像生成的层面,而现在,公认的创意媒体的最后一道障碍——一键生成*也已经打开,随着ChatGPT过往的成功故事,市场普遍认为SORA也可以成为下一个改变工作流程的AI模型, 而不仅仅是停留在理论上。
SORA 发布后,网上有很多关于 OpenAI 下一步的猜测。 AI内容创作者“kwebbelkop”表示,OpenAI将从用户那里收集数据,以微调模型,使SORA更强大。
此外,OpenAI 还将收集这些 ****data** 来增强 SORA 的 RLHF(Reinforcement Learning from Human Feedback Algorithm),这意味着每个人都可以通过 SORA 一键创建社交 **hot**。 基于此,OpenAI甚至有可能推出一个完全由AI生成内容组成的全新**平台,与YouTube、TikTok等竞争。
图源:x 然而,OpenAI 的野心可能并不止于此。 内容生产转型一直是人们对生成式AI关注的焦点,目前,OpenAI的人工智能蓝图已经包括文生文的ChatGPT、文生的Dall·E 3, 文生的Shap·E,以及文生**的SORA。
在传统的智能手机和PC平台上,我们已经看到了ChatGPT在AI生成领域的主导地位。 然而,传统硬件的单一交互模式显然无法激发多模态AI的全部潜力,正如AI颠覆了过去一样,电子硬件产品也需要加速升级,以满足未来潜在的交互需求。
或许正是因为对AI交互生态的探索,OpenAI才会在2024年初推出苹果最热门的终端电子设备Vision Pro后,紧急将ChatGPT放在VisionOS应用商店。
ChatGPT在Vision Pro上的推出,是OpenAI的一个重要里程碑,直接向外界展示了AI(尤其是多模态AI)未来如何以更自然、更直观、更身临其境的方式进行交互。
Vision Pro 的眼球运动和手势跟踪(来源:Apple)。
可以说,苹果Vision Pro与ChatGPT的合作,让XR设备再次有望成为下一代人工智能计算终端的新选择,毕竟它在短短一个月的时间里颠覆了工作体验,让不少科技大佬称其为“惊人”。
苹果Vision Pro正式发布后,不少社交博主开始佩戴Vision Pro进行各种日常生活和工作场景体验,其中不少开发者尝试使用Vision Pro进行编码工作,得到了值得参考的XR工作体验反馈。
资料来源:Apple。
IT 企业家 Willem 在博客中讲述了他的第一次 Vision Pro 编程体验,他说:“它不仅非常便携,而且还为您的眼睛提供了一个完整的虚拟世界! 这几乎就像我随身携带了一个巨大的多显示器设置。 ”
Willem 和其他对 Vision Pro 持积极态度的人将重点放在“沉浸”一词上,这是一个真实世界的编码界面,几乎完全屏蔽了外界干扰:“在 Vision Pro 中,您几乎与环境融为一体。 我喜欢在窗前走来走去,看着一些**或服务器输出,感觉它是一台大型工作机器。 在某种程度上,我感觉自己就像站在一个大电脑房里,这与传统的桌面体验完全不同。 ”
身临其境的编码体验(来源:willem。com)
而当苹果的AI时代到来时,身临其境的编码体验将更加神奇。
知名科技记者马克·古尔曼(Mark Gurman)爆料称,苹果正准备在iOS平台编程软件Xcode的下一次重大更新中加入AI功能,以对标Microsoft的GitHub Copilot。
虽然有消息表明,苹果的功能更新旨在为 iOS 18、iPadOS 18 和 macOS 15 创建尽可能多的新 AI 功能,但 AI 功能在 VisionOS 上上线只是时间问题,这是苹果未来生产力循环的重要组成部分。
AI对编程效率的提升是显而易见的,据GitHub官方博客介绍,自发布以来,GitHub Copilot已经帮助超过100万人提升了开发者的生产力,帮助开发者提升了55%的编程速度。
来源: github
而这不仅发生在程序员圈子里,也发生在几乎所有AI可以参与的办公场景中,工作效率都得到了极大的提升。 一个类似的例子是 Substance 3D,这是 Adobe 为 Meta Quest Pro 开发的 3D 建模程序,其中虚拟世界中的 3D 建模已经完全退化了键盘和鼠标,只需简单的手势即可轻松捏出设计模型。
继 ChatGPT 之后,可以以成熟的 SORA 或其他 AI 生成的图像、模型和工具的应用程序形式加入 VisionOS 生态系统。 AI和Vision Pro这两种流行技术的结合已经开始形成,以重塑办公室和创意体验。
图源:X 这条技术变革之路需要大量的人才和企业前行,好在苹果并不是AI+XR理念的唯一践行者,就在SORA发布的同时,还有一件事也搅动了国内AI市场。
2024年2月18日,魅族宣布将停止传统智能手机新项目的研发,转而全力投向AI,全力投入“新一代AI”。 虽然做出这一决定的原因归因于“手机卖不出去”,但从其后续的AI转型计划来看,魅族可能更关注AI+硬件的新市场需求。
资料来源:星记美族。
魅族公布的AI战略计划细节包括打造AI设备产品、重构FlyMe系统、构建AI生态圈等。 公司CEO沈子宇在发布会上强调,魅族将打造全新的AI设备,以AI原生设计重组产品形态,以更强大的硬件算力支撑AI全球移动化。
对于沈子瑜的“明日设备”,很多人猜测会是AI手机,毕竟以AI终端为名的魅族21 Pro已经上市了。 不过,也有声音认为,魅族已经将取代传统手机形态的责任交给了XR眼镜。
去年,魅族刚刚发布了搭载自带智能“FlyMear”交互系统的MyVU AR眼镜,从刚刚发布的三年AI愿景来看,XR产品将在2025年占据魅族产品生态中举足轻重的地位。
资料来源:星记美族。
从苹果的Vision Pro及其传闻中的AR眼镜形式产品开始,包括魅族、三星、华为、小米、OPPO、vivo等传统手机厂商纷纷进入XR赛道,而如今,魅族全IN,OPPO也成立了AI中心,将资源集中在AI上,就像iPhone开创智能手机时代一样, AI+智能硬件的结合,目前看来是开启下一个智能计算时代的最佳选择。
这一趋势也影响了领先的AI技术厂商,除了此前有消息称OpenAI募集7万亿美元押注芯片帝国外,业内顶尖的AI生成技术公司Midjourney也被曝出正在开发硬件产品。
据说Midjourney挖走了苹果Vision Pro的硬件工程经理艾哈迈德·阿巴斯(Ahmad Abbas),以帮助开发一种收集3D数据、管理3D模型的工具,甚至在未来推出自己的VR头显。
LinkedIn界面显示Ahmad已加入Midjourney(来源:LinkedIn)。
在这些领军科技公司眼中,AI离不开硬件的应用载体,消费类硬件产品也需要AI的助力,才能再现智能手机时代的辉煌。
无论是苹果自家的Vision Pro,新形态的AI PIN还是手机厂商设想的AI手机,都在探索与ChatGPT、SORA等前沿机型融合的最佳模式,而在2024年,当AI一代机型进入爆发阶段时,硬件厂商很难接受硬件厂商难以接受。最佳运营商冠名权“将继续追我。