为什么 OpenAI 总是领先一个版本

小夏 科技 更新 2024-02-19

视觉中国。

文本 |AI Blue Media, 作者 |陶然,编者魏潇.

SORA** 模型的发布,几乎是一年半前 GPT-3 首次亮相时 AI 圈的盛大场面的翻版:

它突然出现,引起了激烈的讨论和广泛的震惊。

北京时间2月16日,在没有任何消息泄露或事先通知的情况下,OpenAI在社交平台X(原Twitter)上发文,首次公布了一款名为Sora的文生**AI模型。

“介绍sora,我们的文本到视频模型”这句话简短明了,与其说是宣传,不如说是通知:是的,我们又拉出了大的。

接下来介绍了SORA模型的功能:SORA可以创建长达60秒的场景,复杂的摄像机运动以及充满活力,情感丰富的角色。

附上演示案例的提示:美丽的白雪皑皑的东京市熙熙攘攘。 镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。 美丽的樱花花瓣随风飘扬,雪花飘扬。

说到SORA,行业并不统一:

有些人是 100% 批准的,有些人是 % 批准的。

360创始人周弘毅表示,SORA意味着通用人工智能的实现时间可以从10年缩短到1年,模型不仅展示了做出最佳生产的能力,还表明了大模型对现实世界有了理解和模拟后, 它将带来新的成果和突破。

NVIDIA AI 研究所首席研究科学家 Jim Fan 将 SORA 称为生成世界的 GPT-3 时刻:SORA 是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”。

上网密集,一向直言不讳的马斯克,直接打了gg人(人输了)。

不去探究后续影响是正面还是负面,OpenAI能够为AI、影视、社交媒体等行业带来颠覆性和划时代的意义。

比如,一群工程师还在讨论如何进一步完善登月计划,OpenAI的团队已经从火星发回了一批**——他们总是领先一个版本,为什么?

NVIDIA AI 研究所的科学家 Jim Fan 从技术角度评论了 SORA:他将 SORA 定义为物理引擎和世界模型。 在传统意义上,图片是二维的,而人们生活的物理世界是三维的。

这就成为了AI模型设计之初的概念差异:在生成过程中,AI的作用应该是拆分和组合多个片段,还是应该作为主体来构建和记录一个虚拟的AI空间。

OpenAI的选择是后者。

在其网站上发布的SORA技术报告中,有一句话值得注意:“我们的结果表明,能够模拟物理世界动力学的通用模拟器的开发是一条很有前途的途径,具有前所未有的准确性和真实性。 ”

做个肤浅的理解,SORA不是编辑器**,而是在生成之前先建模一个空间,然后就变成一个镜头来记录这个立体的虚拟空间。

立体建模可以提供比平面图更多的信息在设计思路上,OpenAI领先一个维度,或者说提前一个版本。

当然,更多的信息意味着更大的数据流,在有限的算力内跑出更好的结果,在保证效果的前提下尽可能地节省算力,本质上是同一个问题:AI计算效率。

但对于 OpenAI 来说,可以从这些问题中吸取教训从ChatGPT到GPT-4等项目的技术积累,成为OpenAI构建SORA模型的良好基础。

受大语言模型成功案例的启发,OpenAI在探索第一个模型时,正在思考“如何获得类似的好处”:在大模型的运行过程中,token(词汇单元)作为自然语言处理任务中最小的文本单元,承载着输入信息的作用,帮助模型处理和理解文本。 ChatGPT将**、数学和各种不同的自然语言拆分为代币,然后交给模型对代币进行处理和理解,通过学习代币之间的关系,可以获得更多的语义信息。

同样,在**生成模型中,OpenAI也创建了与Token对应的数据单元“patch”(图像单元),并将图形语言转换为相应格式的补丁进行计算,在保证模型可扩展性的同时,大大提高了单元算力的计算效率。

在模型的前端,OpenAI 也运用了自己在 GPT 系列模型中的成果:

与文本对话类似,在培养文人的过程中,除了物质案例外,还需要大量相应的文本描述。 OpenAI 采用了最初在 DALL·E 3,并使用高度描述性的标题生成器为训练集中的**材料生成文本描述。结果还证明,在制作过程中为素材添加额外的注释可以提高整体质量,包括准确性。

此外,遵循DALL·E 3,OpenAI还使用GPT对用户输入的简短提示词进行扩展,使AI更容易理解,并将用户输入的文本展开为更长更详细的描述,然后由**生成模型进行处理。

对于像OpenAI这样的技术驱动型公司来说,经验和技术的积累是一种加速,可以遵循的成功经验和团队自己对AI概念的领先理解,让OpenAI始终可以站在自己的肩膀上,或者推动自己加速前进。

比技术领导力更可怕的,或者更值得朋友关注的是,这种领导力往往会一步一步地变成惯性。 预计通过加速追赶和对标,跟上OpenAI的步伐,在配套设施日趋成熟的阶段,难度可能只会增加。 真正的增量仍然在于顶层设计的创新。 因此,与其说是AI挤出了人们的创新空间,不如说是AI提高了有效创新的门槛:设计AI,或者说可以超越AI创意的设计,是大模型时代的有效增量。

相似文章

    为什么你总是筋疲力尽?让你龙马精神的中成药!

    中医柯医生有话要说 累了吗?是时候让中医帮你重拾龙马精神了!大家好,我是中医柯医生,在医院住了很多年,见过很多病人,他们都有一个共同的问题 疲惫。他们总觉得自己没有精力,没有精力,没有兴趣,什么都做不了。他们去医院做了各种检查,但没有发现器质性病变,他们服用了各种西药,但效果并不明显。他们问我,柯医...

    为什么我永远不会忘记某人?

    无法忘记一个人的原因可能有很多,这可能涉及个人的心理 情绪和经历。以下是一些可能的解释 深刻的情感体验 如果你和这个人有过深刻的情感经历,比如深爱 亲密的友谊或共同的经历,这些经历可能会在你的记忆中留下深刻的印记,令人难忘。未解决的情绪问题 有时,未解决的情感问题或遗憾会使人难以放下某人。这可能包括...

    两座城市,为什么少有美女相聚,美女难得?

    在中国的土地上,有两座城市,它们展现出截然不同的美丽风格。一个是美女丰富的国度,一个是难得一见的沿海城市。这种差异的根源源于他们独特的地理环境。让我们深入探讨为什么这些不同的场景在同一个国家形成鲜明对比。首先,我来到了川渝的土地,其中重庆被称为美丽之城。重庆四面环山,气候极热,燃烧如火。一年四季都没...

    为什么你必须有一家离岸公司?

    为什么要有离岸公司?首先,让我们了解什么是离岸公司。离岸公司是指在注册地以外经营且不能在注册地经营的公司。一般是指根据其离岸公司法规范在离岸法律区域内设立的有限责任公司或股份 当地 对此类公司不征税,仅收取少量的年度管理费,同时,各大国际银行都承认此类公司,以方便其银行账户和金融业务。离岸公司优势 ...

    常翔宇为什么要和有儿子的陈贤贤离婚

    陈先章与常翔宇相遇后,陈先章展现了他独特的魅力。虽然他离过婚,生了一个儿子,但这些都不是当时年轻貌美的常翔宇的首选。不过,陈光诚的能力是非凡的。他很有才华,经常在剧本写作上给常翔宇出谋划策,这让常翔宇对他产生了兴趣和依赖。陈的优点是可以为常翔宇量身定做剧本,专心助力妻子的事业。这让常翔宇渐渐被陈先璋...