新 Tinder AI 谷歌深夜发布复仇神器双子座,原生多模态碾压 GPT 4?

小夏 科技 更新 2024-01-28

作者:一。

GPT-4最强的对手出现了。

北京时间12月7日凌晨,谷歌CEO“砍柴”突然发布重磅AI杀手特辑gemini。就在前几天,还有传出双子座要推迟一个月上线的消息,现在发布得这么突然,着实让AI圈大吃一惊。 以谷歌过去的实力,不用想,这又是AI世界的又一个“不眠之夜”。

去年ChatGPT发布不到两周,谷歌就敲响了回应的警钟,最终做出来的巴德在首次亮相时犯了一个错误,导致谷歌的市值一夜之间蒸发了1000亿美元。

而且,GPT(Generative Pre-Training Transformer)还是基于 Transformer 开发的,而这个 Transformer 模型最早是由 Google 提出的,所以 Google 要心甘情愿地认输并不是那么容易的。

果不其然,在过去的一年里,关于Gemini的新闻层出不穷,有人说谷歌大脑和深智部门的合并,几乎耗尽了谷歌内部的计算资源,只为对抗OpenAI。

然而,前段时间,OpenAI的发布会炸开了AI世界,上演了一场“宫斗剧”,甚至有传言让人想到Q*,谷歌没有任何新消息,几乎让人以为AI圈之王已经决定了。

就在一个月前,英伟达科学家Jim Fan表示,”对 Google Gemini 的期望高得离谱!谷歌要想重拾AlphaGo的荣耀,Gemini不仅要实现100%的GPT-4能力,还要在成本或速度上优于GPT-4。 ”

生而为多面手

值得庆幸的是,从 Gemini 发布的演示**来看,它并没有让人失望。

“从第一天起,Gemini 就一直是一个多模态模型——跨文本、图像、音频等进行无缝推理。 ”这是谷歌官网上介绍双子座的第一句话。

与ChatGPT通过升级迭代逐步增加视觉、音频等多模态能力形成“组合金刚”不同,双子座天生就是一个全能型选手。 它从第一天起就被设计成一个原生的多模态结构,文本、图像和声音**能力从一开始就被训练在一起,从这个角度来看,双子座的学习习更像是人类。 这意味着Gemini可以无缝地调动多模态能力,以抽象和理解、操作和组合不同类型的信息。

比如你同时给ChatGPT和Gemini上传一个**,那么ChatGPT的处理会是这样的,先用GPT-4V识别图片中的内容,然后转换成文字交给GPT进行语义理解,然后回答;另一方面,Gemini 可以直接根据图像进行理解和响应,而无需在不同模型之间移动。 因此,Gemini 可以减少信息丢失,并在实践中更快、更顺畅地做出反应。

这可以从 Google 给出的演示**中看出:

双子座在画画时可以认出主讲人,用自然、流利的声音与主讲人交谈,当主讲人拿出蓝色玩具鸭子时,它会幽默地回应:“看起来蓝鸭子比我想象的更常见。 ”

显然,这种体验更接近漫威的“贾维斯”——一种可以自如与人类互动的先进人工智能。

而这种体验,离不开双子座原生多模态架构

gemini vs gpt-4

除了具有惊人的原生多模式功能外,在性能方面,双子座也相当强势

根据尺寸的不同,Gemini 有三种不同的版本:“中”、“大”和“超大”,即 Ultra、Pro 和 Nano。 它们在性能和适应任务方面具有不同的优先级。

Gemini Ultra 是用于高度复杂任务的最大、最强大的型号,预计将于 2024 年初上市。

Gemini Pro是各种任务的最佳型号,已被用于谷歌聊天机器人Bard的升级版本。

Gemini Nano 是一款可以在设备上运行的高效型号,已经在 Google Pixel 8 Pro 上运行。

根据谷歌的数据,Gemini Ultra 的表现是 32 个通用大型语言模型 (LLM) 研发的学术基准之一,从自然图像、音频和理解,到数学推理拿下 30 个 SOTA

其中,它在通识、推理、数学和程序设计等大方向上的结果如下:

更令人惊讶的是,Gemini Ultra 在 MMLU(大规模多任务语言理解)任务中获得了 90 分0%,超过89位人类专家8% 的结果,第一次达到了超越人类专家的水平

MMLU测试包括数学、物理、历史、法律、医学等57个科目,主要用于测试大型语言模型的世界知识和解决问题的能力,在这些科目中,Gemini达到或超过行业专家的水平。

在图像基准测试中,Gemini Ultra 不使用 OCR(对象字符识别)来提取图像文本以进行进一步处理优于 GPT-4V

各种测试表明,Gemini 在多模态处理方面表现出了强大的能力,并且在更复杂的推理方面具有巨大的潜力。

实际能力受到质疑

然而,在模型发布后不久,有人在谷歌的一份 60 页的技术报告中发现了一些“技巧”。

在MMLU测试中,Gemini结果在其下方用灰色小写字母标有cot@32,这意味着结果是使用思维练习提示技术进行 32 次尝试后选出最佳结果,与 GPT-4 相比,它是没有提示词技巧,只有 5 次尝试结果因此,变量没有得到很好的控制。

此外,示意图中的规模也存在问题,显示有很多超越人类专家,但实际上并没有太大的区别。

Huggingface的技术主管菲利普·施明德(Philipp Schmind)“修复”了这张图,说它实际上应该是这样的:

而且,在谷歌给出的一篇解释多模态交互过程的博客文章中,它似乎表明演示是指示的双子座的实时互动不是真实的,但采用静态**,通过多重提示的拼凑,最后进行编辑**,达到演示中的效果**。

无论谷歌是否刻意使用“蒙眼”,Gemini 的发布无疑给看似稳定的 AI 世界带来了一些“动荡”。

此外,Google 还宣布了迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统:cloud tpu v5pGemini 就是在此基础上正式训练的,这意味着谷歌将有能力要求英伟达的算力限制,这可以算是给AI芯片市场带来了一些变化。

大型模型的多模态探索

随着ChatGPT的升级迭代,它具备了多模态能力,以及Gemini展示的原生多模态能力,我们可以清晰地感受到,AI大模型的浪潮已经进入了一个新阶段,即从大语言模型到多模态模型。 后者将更符合人类与世界互动的最自然方式:用眼睛看,用耳朵听,用嘴说话,用文字记录和做决定。

多模态领域的技术探索也与互联网媒体形态的变化非常吻合,即从文本**到。

如今,随着抖音、TikTok等短平台的兴起,它已经成为我们信息时代的主流。

根据思科的年度互联网报告,已经占到了互联网流量的80%以上

显然,如果一个大型AI模型不具备识别图像和声音的能力,那么它的训练数据将跟不上信息迭代的速度,其能力将大大降低。

现在,在多模态模式的探索之路上,除了GPT,Gemini也加入了进来,不知道Meta的LLAMA和马斯克的GRAK未来会不会也加入竞争

相似文章

    您是否准备好应对新 Tinder AI AI 时代可能遇到的道德问题?

    作者 萧炎。编辑 彩云 曾经欣欣向荣的互联网行业,如今正处于 寒冬 之中,仍在努力寻找自救之道。但人们的注意力总是有限的,大家早已不再关注互联网赛道,而是被芯片制造 人工智能等新兴赛道所取代。尤其是人工智能,因为ChatGPT的强势出局,成为今年聚光灯下的热门炸鸡。ChatGPT的出现让我们意识到,...

    谷歌最强AI模型Gemini正式发布了三个版本的多模态

    财联社月日 牛占林主编 当地时间周三,美国科技巨头谷歌宣布推出其认为最大 最强大的人工智能模型Gemini,该模型能够处理 音频和文本等不同内容形式的信息。谷歌表示,其备受期待的人工智能模型Gemini能够做出更复杂的推理,并理解比以前的技术更细微的信息。通过阅读 过滤和理解信息,它可以从数十万份文...

    谷歌发布AI模型双子座 小公主还没长大,就被逼出内阁

    在OpenAI高调发布GPT 的几个月前,业内有传言称,谷歌旗下的人工智能公司Deepmind坐不住了,终于要拿出藏在闺房里很久的Gemini模型。当地时间月日,谷歌召开了双子座发布会,这也是该公司迄今为止在人工智能领域最高级别的发布会,正式向竞争对手OpenAI和Microsoft宣战,争夺人工智...

    谷歌大型AI模型双子座出道 擅长复杂主题推理,懂编程语言PKGPT 4

    乐天 上 月日 美国科技巨头谷歌今天宣布推出其人工智能模型 Gemini,该模型针对三种不同的尺寸进行了优化 Gemini Ultra Google 最大 最有能力的模型,适用于高度复杂的任务。Gemini Pro Google 扩展各种任务的最佳模型。Gemini Nano Google 最高效的...

    谷歌发布了 Gemini,并在全球 AI 竞赛中投入了更多资金,我是这样看的

    人工智能 AI 是当今科技领域最热门的话题之一,也是各大科技公司之间竞争激烈的领域。近年来,随着大型语言模型 LLM 的出现,人工智能应用的能力和范围得到了前所未有的提升。LLM是一种能够理解和生成自然语言的AI系统,可用于聊天机器人 文本摘要 自动写作 生成等多种任务。目前,市面上最知名的LLM是...