新 Tinder AI 谷歌深夜发布复仇神器双子座，原生多模态碾压 GPT 4？

作者：一。

GPT-4最强的对手出现了。

北京时间12月7日凌晨，谷歌CEO“砍柴”突然发布重磅AI杀手特辑gemini。就在前几天，还有传出双子座要推迟一个月上线的消息，现在发布得这么突然，着实让AI圈大吃一惊。以谷歌过去的实力，不用想，这又是AI世界的又一个“不眠之夜”。

去年ChatGPT发布不到两周，谷歌就敲响了回应的警钟，最终做出来的巴德在首次亮相时犯了一个错误，导致谷歌的市值一夜之间蒸发了1000亿美元。

而且，GPT（Generative Pre-Training Transformer）还是基于 Transformer 开发的，而这个 Transformer 模型最早是由 Google 提出的，所以 Google 要心甘情愿地认输并不是那么容易的。

果不其然，在过去的一年里，关于Gemini的新闻层出不穷，有人说谷歌大脑和深智部门的合并，几乎耗尽了谷歌内部的计算资源，只为对抗OpenAI。

然而，前段时间，OpenAI的发布会炸开了AI世界，上演了一场“宫斗剧”，甚至有传言让人想到Q*，谷歌没有任何新消息，几乎让人以为AI圈之王已经决定了。

就在一个月前，英伟达科学家Jim Fan表示，”对 Google Gemini 的期望高得离谱！谷歌要想重拾AlphaGo的荣耀，Gemini不仅要实现100%的GPT-4能力，还要在成本或速度上优于GPT-4。 ”

生而为多面手

值得庆幸的是，从 Gemini 发布的演示**来看，它并没有让人失望。

“从第一天起，Gemini 就一直是一个多模态模型——跨文本、图像、音频等进行无缝推理。 ”这是谷歌官网上介绍双子座的第一句话。

与ChatGPT通过升级迭代逐步增加视觉、音频等多模态能力形成“组合金刚”不同，双子座天生就是一个全能型选手。它从第一天起就被设计成一个原生的多模态结构，文本、图像和声音**能力从一开始就被训练在一起，从这个角度来看，双子座的学习习更像是人类。这意味着Gemini可以无缝地调动多模态能力，以抽象和理解、操作和组合不同类型的信息。

比如你同时给ChatGPT和Gemini上传一个**，那么ChatGPT的处理会是这样的，先用GPT-4V识别图片中的内容，然后转换成文字交给GPT进行语义理解，然后回答;另一方面，Gemini 可以直接根据图像进行理解和响应，而无需在不同模型之间移动。因此，Gemini 可以减少信息丢失，并在实践中更快、更顺畅地做出反应。

这可以从 Google 给出的演示**中看出：

双子座在画画时可以认出主讲人，用自然、流利的声音与主讲人交谈，当主讲人拿出蓝色玩具鸭子时，它会幽默地回应：“看起来蓝鸭子比我想象的更常见。 ”

显然，这种体验更接近漫威的“贾维斯”——一种可以自如与人类互动的先进人工智能。

而这种体验，离不开双子座原生多模态架构

gemini vs gpt-4

除了具有惊人的原生多模式功能外，在性能方面，双子座也相当强势

根据尺寸的不同，Gemini 有三种不同的版本：“中”、“大”和“超大”，即 Ultra、Pro 和 Nano。它们在性能和适应任务方面具有不同的优先级。

Gemini Ultra 是用于高度复杂任务的最大、最强大的型号，预计将于 2024 年初上市。

Gemini Pro是各种任务的最佳型号，已被用于谷歌聊天机器人Bard的升级版本。

Gemini Nano 是一款可以在设备上运行的高效型号，已经在 Google Pixel 8 Pro 上运行。

根据谷歌的数据，Gemini Ultra 的表现是 32 个通用大型语言模型（LLM）研发的学术基准之一，从自然图像、音频和理解，到数学推理拿下 30 个 SOTA

其中，它在通识、推理、数学和程序设计等大方向上的结果如下：

更令人惊讶的是，Gemini Ultra 在 MMLU（大规模多任务语言理解）任务中获得了 90 分0%，超过89位人类专家8% 的结果，第一次达到了超越人类专家的水平

MMLU测试包括数学、物理、历史、法律、医学等57个科目，主要用于测试大型语言模型的世界知识和解决问题的能力，在这些科目中，Gemini达到或超过行业专家的水平。

在图像基准测试中，Gemini Ultra 不使用 OCR（对象字符识别）来提取图像文本以进行进一步处理优于 GPT-4V

各种测试表明，Gemini 在多模态处理方面表现出了强大的能力，并且在更复杂的推理方面具有巨大的潜力。

实际能力受到质疑

然而，在模型发布后不久，有人在谷歌的一份 60 页的技术报告中发现了一些“技巧”。

在MMLU测试中，Gemini结果在其下方用灰色小写字母标有cot@32，这意味着结果是使用思维练习提示技术进行 32 次尝试后选出最佳结果，与 GPT-4 相比，它是没有提示词技巧，只有 5 次尝试结果因此，变量没有得到很好的控制。

此外，示意图中的规模也存在问题，显示有很多超越人类专家，但实际上并没有太大的区别。

Huggingface的技术主管菲利普·施明德（Philipp Schmind）“修复”了这张图，说它实际上应该是这样的：

而且，在谷歌给出的一篇解释多模态交互过程的博客文章中，它似乎表明演示是指示的双子座的实时互动不是真实的，但采用静态**，通过多重提示的拼凑，最后进行编辑**，达到演示中的效果**。

无论谷歌是否刻意使用“蒙眼”，Gemini 的发布无疑给看似稳定的 AI 世界带来了一些“动荡”。

此外，Google 还宣布了迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统：cloud tpu v5pGemini 就是在此基础上正式训练的，这意味着谷歌将有能力要求英伟达的算力限制，这可以算是给AI芯片市场带来了一些变化。

大型模型的多模态探索

随着ChatGPT的升级迭代，它具备了多模态能力，以及Gemini展示的原生多模态能力，我们可以清晰地感受到，AI大模型的浪潮已经进入了一个新阶段，即从大语言模型到多模态模型。后者将更符合人类与世界互动的最自然方式：用眼睛看，用耳朵听，用嘴说话，用文字记录和做决定。

多模态领域的技术探索也与互联网媒体形态的变化非常吻合，即从文本**到。

如今，随着抖音、TikTok等短平台的兴起，它已经成为我们信息时代的主流。

根据思科的年度互联网报告，已经占到了互联网流量的80%以上

显然，如果一个大型AI模型不具备识别图像和声音的能力，那么它的训练数据将跟不上信息迭代的速度，其能力将大大降低。

现在，在多模态模式的探索之路上，除了GPT，Gemini也加入了进来，不知道Meta的LLAMA和马斯克的GRAK未来会不会也加入竞争

新 Tinder AI 谷歌深夜发布复仇神器双子座，原生多模态碾压 GPT 4？

相似文章

您是否准备好应对新 Tinder AI AI 时代可能遇到的道德问题？

谷歌最强AI模型Gemini正式发布了三个版本的多模态

谷歌发布AI模型双子座小公主还没长大，就被逼出内阁

谷歌大型AI模型双子座出道擅长复杂主题推理，懂编程语言PKGPT 4

谷歌发布了 Gemini，并在全球 AI 竞赛中投入了更多资金，我是这样看的

新 Tinder AI 谷歌深夜发布复仇神器双子座，原生多模态碾压 GPT 4？

相似文章

您是否准备好应对新 Tinder AI AI 时代可能遇到的道德问题？

谷歌最强AI模型Gemini正式发布了三个版本的多模态

谷歌发布AI模型双子座 小公主还没长大，就被逼出内阁

谷歌大型AI模型双子座出道 擅长复杂主题推理，懂编程语言PKGPT 4

谷歌发布了 Gemini，并在全球 AI 竞赛中投入了更多资金，我是这样看的

谷歌发布AI模型双子座小公主还没长大，就被逼出内阁

谷歌大型AI模型双子座出道擅长复杂主题推理，懂编程语言PKGPT 4