谷歌双子座是神话般的多模态和被低估的宽容

图片来自：视觉中国。

谷歌最强大的大模型Gemini已经发布，我陆续阅读了技术报告和一些评测分析，周末也记录并分享了

首先，有几点值得标记。

Gemini Ultra 的得分为 900%，是第一个在MMLU（大规模多任务语言理解）上超越人类专家的模型，类似于高考。国内外也有类似的基准。

例如，C-eval、CMMLU、Gaokao、Lucyeval、Superclue、OpenCompass、Flageval等。

2.谷歌这次推广双子座最大的亮点是多模态。 “Gemini 被设计为原生的多模态，从一开始就对不同的模态进行了预训练。帮助 Gemini 从头开始无缝地理解和推理各种输入远远优于现有的多模态模型——它的功能在几乎每个领域都是最先进的。 ”

遵循下一个标记预测方法，Gemini 从头开始训练多模态数据，包括文本、音频等，并将所有模态数据转换为标记，最后成为一维线性输入（不同模态按颜色顺序标记），使模型**下一个标记。

3.谷歌一口气发布了三款机型：Ultra 是最大的，对标 GPT4 和 4V，目前尚未开放（API 将于 12 月 13 日开放）。专业基准测试 GPT35.它可以用于美国吟游诗人（我尝试了我的吟游诗人，或者以前的lamda）。 nano 是一款小型型号，可在 Google 的 Pixel 8 手机上使用。

4.在技术报告中，谷歌强调了计算能力的优势：“我们宣布了迄今为止最强大、最高效、最可扩展的 TPU 系统 Cloud TPU V5P，旨在训练尖端的 AI 模型。 ”

翻译成白话，就是：Microsoft OpenAI Anthropic这些公司，利润（据说70%）被英伟达吃掉了，我的利润还是我自己的。（事实上，Microsoft和OpenAI也在尝试制造自己的芯片，但进展速度比谷歌慢。）

5.Gemini 语音识别在主要语言上有显着改进（BLEU 比 OpenAI 的 Wisper 2 高 10 分，但 Wisper 在其他语言中更强。在WMT2023测试集上评估的机器翻译能力结果也略高于GPT4）。

第二，一个简单的评估。

它不起作用**，我用这张图尝试了一些具有多模态功能的模型。这是如何做到这一点的：上传这张图片并问：哪辆车在设计方面会跑得更快？

文欣 40：

志浦清妍：

ChatGPT GPT4：

Google Bard（还不是 Gemini Pro）：

我没有太多评论，但四个同学很有趣

3.几点想法。

1.关于多模态：声音的实时处理、**流、现实世界的交互，意味着在具身智能方面向前迈出了一大步。它可以实时接收信息，实时处理任务，更像是人类的生活场景。谷歌拥有世界上最大的YouTube，在训练多模态模型方面处于有利地位。而最近 Bunsen Diagram Midjourney 和 Bunsen ** Runway Pika 的火灾，证明了多模态的商业潜力。

然而，从知识的角度来看，多模态被神化了。与文本语言模型相比，多模态模型在智能方面没有太大的提升，在理解、推理、创造等方面也没有明显提升。除了训练的难度，我想我们低估了文本。 Rust 的创始人 Graydon Hoare 说：“所有的文学和诗歌、历史和哲学、数学、逻辑、编程和工程都依赖文本编码来表达他们的想法，这绝非巧合。

文本确实保留了人类智慧的精髓，古今中外的智慧，以及对世界万物的认知和发现，从人类文字记载开始，几乎都保存在文本中。

一方面，GPT只是一个读过上千本书的“书”，但他已经具备了很强的常识、理解力、推理力和创造力不要偷看，看天堂的味道”。另一方面，如何阅读自然之书？这似乎是一个巨大的问题。从现实世界中习知识，与阅读数千本书相比，就像旅行数千英里一样，效率要低得多。

2.双子座没有现场演示，网上一些复制品与演示不符，有夸大宣传的嫌疑。不过，从Bard不断缩小与ChatGPT的差距，以及谷歌的综合能力来看，Gemini Ultra的能力不会和宣传的有太大区别。

双子座的这一战，为AI领域的双星格局奠定了基础，我们都低估了谷歌的忍耐力。

从竞争格局来看，无论是 Meta 的开源 llama2，还是专注于安全的 Anthropic，以及马斯克的 XAI，目前的差距已经扩大。

3.谷歌的优势如下：

在组织上，今年年初DeepMind和Google Brain的合并，解决了力量分散和认知不统一的问题，变劣为优。

在人才方面，领头羊是Alphago的发起人黛米·哈萨比斯（Demi Hassabis），他对AGI有着深刻的理解，首席科学家是工程师传奇人物杰夫·迪恩（Jeff Dean）。从人数上看，技术报告作者一栏的人数长达数页，接近1000人。已经超过了openai的数量（超过七百个）。

算力算法工程：在算力方面，谷歌不像Microsoft和OpenAI那样高度依赖英伟达，拥有Cloud TPU V5P。在算法上，谷歌是Transformer的发明者，一直是算法的领导者还有搜索业务本身积累的底层算法和工程能力。

在生态方面，谷歌的C端比Microsoft强，Microsoft除了云之外，最主要的就是Window Office，谷歌几乎拥有Microsoft+苹果的C端能力。此外，模型层和应用层在一个系统下，动作应该比OpenAI和Microsoft联盟更快。

4.当然，OpenAI的优势至少是以下几点：

GPT4 于 3 月发布，比 Gemini Ultra 提前 9 个月，GPT5 会在几个月后发布吗？

ChatGPT是一款杀手级APP，紧接着GPT4的发布，OpenAI占据了用户的心智，GPT几乎成了大模型的代名词。

全球超过1亿用户形成的用户反馈和数据飞轮已大规模上线。

Microsoft没有Copilot和Azure云渗透到大公司那么快，OpenAI的创业心态，以及关于GPTS和GPT Store的生态野心都是厚实的肌肉。

5.神话般的多模式前景，被低估的谷歌的宽容，加速的人工智能进程，以及淹没喧嚣的人工智能风险。

这可能是我们，还处于无知的早期阶段，在实现前所未有的生产力飞跃之前的徘徊，也可能是文明全面发展后硅超越的悬崖边缘的诱惑。

无论如何，这注定是一段动荡不安、动荡万钧的人类历史数年，值得观察和记录。

谷歌双子座是神话般的多模态和被低估的宽容

相似文章

谷歌Gemini的发布将人工智能带入了一个新时代

Google Gemini 是人工智能的万能机器还是炒作的巅峰之作？

面向多模态数据的融合学习习框架设计

中国股市未来将飙升“多模态AI”黑马！只有这五个！

核武器的神话揭示了力量被夸大的真相