几个小时前,谷歌和谷歌 Deepmind 宣布了备受期待的 AI 模型 Gemini。 虽然关于它的实际表现没有太多反馈,但据报道它相当不错。
本文简要概述了我们目前所知道的内容,分为易于阅读的部分,以及我从阅读中获得的第一印象(该模型尚未经过测试)。 在接下来的几天里,我将更深入地了解 Gemini 是做什么的、它是如何构建的(希望有更多的信息)、它是如何工作的,以及它将对 AI 的未来产生什么影响。
概述如下:
Gemini 规格,型号(Ultra, Pro, Nano)和可用性。
与 GPT-4 相比,Gemini Ultra 的性能更胜一筹。
双子座本质上是多模态的。
我对当前信息的第一印象。
Gemini 是一个包含三个型号的模型系列:Ultra、Pro 和 Nano。 以下是技术报告中对 Gemini 型号及其规格的总结。
gemini ultra这是一个已经达到最新技术水平 (SOTA) 并在基准测试中超过 GPT-4 的版本(我们很快就会看到结果)。 它被设计为在数据中心运行,因此不能安装在个人计算机上。 尽管安全审查仍在进行中,但预计将于 2024 年初在谷歌新聊天机器人 Bard Advanced 的新版本上推出。
gemini pro相当于 GPT-35(尽管并不总是更好)并针对“成本和延迟”进行了优化。 如果您不需要最高水平的性能,并且成本是一个限制因素,那么 Pro 可能比 Ultra 更适合(比如 ChatGPT 与 GPT-3)。对于大多数任务,5 个免费版本比每月支付 20 美元的 GPT-4 要好)。Gemini Pro 已经在 Bard 上架(“迄今为止最大的升级”),覆盖英语国家的 170 个国家(不包括欧盟英国)。 谷歌计划在未来扩大其在其他国家和语言中的使用。
gemini nano是设备的模型。 虽然谷歌没有透露 Ultra 和 Pro 的参数数量,但我们知道 Nano 分为两个级别,Nano 1(18b) 和纳米 2 (3.)25b),适用于低内存和高内存设备。Gemini Nano 已经内置于 Google Pixel 8 Pro 中,这将是一款采用完全 AI 增强技术的智能手机。 Gemini 还将“在我们的更多产品和服务中提供,例如搜索、广告、Chrome 和 Duet AI”,但没有具体说明是哪种型号或何时推出的。
所有这些模型都有 32K 的背景,明显小于其他大型型号,Claude 200 为 200K,GPT-4 Turbo 为 128K。 很难确定上下文窗口的最佳大小(显然取决于任务),因为有报道称,如果窗口太大,模型往往会忘记大部分上下文知识。 据报道,双子座模型正在“有效利用其上下文长度”。
鉴于当今人工智能领域对紧密性的普遍偏好,我们对训练或微调数据集一无所知(除了数据集包含“来自 Web 文档、书籍和数据的数据,包括图像、音频和数据”),也不清楚模型的架构(除了它们“建立在转换器解码器之上”和“通过架构和模型优化的改进而增强”)。
有点有趣的是,我们必须等到 Meta 发布其下一个模型才能了解更多信息。 如果有一个开源的 LLAMA 3 以及与 GPT-4 和 Gemini 的性能比较,它将为我们提供一些关于这些模型是如何构建以及它们被训练了什么的线索。
最后,需要注意的是,Google DeepMind 还在 Gemini 之上发布了 Alphacode 2。 它比其前身 alphacode 多解决了 1 个问题7 倍,优于 85% 的竞争对手。 虽然这主要与竞争性编程有关,但这里也值得一提。
在科学和商业层面上,这可能是最重要的消息。 近一年来,人工智能模型首次超过GPT-4。 Gemini Ultra 在 32 个“广泛使用的学术基准”上获得了 SOTA 分数。 从博客文章中学习:
90岁的双子座超人0% 的分数成为第一个在 MMLU(大规模多任务语言理解)上优于人类专家的模型。 MMLU 结合数学、物理、历史、法律、医学和伦理学等 57 个学科,测试对世界知识和解决问题的能力的理解。Gemini Ultra 在新的 MMMU 基准测试中获得了 59 分该测试最近的得分为 4%,包含跨不同领域的多模态任务,需要深思熟虑的推理。Gemini Ultra 包含在下面显示的 18 个基准测试中,具有 MMLU(90% 对 86。4%,使用新的思维链方法)和新的多模态基准mmmu(59.)。4% 至 568%),超过了GPT-4。有趣的是,Gemini 并不比 GPT-4 好多少。 我认为这揭示了改进这些系统是多么困难,而不仅仅是因为谷歌无法与OpenAI竞争。 以下是这些基准与其他文本和多模态基准的比较:
如果你想了解更多关于双子座在现实世界测试中的能力(例如推理和理解、解决数学和编码问题等),我推荐你**来自 Google Deepmind 交互式博客文章**,以及 CEO Sundar Pichai 在 X 上发布的这个综合演示(两者都非常值得**,以更好地理解上面数字的含义)。
我认为这已经足够炒作谷歌在Gemini上的表现了,直到我们真正测试它的能力。 我将在这里摘录技术报告的结论,以防你错误地认为双子座已经解决了困扰现代人工智能系统的所有问题——幻觉和高级推理的问题仍然没有解决:
尽管它们的功能令人印象深刻,但我们应该注意到 LLMS 的使用存在一些局限性。 对于LLMS产生的“幻觉”,仍然需要持续的研究和开发,以确保模型的输出更加可靠和可验证。 LLMS 在需要高级推理技能的任务方面也存在困难,例如因果理解、逻辑推理和反事实推理,尽管它们在考试基准上表现出色。这里要注意的关键词是“天生的”,但首先让我们回顾一下多模态。 在关于多模态重要性的文章中提出。 多模态 AI 可以处理不同的数据类型,而语言模型只接受文本输入并生成文本输出。 以下是文章中的简要说明:
具体来说,人工智能中的多模态是什么样子的,我们可以说,在最薄弱的一面,我们有视觉+语言。 DALL-E 3(将文本作为输入,生成图像作为输出)和 GPT-4(将文本或图像作为输入并生成文本)是弱多模态的杰出例子。 最强大的一面仍未被探索,但原则上,人工智能可以获得人类拥有的所有感官模式(以及更多),包括提供移动能力的模式(例如,机器人的本体感觉和平衡感)。截至目前,Gemini 是多模态频谱上最强大的模型,包括文本、图像、音频等。 从技术报告:
Gemini 模型经过训练,可以处理各种音频和视频输入,例如自然图像、图表、屏幕截图、PDF 和 **,与文本输入交错,并且可以生成文本和图像输出。
多模态对于深刻理解世界是必要的。 一些人认为,当语言模型试图通过处理文本数据中的统计相关性来下一个单词时,它们会形成一个内在世界模型,但如果这是真的,那就非常有限了。 随着科学家建立能够解析更多信息模态的模型,它们的内部表征变得更加丰富,在极端情况下,它们可能与我们的内部表征相匹配。
但是,有两种不同的方法可以构建多模态 AI。 在这里,Gemini 独特的多式联运设计脱颖而出。 第一种方法之前已经尝试过很多次,涉及添加能够处理不同输入和输出的不同模块。 这在表面上是有效的,但不能为系统提供编码更丰富的世界多模态模型的方法。 以下是 Google Deepmind 首席执行官 Demis Hassabis 在一篇博客文章中的描述:
到目前为止,创建多模态模型的标准方法包括针对不同的模态训练单个组件,然后将它们组合在一起以粗略模拟某些功能。 这些模型有时擅长执行某些任务,例如描述图像,但在更概念化和更复杂的推理方面表现出困难。第二种方法,据说只有Gemini采用,需要从头开始构建多模态的AI系统。 与 GPT-4 不同,Gemini 从一开始就在多模态数据上进行了预训练,然后进行了微调。 以下是哈萨比斯对这种新方法的评价:
我们从一开始就将 Gemini 设计为天生的多模态,使用不同的模态进行预训练。 然后,我们使用额外的多模态数据对其进行微调,以进一步提高其有效性。 这有助于 Gemini 从头开始无缝地理解和推理各种输入,比现有的多模态模型更好,而且它的功能在几乎所有领域都是最先进的。第二种多模态方法更类似于我们多模态世界中人脑通过多感官接触习学习的方式。 如果有一种方法可以实现真正的通用智能(或者至少是人类水平的智能,这与通用智能不同),那就是通过这种默认的多模态。 **该演示清楚地展示了与生俱来的多模态所赋予的令人印象深刻的功能。
正如我在最近的文章中所讨论的那样,下一步是规划和机器人技术:
人工智能公司开发能够使用外部信息和知识看到、听到、说话、创建、移动、计划和做出合理决策的系统只是时间问题。 谷歌的Deepmind的Gemini和OpenAI的Q*都可以朝着这个方向发展(特别是通过学习习和搜索来解决规划问题)。谷歌 Deepmind 首席执行官 Demis Hassabis 向 Platformer 的 Casey Newton 证实,他们正在“思考......在系统和规划系统方面投入了大量精力。 在与《连线》杂志的威尔·奈特(Will Knight)的对话中,他对将Gemini与机器人技术相结合的愿景表达了类似的看法:“要实现真正的多模态,您需要包括触觉和触觉反馈......这些基础模型在机器人技术中的应用非常有前途,我们正在深入研究这一领域。 ”
谷歌兑现了其隐含的承诺:Gemini 在几乎所有基准测试中都优于 GPT-4。 仅此一项就值得,可能要花费数百万美元;这是四年来第一次有人从 OpenAI 中脱颖而出。 无论如何,在我们过度炒作双子座之前,我们应该等待谷歌在 2024 年初宣布 Bard Advanced,以测试它与 GPT-4 Turbo 的比较,从而决定哪一个更好。 也许下一个问题是:Gemini 的架构能否在时间上超越 GPT当然,我们不知道答案。
值得注意的是,如果你仔细看看基准评估中报告的数字,Gemini 最多只比 GPT-4 高出几个百分点(请记住,GPT-4 在 2022 年完成了训练)。 我认为这证明了用目前的方法很难让模型变得更好,而不是证明谷歌 Deepmind 的研究人员比 OpenAI 的研究人员“更糟糕”——这两家公司拥有一些世界上最好的人工智能人才,所以这实际上是人类可以用人工智能做的巅峰之作。 他们是否开始探索其他范式?我觉得事情正在发生变化,我们即将告别基于转换器的语言模型的霸权。
更值得一提的是 Google Deepmind 的开放性(就像 OpenAI 和 Anthropic 一样)。 他们没有分享有关训练或微调数据集的宝贵信息,也没有关于架构的宝贵信息。 这表明,从严格意义上讲,双子座更像是一个商业产品,而不是一个科学项目。 这本身并不是一件坏事(取决于你是研究人员还是用户),只是这不是 Deepmind 一直以来的真正目标。 正如 Microsoft 在 2019 年收购 OpenAI 迫使他们转向生产和产品市场适应战略一样,谷歌也在同样程度上利用 DeepMind。
回到科学。 接下来是规划、机器人和机器人技术。 在接下来的几个月里,我**将看到这些更大挑战的进展较慢,这比我们在语言建模上看到的要慢(记住莫拉维克悖论)。 Hassabis 认为 Gemini 将展示以前从未见过的能力,但我认为这些不会是真正的突破(从大局来看),而是与 OpenAI 已经取得的成就相比。 哈萨比斯与牛顿的对话证实了这一点,所以我仍然很兴奋:“我认为我们将看到一些新的能力。 这只是超测试的一部分。 我们目前处于测试阶段——检查它的安全性,负责任地检查,但也看看如何对其进行微调。 ”
最后,尽管桑达尔·皮查伊(Sundar Pichai)称这一声明是“双子座时代”的开始,但我认为谷歌的真正价值在于恢复他们每年失去的信任,因为一家拥有800名员工的初创公司一再设法将他们抛在后面。 这是谷歌对所有声称他们根本无法推出产品的人的最强烈反击。 这是对 OpenAI 的反击,以及围绕 ChatGPT 和 GPT-4 的无可挑剔的营销。 我们将看看它是否对他们有用,更重要的是,它会持续多久。