作者:一。
GPT-4最强的对手出现了。
北京时间12月7日凌晨,谷歌CEO“砍柴”突然发布重磅AI杀手特辑gemini。就在前几天,还有传出双子座要推迟一个月上线的消息,现在发布得这么突然,着实让AI圈大吃一惊。 以谷歌过去的实力,不用想,这又是AI世界的又一个“不眠之夜”。
去年ChatGPT发布不到两周,谷歌就敲响了回应的警钟,最终做出来的巴德在首次亮相时犯了一个错误,导致谷歌的市值一夜之间蒸发了1000亿美元。
而且,GPT(Generative Pre-Training Transformer)还是基于 Transformer 开发的,而这个 Transformer 模型最早是由 Google 提出的,所以 Google 要心甘情愿地认输并不是那么容易的。
果不其然,在过去的一年里,关于Gemini的新闻层出不穷,有人说谷歌大脑和深智部门的合并,几乎耗尽了谷歌内部的计算资源,只为对抗OpenAI。
然而,前段时间,OpenAI的发布会炸开了AI世界,上演了一场“宫斗剧”,甚至有传言让人想到Q*,谷歌没有任何新消息,几乎让人以为AI圈之王已经决定了。
就在一个月前,英伟达科学家Jim Fan表示,”对 Google Gemini 的期望高得离谱!谷歌要想重拾AlphaGo的荣耀,Gemini不仅要实现100%的GPT-4能力,还要在成本或速度上优于GPT-4。 ”
生而为多面手
值得庆幸的是,从 Gemini 发布的演示**来看,它并没有让人失望。
“从第一天起,Gemini 就一直是一个多模态模型——跨文本、图像、音频等进行无缝推理。 ”这是谷歌官网上介绍双子座的第一句话。
与ChatGPT通过升级迭代逐步增加视觉、音频等多模态能力形成“组合金刚”不同,双子座天生就是一个全能型选手。 它从第一天起就被设计成一个原生的多模态结构,文本、图像和声音**能力从一开始就被训练在一起,从这个角度来看,双子座的学习习更像是人类。 这意味着Gemini可以无缝地调动多模态能力,以抽象和理解、操作和组合不同类型的信息。
比如你同时给ChatGPT和Gemini上传一个**,那么ChatGPT的处理会是这样的,先用GPT-4V识别图片中的内容,然后转换成文字交给GPT进行语义理解,然后回答;另一方面,Gemini 可以直接根据图像进行理解和响应,而无需在不同模型之间移动。 因此,Gemini 可以减少信息丢失,并在实践中更快、更顺畅地做出反应。
这可以从 Google 给出的演示**中看出:
双子座在画画时可以认出主讲人,用自然、流利的声音与主讲人交谈,当主讲人拿出蓝色玩具鸭子时,它会幽默地回应:“看起来蓝鸭子比我想象的更常见。 ”
显然,这种体验更接近漫威的“贾维斯”——一种可以自如与人类互动的先进人工智能。
而这种体验,离不开双子座原生多模态架构
gemini vs gpt-4
除了具有惊人的原生多模式功能外,在性能方面,双子座也相当强势
根据尺寸的不同,Gemini 有三种不同的版本:“中”、“大”和“超大”,即 Ultra、Pro 和 Nano。 它们在性能和适应任务方面具有不同的优先级。
Gemini Ultra 是用于高度复杂任务的最大、最强大的型号,预计将于 2024 年初上市。
Gemini Pro是各种任务的最佳型号,已被用于谷歌聊天机器人Bard的升级版本。
Gemini Nano 是一款可以在设备上运行的高效型号,已经在 Google Pixel 8 Pro 上运行。
根据谷歌的数据,Gemini Ultra 的表现是 32 个通用大型语言模型 (LLM) 研发的学术基准之一,从自然图像、音频和理解,到数学推理拿下 30 个 SOTA
其中,它在通识、推理、数学和程序设计等大方向上的结果如下:
更令人惊讶的是,Gemini Ultra 在 MMLU(大规模多任务语言理解)任务中获得了 90 分0%,超过89位人类专家8% 的结果,第一次达到了超越人类专家的水平
MMLU测试包括数学、物理、历史、法律、医学等57个科目,主要用于测试大型语言模型的世界知识和解决问题的能力,在这些科目中,Gemini达到或超过行业专家的水平。
在图像基准测试中,Gemini Ultra 不使用 OCR(对象字符识别)来提取图像文本以进行进一步处理优于 GPT-4V
各种测试表明,Gemini 在多模态处理方面表现出了强大的能力,并且在更复杂的推理方面具有巨大的潜力。
实际能力受到质疑
然而,在模型发布后不久,有人在谷歌的一份 60 页的技术报告中发现了一些“技巧”。
在MMLU测试中,Gemini结果在其下方用灰色小写字母标有cot@32,这意味着结果是使用思维练习提示技术进行 32 次尝试后选出最佳结果,与 GPT-4 相比,它是没有提示词技巧,只有 5 次尝试结果因此,变量没有得到很好的控制。
此外,示意图中的规模也存在问题,显示有很多超越人类专家,但实际上并没有太大的区别。
Huggingface的技术主管菲利普·施明德(Philipp Schmind)“修复”了这张图,说它实际上应该是这样的:
而且,在谷歌给出的一篇解释多模态交互过程的博客文章中,它似乎表明演示是指示的双子座的实时互动不是真实的,但采用静态**,通过多重提示的拼凑,最后进行编辑**,达到演示中的效果**。
无论谷歌是否刻意使用“蒙眼”,Gemini 的发布无疑给看似稳定的 AI 世界带来了一些“动荡”。
此外,Google 还宣布了迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统:cloud tpu v5pGemini 就是在此基础上正式训练的,这意味着谷歌将有能力要求英伟达的算力限制,这可以算是给AI芯片市场带来了一些变化。
大型模型的多模态探索
随着ChatGPT的升级迭代,它具备了多模态能力,以及Gemini展示的原生多模态能力,我们可以清晰地感受到,AI大模型的浪潮已经进入了一个新阶段,即从大语言模型到多模态模型。 后者将更符合人类与世界互动的最自然方式:用眼睛看,用耳朵听,用嘴说话,用文字记录和做决定。
多模态领域的技术探索也与互联网媒体形态的变化非常吻合,即从文本**到。
如今,随着抖音、TikTok等短平台的兴起,它已经成为我们信息时代的主流。
根据思科的年度互联网报告,已经占到了互联网流量的80%以上
显然,如果一个大型AI模型不具备识别图像和声音的能力,那么它的训练数据将跟不上信息迭代的速度,其能力将大大降低。
现在,在多模态模式的探索之路上,除了GPT,Gemini也加入了进来,不知道Meta的LLAMA和马斯克的GRAK未来会不会也加入竞争