“Gemini 是这一波生成式 AI 浪潮的高潮,但不是下一波浪潮的开始。 ”
由 Unbounded AI 生成。
12 月 6 日晚,谷歌旗下的 Deepmind 推出了其“迄今为止功能最强大、用途最广泛的模型”Gemini。 一位观察家说,双子座是一台“万事通机器”,在各种表演中都是一流的。 谷歌及其母公司Alphabet的首席执行官桑达尔·皮查伊(Sundar Pichai)在接受采访时也表示:“这对我们来说是向前迈出的一大步。 ”
是的,Gemini 对谷歌来说是一个备受诟病的 Bard 的改进,但对于整个 AI 领域来说,这并不一定是一个巨大的飞跃。
作为对 OpenAI 的 GPT-4 的回应,谷歌的 Deepmind 声称 Gemini 在 32 个标准性能指标中的 30 个指标中优于 GPT-4。 但是,它们之间的差距实际上很小。 Google Deepmind 所做的只是将 AI 目前所能做到的最好的功能整合到一个强大的软件包中。 从演示来看,它做得很好,但很少有我们以前没有见过的东西。
双子座可能预示着我们已经达到了人工智能炒作的顶峰。 至少现在是这样。
华盛顿大学(University of Washington)专门研究搜索的教授奇拉格·沙阿(Chirag Shah)将这一公告比作苹果最近的iPhone。 “也许我们现在只是上升到一个不同的门槛,这对我们来说并不那么令人印象深刻,因为我们已经看到了太多的[类似产品和功能],”他说。 ”
与 GPT-4 一样,Gemini 是多模态的,这意味着它可以被训练来处理各种输入:文本、图像、音频。 它可以结合这些不同的格式来回答各种问题,从家务到大学数学再到经济学。
在昨天为记者举行的一次演讲中,谷歌展示了Gemini的功能,它可以截取现有图表的屏幕截图,分析数百页的研究报告和新数据,然后用新信息更新图表。 在另一个演示中,Gemini 展示了在平底锅中煮熟的乳蛋饼,并询问(使用语音而不是文本)乳蛋饼是否煮熟。 双子座也准确地回答:“还没煮熟,因为鸡蛋还在流。 ”
目前,双子座还没有完全上线。 今天推出的版本是谷歌基于文本的搜索聊天机器人Bard的后端。 Gemini 的全面推出将在未来几个月内分阶段进行。 全新 GEMINI 增强版的 Bard 最初将在 170 多个国家/地区(不包括欧盟和英国)提供英文版本。 谷歌负责Bard的副总裁Sissie Hsiao表示,这是为了让该公司与当地监管机构“接触”。
具体来说,Gemini 有三种规格:Ultra、Pro 和 Nano。 其中,Ultra是全功率版本;Pro 和 Nano 专为计算资源有限的应用程序量身定制。 Nano 设计用于在 Google** Pixel 手机等设备上运行。 从 12 月 13 日开始,开发者和企业将可以访问 Gemini Pro。 Gemini Ultra是最强大的规格,将于明年初“经过广泛的信任和安全检查”推出。
我认为大模特已经到了双子座时代,“皮查伊说。 “这就是Google Deepmind在人工智能领域的构建和进步方式。 它将永远代表着我们在人工智能技术进步的最前沿。 ”
OpenAI 最强大的模型 GPT-4 被认为是业界最先进的标准。 尽管谷歌吹嘘 Gemini 比 OpenAI 之前的模型 GPT 3 更好5 更强大,但公司高管回避了有关该模型比 GPT-4 好多少的问题。
在与类似的大型模型进行比较时,谷歌特别强调了一个名为MMLU(大规模多任务语言理解)的基准测试。 这是一组测试,旨在衡量模型在涉及文本和图像的任务中的性能,包括阅读理解、大学数学以及物理、经济学和社会科学中的多项选择测试。 皮查伊说,在纯文本问题上,GEMNI得分为90%,人类专家得分约为89%,GPT-4在此类问题上得分为86%。 在多模态问题上,Gemini 得分为 59%,而 GPT-4 得分为 57%。 “这是第一个跨过这一门槛的模型,”皮查伊说。 ”
诚然,在数据方面,Gemini 的得分比 GPT-4 好,但真的不多。
新墨西哥州圣达菲研究所的人工智能研究员梅兰妮·米切尔(Melanie Mitchell)说:“显然,双子座是一个非常复杂的人工智能系统。 但“在我看来,双子座实际上并没有比 GPT-4 更强大,”她补充道。
此外,斯坦福大学基础模型中心主任Percy Liang也表示,虽然该模型具有良好的基准分数,但由于我们不知道训练数据的内容,因此很难解释数据。
Mitchell 还指出,Gemini 在不同的基准测试中并不一致,语言和 ** 的表现要比图形和 ** 好得多。 “多模态基础模型在许多任务中发挥普遍而强大的作用之前还有很长的路要走,”她说。 ”
谷歌的 DeepMind 已经训练双子座反映事实,在被问到时给出归属,在面对无法回答的问题时避免而不是喋喋不休。 谷歌表示,这可以缓解幻觉问题。 但是,如果不对底层技术进行彻底的改革,大型语言模型将继续被构成。
专家表示,目前尚不清楚谷歌用来衡量双子座绩效的基准是否提供了那么多的洞察力,而且如果不透明,就很难验证谷歌的说法。
华盛顿大学(University of Washington)计算语言学教授艾米丽·本德(Emily Bender)表示:“谷歌将Gemini宣传为一台一刀切的机器——一种通用模型,可用于许多不同的目的。 然而,该公司正在使用狭窄的基准来评估它希望用于这些不同用途的模型。 “这意味着它实际上无法被彻底评估,”她说。
最终,Shah说,与竞争模型相比,这种进步可能不会对普通用户产生太大影响。 “这更多的是关于便利性、品牌认知度和现有的整合,而不是人们真正认为,'哦,这更好,'”他说。
双子座已经存在了很长时间。 2023 年 4 月,谷歌宣布将其 AI 研究部门 Google Brain 与 Alphabet 位于伦敦的 AI 研究实验室 Deepmind 合并。 因此,谷歌花了将近一年的时间开发其对 OpenAI 最先进的大型语言模型 GPT-4 的答案。
谷歌一直承受着巨大的压力,要向投资者展示它可以在人工智能领域与竞争对手匹敌甚至超越。 虽然谷歌多年来一直在开发和使用强大的人工智能模型,但由于担心声誉受损和安全问题,它一直犹豫是否要推出可供公众使用的工具。
今年4月,杰弗里·辛顿(Geoffrey Hinton)在离开谷歌时表示:“谷歌在向公众发布这些东西时一直非常谨慎。 “可能发生的坏事太多了,谷歌不想毁掉自己的声誉。 “面对看似不可信或无法销售的技术,谷歌采取了谨慎的态度——直到更大的风险变成错失的机会。
谷歌已经意识到,推出有缺陷的产品可能会适得其反。 今年 2 月,谷歌发起了 ChatGPT 与 Bard 的竞赛,但科学家们很快发现该公司自己的聊天机器人广告中存在事实错误,这一事件使谷歌的市值蒸发了 1000 亿美元。
今年 5 月,谷歌宣布在其大多数产品中推出生成式 AI,从电子邮件到生产力软件。 但结果并没有给人留下深刻的印象:例如,聊天机器人提到了一封不存在的电子邮件。
这是大型语言模型的一致问题。 生成式人工智能系统虽然擅长生成听起来像人类写作的文本,但往往会编造出来。 而且它们也是可破解和有偏见的。
谷歌还没有解决这些问题或错觉问题。 对于后一个问题,谷歌的解决方案是让人们使用谷歌搜索反复检查聊天机器人的答案,但这依赖于搜索结果本身的准确性。
Gemini 可能是这波生成式 AI 浪潮的高潮。 但目前尚不清楚建立在大型语言模型上的人工智能下一步将走向何方。 一些研究人员认为,这可能只是一个平台期,而不是下一个高峰的开始。
然而,皮查伊对未来并不悲观。 “展望未来,我们确实看到了很大的增长空间,”他说。 “我认为多模式将有所作为。 当我们教这些模型进行更多的推理时,就会有越来越多的突破。 更深层次的突破还在后头。 “总的来说,我真的觉得我们正处于起步阶段。 ”
原文**:麻省理工学院技术评论,作者:Melissa Heikkil、Will Douglas He**en