谣言已经流传了很长时间,谷歌正在开发一个大型语言模型。 这个传闻终于在近日得到证实,当时谷歌Deepmind正式宣布了自己的大模型Gemini,而它的对手是OpenAI的GPT-4。
Gemini是谷歌迄今为止最大的人工智能进步之一,旨在与竞争对手OpenAI和Microsoft竞争AI领域的领导地位。 毫无疑问,该模型在各种功能上被宣传为同类产品中最好的,甚至有人说它是“万事通机器”。
*:google)
谷歌及其母公司Alphabet的首席执行官桑达尔·皮查伊(Sundar Pichai)告诉《麻省理工科技评论》:“这种模式本质上更强大,它是一个平台。 人工智能是一个影响深远的平台转变,比网络或移动带来的影响更大。 因此,它代表着我们向前迈出了一大步。 ”
从演示来看,它在很多方面都做得很好,但很少有我们以前没有见过的。 Gemini 是多模态的,这意味着它被训练可以处理多个输入:文本、图像和音频。 它可以结合这些不同的格式来回答从家务到大学数学再到经济学的所有内容。
在发布会上向记者介绍时,谷歌展示了Gemini对现有图表进行截图的能力,用新数据分析数百页的研究,然后用新信息更新图表。
在另一个例子中,双子座展示了在平底锅中煮煎蛋卷的**,并被语音问到“煎蛋卷煮熟了吗”。 双子座回答说:“还没做,因为蛋黄还没凝固。 ”
但是,要获得完整的体验,大多数人将不得不等待一段时间。 此次发布是谷歌搜索聊天机器人Bard的后端,该公司表示,它将为Bard提供更高级的推理、规划和理解能力。
Gemini 的几个版本将在未来几个月内推出。 新款 Gemini Enhanced Bard 最初将在 170 多个国家和地区(不包括欧盟和英国)提供英文版本。 谷歌Bard副总裁Sissie Hsiao表示,这是为了让公司与当地监管机构“接触”。
Gemini 有三种尺寸:Ultra、Pro 和 Nano。 Ultra 是性能最高的版本,Pro 和 Nano 是为计算资源有限的应用程序量身定制的。 nano 旨在在移动设备上运行,例如 Google 的 Pixel 手机。
从 2023 年 12 月 13 日开始,开发者和企业将可以访问 Gemini Pro。 谷歌高管在一次新闻发布会上告诉记者,在经过“广泛的信任和安全检查”后,最强大的Gemini Ultra将在“明年初”上线。
皮查伊告诉我们:“我认为这是双子座模式的时代。 这就是 Google Deepmind 将如何构建人工智能并取得进步。 因此,它将永远代表着我们在人工智能技术进步的最前沿。 ”
OpenAI 最强大的模型 GPT-4 被认为是业界的领先标准。 虽然谷歌生成的 Gemini 的表现优于 OpenAI 之前的模型 GPT 35,但公司高管回避了该模型超过GPT-4多少的问题。
但该公司特别强调一个名为MMLU(大规模多任务语言理解)基准的基准。 这些测试旨在衡量模型在涉及文本和图像的任务上的表现,包括阅读理解、大学数学以及物理、经济学和社会科学中的多项选择测试。
皮查伊说,在纯文本任务中,双子座得分为90%,人类专家得分约为89%。 GPT-4 在这些类型的问题上得分为 86%。 在多模态任务中,Gemini 得分为 59%,而 GPT-4 得分为 57%。 “这是第一个跨过这一门槛的模型,”皮查伊说。 ”
新墨西哥州圣达菲研究所的人工智能研究员梅兰妮·米切尔(Melanie Mitchell)表示,Gemini在基准数据集上的表现令人印象深刻。
“很明显,Gemini是一个非常复杂的人工智能系统,”米切尔说。 但对我来说,双子座虽然比 GPT-4 强,但并不明显。 ”
斯坦福大学基础模型中心主任Percy Liang表示,虽然该模型在基准数据集上表现良好,但很难理解如何解释这些数字,因为我们不知道训练数据中的内容。
Mitchell 还指出,Gemini 在语言和基准测试方面的表现要比在图形和方面要好得多。 “多模态基础模型在许多任务中广泛使用之前还有很长的路要走,”她说。 ”
利用人类测试人员的反馈,Google Deepmind 可以训练 Gemini 更准确地回答事实,在被问到时给出归因,并在面对无法回答的问题时给出反馈,而不是胡言乱语。
该公司声称,这缓解了幻觉的问题。 但是,如果不对底层技术进行彻底的改革,大型语言模型将继续被构成。
Emily M.,华盛顿大学计算语言学教授“谷歌正在将Gemini推广为一种通用机器,一种可以以多种不同方式使用的通用模型,”Bender说。 ”
但该公司正在使用狭隘的基准来评估这些模型用于不同的目的。 “这意味着我们无法有效和彻底地评估它,”她说。 ”
双子座已经很久没有出生了。 2023 年 4 月,谷歌宣布其 AI 研究部门 Google Brain 与 AI 研究实验室 Deepmind 合并。
因此,谷歌花了将近一年的时间为 OpenAI 最先进的大型语言模型 GPT-4 开发 Gemini。 该模型于 2023 年 3 月首次亮相,是 ChatGPT 的 Plus 付费版本的基础。
谷歌一直承受着巨大的压力,要向投资者证明它可以在人工智能领域与竞争对手匹敌并超越竞争对手。
尽管该公司多年来一直在开发和使用强大的人工智能模型,但由于担心声誉受损和安全问题,它一直犹豫是否要向公众推出类似的工具。
谷歌一直非常谨慎地向公众发布这些东西。 图灵奖得主杰弗里·辛顿(Geoffrey Hinton)在2024年4月离开谷歌时告诉《麻省理工科技评论》,“可能发生的坏事太多了,谷歌不想毁掉自己的声誉。 “面对看似不可信的技术,谷歌总是小心翼翼地踩着脚,直到风险变成失误。
谷歌在秋天了解到,推出有缺陷的产品会适得其反。 当该公司于 2023 年 2 月推出其 ChatGPT 竞争对手 Bard 时,科学家们很快注意到该公司聊天机器人营销内容中存在事实错误。 该事件随后抹去了其股价的1000亿美元。
2023 年 5 月,谷歌宣布将在其大多数产品中推出生成式 AI,从电子邮件到生产力软件。 但批评者并不止于此,例如,聊天机器人提到了不存在的电子邮件。
此问题在大型语言模型中很普遍。 尽管生成式人工智能系统非常擅长生成看起来像人类编写的内容,但它经常会让事情变得混乱。
这不是他们唯一的问题。 他们也很容易“越狱”,充满偏见。 它们生成的内容也会造成文本污染。
Gemini 可能是这波生成式 AI 浪潮的巅峰之作。 但目前尚不清楚基于大型语言模型的人工智能下一步将走向何方。 一些研究人员认为,这可能是扁平化的下一步。
皮查伊不同意。 “展望未来,我们看到了很大的空间。 “我认为多模态将具有重要意义。 当我们教这些模型进行更多的推理时,会有越来越多的突破。 更深层次的突破还在后头。 “当我看到大局时,我真的觉得我们才刚刚开始。 ”
关于作者: Will Douglas He**en 是《麻省理工科技评论》人工智能部分的高级编辑,他在那里报道新研究、新兴趋势及其背后的人。 此前,他是英国广播公司(BBC)《未来与地缘政治》的创始编辑和《新科学家》杂志的首席技术编辑。 他拥有英国伦敦帝国理工学院的计算机科学博士学位,精通机器人工作。
关于作者:梅丽莎·海基尔(Melissa Heikkil)是《麻省理工科技评论》的高级记者,她专注于人工智能及其如何改变我们的社会。 此前,她曾在politico撰写有关人工智能政策和政治的文章。 她还曾在《经济学人》工作,并担任新闻主播。
Matt Honan 对本文也有帮助。
支持:任