一个真正可以与GPT-4竞争的AI基础模型终于出现了。 北京时间12月7日凌晨,谷歌Deepmind发布了Gemini系列AI基础机型,分为Gemini Ultra、Gemini Pro、Gemini Nano三个版本,其中Gemini Ultra在32次测试中超越了之前的SOTA机型,Gemini Pro将成为Bard之后的机型,Gemini Nano将搭载在Pixel上8 Pro是定位在端侧的机型。
Gemini 是一个原生的多模态模型,直接对 GPT-4 和 GPT-4V 进行基准测试,谷歌加强了其安全性,进行了最全面的安全评估,包括偏见和有害内容,以及防范网络攻击和“越狱”等潜在风险。
Google AI Studio 是一款免费的基于 Web 的开发人员工具,允许开发人员使用 API 快速构建 AI 应用程序,Vertex AI 允许企业用户自定义 Gemini 并完全控制他们的数据。
如果你对人工智能新浪潮感兴趣,有见识,有创业意向,欢迎扫码添加“阿尔法助手”,记下你的“姓名+职位”,与我们深度对接。
今年 3 月中旬,OpenAI 的 GPT-4 发布,其性能碾压了其他基于 AI 的大模型,这让谷歌感受到了深深的威胁。 4 月 21 日,谷歌合并了两个最强大的人工智能实验室 Google Brain 和 Deepmind,以集中其精英研究工作,并让 Deepmind 的创始人 Demis Hassabis 领导公司。
和OpenAI一样,哈萨比斯一直有建立AGI的愿景,他在新闻发布会上说:“我始终相信,如果我们能制造出更智能的机器,我们就可以利用它们以不可思议的方式造福人类。 长期以来,我们一直希望构建新一代人工智能模型,其灵感来自人类理解世界和与世界互动的方式。 这样的人工智能感觉不像是一个智能软件,而更像是一个有用和直观的东西——一个专家助手或助手。 ”
一系列高性能原生多模态模型
Gemini 系列 AI 基础模型分为三个版本:Gemini Ultra、Gemini Pro 和 Gemini Nano。
Gemini Ultra 适用于高度复杂的任务;Gemini Pro 是性能和尺寸最平衡的版本,适合扩展各种任务;Gemini Nano 适用于设备端,可直接安装在移动设备上。
不过,Gemini Ultra 在投放市场之前,还需要完成更严格的信任和安全检查,以及红队测试和 RLHF,并且将于 2024 年初推出,主要面向开发者和企业客户。
在性能方面,从自然图像、音频和理解到数学推理,GeminiUltra 在 32 个广泛使用的学术基准中的 30 个方面优于当前最先进的结果。
Gemini Ultra 的售价为 900%的分数成为第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,MMLU(大规模多任务语言理解)是一项结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试,以测试世界知识和解决问题的能力。
此外,值得注意的是,在推理、数学、编码等几项判断大型模型真实能力的测试中,Gemini Ultra 几乎普遍领先于 GPT-4。
以下是 Gemini 技术文献中更详细的对比,以了解 Gemini Ultra 和 Gemini Pro 与主流机型的性能差异。
在音频和性能方面,与多模态能力相比,Gemini Ultra 在大多数测试中的表现也优于 GPT-4V,这凸显了 Gemini 原生的多模态特性,并显示出 Gemini 更复杂推理能力的早期迹象。
此外,Gemini Ultra 在更复杂的 MMMU 基准测试中取得了领先的 59 分该基准测试的得分为 4%,涵盖了跨越不同领域并需要深思熟虑推理的多模态任务。
以前,创建多模态模型的标准方法包括分别训练不同模态的组件,然后将它们拼接在一起以大致模拟这些特征。 这些模型有时在执行某些任务(例如描述图像)方面表现良好,但在更概念化和更复杂的推理方面会遇到困难。
Gemini 是一个原生的多模态模型,一开始就对不同的模态进行了预训练,然后由 Google 使用额外的多模态数据进行微调,以进一步提高其有效性。 这有助于 Gemini 从头开始无缝地理解和推理各种输入。
这也使Gemini能够理解文本、图像、音频等,并能适应更复杂的应用。
对于对生成式人工智能很重要的编程要求,谷歌使用Gemini的专有版本创建了一个更先进的生成系统Alphacode 2,该系统擅长解决超越编码并涉及复杂数学和理论计算机科学的竞争性编程问题。
Alphacode 2 比其前身有了巨大的改进,估计的表现优于 85% 的人类参赛者,而 AlphaCode 的数据则接近 50%。
负责任的制造商,强大的安全性
除了性能提升,作为一家大型科技公司,谷歌一直非常重视人工智能的安全性。 针对双子座,谷歌做了以下工作:
1.对模型进行全面的安全评估,包括偏见和有害内容。
2.利用对抗性测试技术,帮助提前识别 Gemini 部署中的关键安全问题。
3.Gemini 与多元化的外部专家和合作伙伴合作,在一系列问题上进行了压力测试。
4.为了限制危害,Google 构建了专门的安全分类器,用于识别、标记和过滤涉及暴力或负面刻板印象的内容。
5.与行业和更广泛的生态系统合作,例如 MLCOMMONS、前沿模型论坛及其 AI 安全**。
Gemini Pro 的 Bard、Google AI Studio 和 Vertex AI 面向开发人员和企业用户
在产品方面,谷歌将把Gemini模型的功能扩展到各种服务,如搜索、广告、Chrome和Duet AI(企业级生产力应用程序)。
直接对标ChatGPT的Bard,将把背后的模型从Palm2改为微调的Gemini Pro版本,实现更高级的推理、规划、理解等功能。 然而,虽然 Bard 已经在 170 多个国家和地区推出,但 Google 将在未来开放更多模式并支持新的语言和地区。
明年初,谷歌将推出Bard Advanced,其背后的型号将是Gemini Ultra,而不是Gemini Pro。
Gemini Nano 将安装在谷歌的 Pixel 8 Pro 智能手机上,提供音频摘要、Gboard 的智能回复等功能,以及未来更多的可能性。
此外,从 12 月 13 日开始,Google 将为开发者和企业客户提供 Gemini API 以访问 Gemini Pro 机型。
Google AI Studio 是一款基于 Web 的免费开发人员工具,允许开发人员使用 API 快速原型化和验证产品功能。
Vertex AI 允许企业用户自定义 Gemini 并完全控制他们的数据,它还提供完全托管的服务,并负责模型的安全性、隐私性以及数据治理和合规性。
虽然还需要在真实场景中进行测试,但 Gemini Ultra 是第一个在真正意义上能力上匹配或超越 GPT-4 的 AI 模型,而之前的 Claude2 和 Inflection2 在一些细分测试中只赶上了 GPT-4 的分数。
从技术上讲,Gemini模型的原生多模态范式代表了大模型的发展方向,未来2-3年,新推出的大模型应该是多模态大模型。 只有当大模型具备多模态能力时,才能充分“了解”世界,并在未来催生出AGI的雏形。
此外,部署在移动端的 Gemini Nano 模型也代表了另一种趋势,尽管与使用云进行联网的大模型相比,设备端模型缺乏通用能力,但更灵活、更安全,并且经过微调后对特定任务具有高可用性。 随着AI算力在终端侧的不断增强,它应该具有相当大的发展潜力。
在生态建设方面,谷歌为开发者提供了API和应用构建工具Google AI Studio,允许开发者使用先进的AI模型来构建自己的原生AI应用。 同时为企业用户提供模型定制和模型部署服务。
这些做法与Meta、亚马逊和阿里巴巴等科技巨头的做法相似,它们都希望通过生成式人工智能重塑业务,并建立新的生态系统来开辟第二条增长曲线。
其中,Meta 和阿里更为激进,不仅拥有云平台,还开源了自己的基础模型(llama2、通益千问);亚马逊也不小,不仅提供自己的闭源模型,还对接了 Claude 等第三方的高级模型。
当然,在产品和生态创造方面,目前最成功的还是OpenAI的ChatGPT、助手API和GPTS。 而他成功的基础是基于强大的GPT-4。
那么,当 Gemini Ultra 的能力赶上 GPT-4 时,这对创业者意味着什么?
首先,它让每个人都做产品经理越来越实用,有产品想法和能力的人可以更快、更便宜地验证他们的想法,而不需要太多的开发经验。
对于那些拥有产品能力和开发能力的个体创业者来说,现在除了 GPT-4 之外,还有另一种足够强大的模型可用,竞争有可能使 API 的成本更低,试错空间更大。
对于基于 API 或自定义模型构建垂直应用程序的初创公司来说,他们有更多的选择,并有望像开发人员一样降低成本。 不过,真正降本可能还得等足够高效、低成本的成熟算力芯片。
本文最初由Alpha Commune撰写。
关于阿尔法公社