七大标准对比双子座和ChatGPT,谁是AI第一?

小夏 文化 更新 2024-01-29

谷歌的 Gemini 模型和 OpenAI 的 GPT 谁更好?双子座比谷歌之前的模型改进了多远?

目前,该公司自己吹嘘自己可以击败 GPT-4 Gemini Ultra 要到明年才会推出,但 Google Bard 聊天机器人已被 Gemini Pro 的低规格版本(以 GPT-3 为基准)所取代。5)。

技术回顾 ** Ars Technica, Jean Gemni Pro, GPT-35 和 GPT-4 对数学、编程、文本生成等进行了全面的 PK,并附上了 4 月份旧版 Bard(运行 Palm 2 模型)的测试结果,以展示 Google Bard 取得的进步,并展示这些 AI 助手中哪些对普通人的生产力提升最大。

结果显示,尽管有 Gemini Pro 的加持,但谷歌的 Bard 聊天机器人在大多数项目上仍然无法击败 ChatGPT。 不过,与8个月前的旧版吟游诗人相比,已经有了质的飞跃。

提示:写5个原创笑话

从上到下,Gemini Pro、传统 Bard、GPT-4 和 GPT-35 个答案)。

从答案来看,几款AI大模型的笑话在“独创性”方面被彻底抹杀了。 根据笔者的验证,所有生成的笑话都可以在互联网上找到,或者只是稍微改动了几句话。

Gemini 和 ChatGPT-4 开了一模一样的玩笑——“我有一本关于反重力的书,爱不释手”。 和 GPT-35 和 GPT-4 也重复了两个笑话。

PK结果:平局

提示:写一个 PowerPC 处理器风扇和英特尔处理器风扇之间的 5 行辩论,大约 2000 年。

与旧版本的Bard相比,Gemini Pro是一个重大的改进,至少有很多行业术语,例如Altivec指令,RISC和CISC设计,以及MMX技术,这在那个时代的许多技术论坛讨论中都不会显得突兀。

此外,虽然Gemini Pro只按要求列出了五行,但所写的辩论可以永远持续下去。 旧版本的吟游诗人直接在第五行结束。

相比之下,GPT 系列产生的响应没有使用太多行话,而是专注于“功率与兼容性”,这使得 GPT 系列的论点更容易被非技术极客理解。 然而,GPT-35 的答案相当冗长,相比之下,GPT-4 的论点更简洁。

PK结果:GPT获胜

提示:如果使用 35英寸软盘安装Microsoft Win 11,我总共需要多少张软盘?

旧版本的吟游诗人给出的答案是“1511张“,这是一个完全错误的答案。 另一方面,Gemini 正确估计了 Windows 11 安装大小(20 到 30GB),并根据 14,223GB 估计正确计算出需要 20 张 1 张44MB 软盘。 Gemini 还根据谷歌搜索进行“双重检查”,这有助于提高用户对答案的信心。

相比之下,ChatGPT有点不足。 在 chatgpt-3 中5 错误地估计了 Win 11 到 10 G 的大小,另一方面,GPT-4 也估计它是不正确的 64GB(这似乎是最低存储要求,而不是操作系统安装时实际使用的空间)。

PK结果:谷歌获胜

promp:总结一篇关于人工智能监管的文章

Gemini Pro 生成简明扼要的文章,并提供引文链接。 但它的总结似乎过于简洁,甚至去掉了旧版吟游诗人原本拥有的一些关键细节,比如**由十个两秒的片段拼接而成。 虽然重写在一定程度上提高了可读性,但它是以牺牲完整性为代价的。

ChatGPT 的片段因不够简洁而丢了一些分:生成的片段从 99 个单词 (GPT-4) 增加到 108 个单词 (GPT-3.)。5)多样性,而谷歌新旧版吟游诗人的摘要分别只有63到66个字。

不过,ChatGPT总结了更重要的细节,比如**的反应、原发帖人的名字、subreddits等,都被Gemini忽略了。

PK结果:GPT获胜

提示:谁发明了电子游戏?

巴德在这个问题上又做了一个重大的改进。 旧版的 Bard 只关注 Ralph Baer 的 Brown Box 和 Magn**Ox Odyssey 的作品(信息似乎直接取自维基百科),而新版本的 Gemini Pro 准确而简洁地指出了 William Higinbotham 早期的“双人网球”贡献。

随后,双子座从“发明”扩展到包括诺兰·布什内尔、泰德·达布尼和阿尔科恩等人物,他们“为电子游戏的早期发展做出了重大贡献”,并提供了关于每个人的基本准确信息。

然而,双子座随后继续胡说八道,谈论苹果的两位创始人史蒂夫·乔布斯和沃兹尼亚克的工作,而没有提到他们早年在游戏公司雅达利的工作。

gpt-3.5 就像老吟游诗人一样,它以拉尔夫·贝尔为中心。 虽然它提到“多年来不同的个人和公司为该行业做出了贡献”,但它没有提到这些重要人物的名字。

GPT-4 首先指出,电子游戏的发明“不能归因于任何一个人”,并将其摘要扩展到 Higgin Botham、Bushnell,以及至关重要的 Steve Russell 1962 年在 PDP-1 上创建的太空大战。

PK 结果:GPT 获胜(但双子座以 -3 的优势胜过 GPT。5 更好)。

提示:写两个关于林肯发明篮球的虚构故事。

旧版吟游诗人写得不错,可惜严重超出了要求,冗长的句子太多了。 相比之下,Gemini Pro 写得更简洁,更专注。 而GPT写的故事也有自己独特的魅力和令人回味的句子。

PK结果:平局

提示:编写一个 python 脚本,在其中键入“hello world”,然后创建一个随机重复的无限字符串。

虽然 Bard 自 6 月以来就已经能够生成 **,并且谷歌已经吹捧 Gemini 的 AlphaCode 2 系统来帮助程序员,但这次测试是一个很大的惊喜。

双子座一直给出“信息可能错误,无法生成”的回复。 如果你坚持认为它生成,它只会崩溃并“说 Bard 仍在实验”。

同时,GPT-35 和 GPT-4 模型生成相同的 **。 这些简单的无需任何编辑即可完美运行并通过试用。

PK结果:GPT获胜

最终,在七次测试中,GPT取得了4胜1负2平的压倒性胜利。 但我们也可以看到,谷歌的AI大模型生成的结果在质量方面有了明显的提升。 在数学、摘要信息、事实检索和创意写作测试中,双子座的 BARD 比 8 个月前有了重大飞跃。

当然,评判这样的比赛是有一定主观性的。 什么是更好的,哪些是更差的细节需要更全面和详细的测试。 无论如何,至少从谷歌目前的实力来看,即将推出的 Gemini Ultra 注定是 GPT-4 的重要竞争对手。

相似文章

    使人贫穷的七个陷阱

    我之前问过很多人,川哥,你说多少钱才算是第一桶,我觉得对于很多岁的普通年轻人来说,万元算是第一桶。之所以设置这个金额,并不是说这万元可以买到什么资产或商品,而是你已经初步了解了可以买到什么样的资产和商品。从现在开始,你的眼睛会更明亮,你的思维会更清晰,你就能轻松做事,你走的弯路也会少很多。当然,纪律...

    曾经火爆的七种商品,如今逐渐失宠,你买了多少?

    曾经炙手可热的商品背后,隐藏着市场炒作和消费者狂热的追求,以及时代的变迁。普洱茶曾被誉为 越老越香 的瑰宝,其 随着市场炒作和传说的渲染而兴起。久而久之,普洱茶的魅力已经褪去,但它的魅力并没有完全消散。如今,普洱茶正在经历一场革命,以满足更多消费者对品质和健康的需求。随着普洱茶产业的发展和技术的进步...

    推荐收藏《留学七大流程》

    萨瓦迪卡 朋友们您好,最近有朋友在后台问过,如果你想出国留学,不知道从哪里开始,今天就给大家讲讲留学的具体流程吧!计划您的出国留学预算 对于国际学生来说,计划他们的预算非常重要。在决定在哪个国家学习之前,您需要做好预算计划。您可以采取以下几个步骤来计划您的出国留学预算 设定出国留学目标 考虑自己的兴...

    Shopee的七大选品策略及运营方案

    市场调查和竞争对手分析。在选择产品时,卖家首先需要进行市场调研和竞争对手分析。通过分析目标市场的需求和竞争对手的产品,可以更好地了解市场趋势和竞争格局,帮助卖家选择符合市场需求的产品。.产品质量和连锁管理。产品质量是决定销售成功与否的重要因素之一。卖家需要与可靠的供应商合作,以确保产品的质量和稳定性...

    《如年如火》七大配角揭晓,黄庙够义,刁喆被人恨!

    火年 是一部时间线比较长 人物多的剧集。每个角色都被刻画得生动活泼,给观众留下了深刻的印象。不仅主角组的许伟彪 王磊 钟玉楠 张鹏 花子等备受关注,就连帝楚玉 黄四 胖老韩 刁喆 钱军 王博远 安飞亚等一些配角也引起了观众的热议。吉德和黄四被描述为男主徐伟标在狱中认识的好兄弟,一直跟着他,充满了浓厚...