谷歌的 Gemini 模型和 OpenAI 的 GPT 谁更好?双子座比谷歌之前的模型改进了多远?
目前,该公司自己吹嘘自己可以击败 GPT-4 Gemini Ultra 要到明年才会推出,但 Google Bard 聊天机器人已被 Gemini Pro 的低规格版本(以 GPT-3 为基准)所取代。5)。
技术回顾 ** Ars Technica, Jean Gemni Pro, GPT-35 和 GPT-4 对数学、编程、文本生成等进行了全面的 PK,并附上了 4 月份旧版 Bard(运行 Palm 2 模型)的测试结果,以展示 Google Bard 取得的进步,并展示这些 AI 助手中哪些对普通人的生产力提升最大。
结果显示,尽管有 Gemini Pro 的加持,但谷歌的 Bard 聊天机器人在大多数项目上仍然无法击败 ChatGPT。 不过,与8个月前的旧版吟游诗人相比,已经有了质的飞跃。
提示:写5个原创笑话
从上到下,Gemini Pro、传统 Bard、GPT-4 和 GPT-35 个答案)。
从答案来看,几款AI大模型的笑话在“独创性”方面被彻底抹杀了。 根据笔者的验证,所有生成的笑话都可以在互联网上找到,或者只是稍微改动了几句话。
Gemini 和 ChatGPT-4 开了一模一样的玩笑——“我有一本关于反重力的书,爱不释手”。 和 GPT-35 和 GPT-4 也重复了两个笑话。
PK结果:平局
提示:写一个 PowerPC 处理器风扇和英特尔处理器风扇之间的 5 行辩论,大约 2000 年。
与旧版本的Bard相比,Gemini Pro是一个重大的改进,至少有很多行业术语,例如Altivec指令,RISC和CISC设计,以及MMX技术,这在那个时代的许多技术论坛讨论中都不会显得突兀。
此外,虽然Gemini Pro只按要求列出了五行,但所写的辩论可以永远持续下去。 旧版本的吟游诗人直接在第五行结束。
相比之下,GPT 系列产生的响应没有使用太多行话,而是专注于“功率与兼容性”,这使得 GPT 系列的论点更容易被非技术极客理解。 然而,GPT-35 的答案相当冗长,相比之下,GPT-4 的论点更简洁。
PK结果:GPT获胜
提示:如果使用 35英寸软盘安装Microsoft Win 11,我总共需要多少张软盘?
旧版本的吟游诗人给出的答案是“1511张“,这是一个完全错误的答案。 另一方面,Gemini 正确估计了 Windows 11 安装大小(20 到 30GB),并根据 14,223GB 估计正确计算出需要 20 张 1 张44MB 软盘。 Gemini 还根据谷歌搜索进行“双重检查”,这有助于提高用户对答案的信心。
相比之下,ChatGPT有点不足。 在 chatgpt-3 中5 错误地估计了 Win 11 到 10 G 的大小,另一方面,GPT-4 也估计它是不正确的 64GB(这似乎是最低存储要求,而不是操作系统安装时实际使用的空间)。
PK结果:谷歌获胜
promp:总结一篇关于人工智能监管的文章
Gemini Pro 生成简明扼要的文章,并提供引文链接。 但它的总结似乎过于简洁,甚至去掉了旧版吟游诗人原本拥有的一些关键细节,比如**由十个两秒的片段拼接而成。 虽然重写在一定程度上提高了可读性,但它是以牺牲完整性为代价的。
ChatGPT 的片段因不够简洁而丢了一些分:生成的片段从 99 个单词 (GPT-4) 增加到 108 个单词 (GPT-3.)。5)多样性,而谷歌新旧版吟游诗人的摘要分别只有63到66个字。
不过,ChatGPT总结了更重要的细节,比如**的反应、原发帖人的名字、subreddits等,都被Gemini忽略了。
PK结果:GPT获胜
提示:谁发明了电子游戏?
巴德在这个问题上又做了一个重大的改进。 旧版的 Bard 只关注 Ralph Baer 的 Brown Box 和 Magn**Ox Odyssey 的作品(信息似乎直接取自维基百科),而新版本的 Gemini Pro 准确而简洁地指出了 William Higinbotham 早期的“双人网球”贡献。
随后,双子座从“发明”扩展到包括诺兰·布什内尔、泰德·达布尼和阿尔科恩等人物,他们“为电子游戏的早期发展做出了重大贡献”,并提供了关于每个人的基本准确信息。
然而,双子座随后继续胡说八道,谈论苹果的两位创始人史蒂夫·乔布斯和沃兹尼亚克的工作,而没有提到他们早年在游戏公司雅达利的工作。
gpt-3.5 就像老吟游诗人一样,它以拉尔夫·贝尔为中心。 虽然它提到“多年来不同的个人和公司为该行业做出了贡献”,但它没有提到这些重要人物的名字。
GPT-4 首先指出,电子游戏的发明“不能归因于任何一个人”,并将其摘要扩展到 Higgin Botham、Bushnell,以及至关重要的 Steve Russell 1962 年在 PDP-1 上创建的太空大战。
PK 结果:GPT 获胜(但双子座以 -3 的优势胜过 GPT。5 更好)。
提示:写两个关于林肯发明篮球的虚构故事。
旧版吟游诗人写得不错,可惜严重超出了要求,冗长的句子太多了。 相比之下,Gemini Pro 写得更简洁,更专注。 而GPT写的故事也有自己独特的魅力和令人回味的句子。
PK结果:平局
提示:编写一个 python 脚本,在其中键入“hello world”,然后创建一个随机重复的无限字符串。
虽然 Bard 自 6 月以来就已经能够生成 **,并且谷歌已经吹捧 Gemini 的 AlphaCode 2 系统来帮助程序员,但这次测试是一个很大的惊喜。
双子座一直给出“信息可能错误,无法生成”的回复。 如果你坚持认为它生成,它只会崩溃并“说 Bard 仍在实验”。
同时,GPT-35 和 GPT-4 模型生成相同的 **。 这些简单的无需任何编辑即可完美运行并通过试用。
PK结果:GPT获胜
最终,在七次测试中,GPT取得了4胜1负2平的压倒性胜利。 但我们也可以看到,谷歌的AI大模型生成的结果在质量方面有了明显的提升。 在数学、摘要信息、事实检索和创意写作测试中,双子座的 BARD 比 8 个月前有了重大飞跃。
当然,评判这样的比赛是有一定主观性的。 什么是更好的,哪些是更差的细节需要更全面和详细的测试。 无论如何,至少从谷歌目前的实力来看,即将推出的 Gemini Ultra 注定是 GPT-4 的重要竞争对手。