七大标准对比双子座和ChatGPT，谁是AI第一？

谷歌的 Gemini 模型和 OpenAI 的 GPT 谁更好？双子座比谷歌之前的模型改进了多远？

目前，该公司自己吹嘘自己可以击败 GPT-4 Gemini Ultra 要到明年才会推出，但 Google Bard 聊天机器人已被 Gemini Pro 的低规格版本（以 GPT-3 为基准）所取代。5）。

技术回顾 ** Ars Technica， Jean Gemni Pro， GPT-35 和 GPT-4 对数学、编程、文本生成等进行了全面的 PK，并附上了 4 月份旧版 Bard（运行 Palm 2 模型）的测试结果，以展示 Google Bard 取得的进步，并展示这些 AI 助手中哪些对普通人的生产力提升最大。

结果显示，尽管有 Gemini Pro 的加持，但谷歌的 Bard 聊天机器人在大多数项目上仍然无法击败 ChatGPT。不过，与8个月前的旧版吟游诗人相比，已经有了质的飞跃。

提示：写5个原创笑话

从上到下，Gemini Pro、传统 Bard、GPT-4 和 GPT-35 个答案）。

从答案来看，几款AI大模型的笑话在“独创性”方面被彻底抹杀了。根据笔者的验证，所有生成的笑话都可以在互联网上找到，或者只是稍微改动了几句话。

Gemini 和 ChatGPT-4 开了一模一样的玩笑——“我有一本关于反重力的书，爱不释手”。和 GPT-35 和 GPT-4 也重复了两个笑话。

PK结果：平局

提示：写一个 PowerPC 处理器风扇和英特尔处理器风扇之间的 5 行辩论，大约 2000 年。

与旧版本的Bard相比，Gemini Pro是一个重大的改进，至少有很多行业术语，例如Altivec指令，RISC和CISC设计，以及MMX技术，这在那个时代的许多技术论坛讨论中都不会显得突兀。

此外，虽然Gemini Pro只按要求列出了五行，但所写的辩论可以永远持续下去。旧版本的吟游诗人直接在第五行结束。

相比之下，GPT 系列产生的响应没有使用太多行话，而是专注于“功率与兼容性”，这使得 GPT 系列的论点更容易被非技术极客理解。然而，GPT-35 的答案相当冗长，相比之下，GPT-4 的论点更简洁。

PK结果：GPT获胜

提示：如果使用 35英寸软盘安装Microsoft Win 11，我总共需要多少张软盘？

旧版本的吟游诗人给出的答案是“1511张“，这是一个完全错误的答案。另一方面，Gemini 正确估计了 Windows 11 安装大小（20 到 30GB），并根据 14,223GB 估计正确计算出需要 20 张 1 张44MB 软盘。 Gemini 还根据谷歌搜索进行“双重检查”，这有助于提高用户对答案的信心。

相比之下，ChatGPT有点不足。在 chatgpt-3 中5 错误地估计了 Win 11 到 10 G 的大小，另一方面，GPT-4 也估计它是不正确的 64GB（这似乎是最低存储要求，而不是操作系统安装时实际使用的空间）。

PK结果：谷歌获胜

promp：总结一篇关于人工智能监管的文章

Gemini Pro 生成简明扼要的文章，并提供引文链接。但它的总结似乎过于简洁，甚至去掉了旧版吟游诗人原本拥有的一些关键细节，比如**由十个两秒的片段拼接而成。虽然重写在一定程度上提高了可读性，但它是以牺牲完整性为代价的。

ChatGPT 的片段因不够简洁而丢了一些分：生成的片段从 99 个单词（GPT-4）增加到 108 个单词（GPT-3.）。5）多样性，而谷歌新旧版吟游诗人的摘要分别只有63到66个字。

不过，ChatGPT总结了更重要的细节，比如**的反应、原发帖人的名字、subreddits等，都被Gemini忽略了。

PK结果：GPT获胜

提示：谁发明了电子游戏？

巴德在这个问题上又做了一个重大的改进。旧版的 Bard 只关注 Ralph Baer 的 Brown Box 和 Magn**Ox Odyssey 的作品（信息似乎直接取自维基百科），而新版本的 Gemini Pro 准确而简洁地指出了 William Higinbotham 早期的“双人网球”贡献。

随后，双子座从“发明”扩展到包括诺兰·布什内尔、泰德·达布尼和阿尔科恩等人物，他们“为电子游戏的早期发展做出了重大贡献”，并提供了关于每个人的基本准确信息。

然而，双子座随后继续胡说八道，谈论苹果的两位创始人史蒂夫·乔布斯和沃兹尼亚克的工作，而没有提到他们早年在游戏公司雅达利的工作。

gpt-3.5 就像老吟游诗人一样，它以拉尔夫·贝尔为中心。虽然它提到“多年来不同的个人和公司为该行业做出了贡献”，但它没有提到这些重要人物的名字。

GPT-4 首先指出，电子游戏的发明“不能归因于任何一个人”，并将其摘要扩展到 Higgin Botham、Bushnell，以及至关重要的 Steve Russell 1962 年在 PDP-1 上创建的太空大战。

PK 结果：GPT 获胜（但双子座以 -3 的优势胜过 GPT。5 更好）。

提示：写两个关于林肯发明篮球的虚构故事。

旧版吟游诗人写得不错，可惜严重超出了要求，冗长的句子太多了。相比之下，Gemini Pro 写得更简洁，更专注。而GPT写的故事也有自己独特的魅力和令人回味的句子。

PK结果：平局

提示：编写一个 python 脚本，在其中键入“hello world”，然后创建一个随机重复的无限字符串。

虽然 Bard 自 6 月以来就已经能够生成 **，并且谷歌已经吹捧 Gemini 的 AlphaCode 2 系统来帮助程序员，但这次测试是一个很大的惊喜。

双子座一直给出“信息可能错误，无法生成”的回复。如果你坚持认为它生成，它只会崩溃并“说 Bard 仍在实验”。

同时，GPT-35 和 GPT-4 模型生成相同的 **。这些简单的无需任何编辑即可完美运行并通过试用。

PK结果：GPT获胜

最终，在七次测试中，GPT取得了4胜1负2平的压倒性胜利。但我们也可以看到，谷歌的AI大模型生成的结果在质量方面有了明显的提升。在数学、摘要信息、事实检索和创意写作测试中，双子座的 BARD 比 8 个月前有了重大飞跃。

当然，评判这样的比赛是有一定主观性的。什么是更好的，哪些是更差的细节需要更全面和详细的测试。 无论如何，至少从谷歌目前的实力来看，即将推出的 Gemini Ultra 注定是 GPT-4 的重要竞争对手。

七大标准对比双子座和ChatGPT，谁是AI第一？

相似文章

使人贫穷的七个陷阱

曾经火爆的七种商品，如今逐渐失宠，你买了多少？

推荐收藏《留学七大流程》

Shopee的七大选品策略及运营方案

《如年如火》七大配角揭晓，黄庙够义，刁喆被人恨！