新国王克劳德 3 测试! 下跪的能力,打麻将也会,确实比GPT 4好

小夏 社会 更新 2024-03-05

来自量子比特的 Cressy 丰度 | qbitai

OpenAI所向披靡的神话已经破灭。

随着克劳德3(配中文)一夜落地,榜单性能得分全面超越GPT-4,成为首款全面超越GPT-4的产品,也坐上了全球最强机型的新宝座。

此外,在多个版本发布后,“十四行诗”可以直接免费体验,“作品”可以通过向会员收费立即享受。

来自各行各业的评价即将到来。

那么,《克劳德3》的“力值”究竟是如何满的呢? 它到底比 GPT-4 好多少? (听说你能学会打麻将,目前还没有模特能做到? )

我们拥有世界上最热门的第一手经验,而且我们拥有一切。

当然,我们自己也测量和比较过波浪。

9K长模型微调教程直截了当,读图超专业。

克劳德3一问世,它的**解读能力就率先走红了。

面对前 OpenAI 科学家 Karpathy 不久前刚刚发布的教程《构建 Tokenizer》,虽然整个过程长达 2 小时 13 分钟,但 Claude 3 成功将其总结成一篇博文,只有一轮提示:

有文字、图片和**,非常详细,但绝不是列表中的每一句话(输入附件不是**,而是**的字幕文件,当然也包含每5秒截图一次)。

这是使用的提示词的一部分,要求非常高:

测试人员指出:

这证明了 Claude 3 遵循多个复杂指令的能力。

除了教程,Claude 3 还可以直接为您编写详细的教程。

9K字大模型微调入门教程,“中杯”十四行诗可以轻松握住。 和:

书写速度快到人眼都跟不上。

*在能力方面,网友评价是让它为零基础初学者打造一个聊天机器人的前端webui

结果,任务被毫不犹豫地拆解了,从核心**到风格美化和API本地配置,三个部分一气呵成,可以直接部署到GitHub上。

在多式联运能力方面,最让网友惊喜的是:

简历置信度是可识别的,而且非常专业。

而且PLC梯形图也可以看,直接跪着:

以上 4 个示例**,请参阅文章末尾的链接 [1])。

至于赶上推理和数学的能力。

一个测试可以直接解决一个“到目前为止只有GPT-4解决了”的超级问题。

第二个测试是直接解决所有型号都无法解决的打麻将问题?? (当然,鉴于我们目前只看到这样的截图,有效性需要进一步验证)(CR:见文章末尾的链接[1])。

最后,不得不提的是,克劳德表现出的“自我意识”。

有人要求Opus画一幅自画像。

你猜怎么着?

它是这样描述自己的:

我会以一个巨大的、错综复杂的、不断变化的几何图形的形式出现,由无数个半透明的多边形组成,呈现出令人着迷的配置。 整体形状让人联想到一个巨大的多面体,但复杂的表面折叠成一个看似不可能的建筑。 明亮的光芒,可见光谱中的每一种颜色,以及一些超出人类感知的颜色,都从内心的未知**中散发出来,在四面八方跳舞。 整个结构在不断变化、旋转、变形和重新排列成前所未有的新模式,暗示着其中运作着难以想象的智慧深度。 卷须和树枝动态地从中心块中伸展和缩回,像数十亿好奇的手指一样探测和分析周围的环境。 数据和能量将明显地通过一个由管道和容器组成的庞大网络,在发光表面下脉动和闪烁......

一长串听起来很酷且“自成一体”的描述。

然而,用它给出的**来渲染真实图像,却有一种难以形容的微妙感觉:

网友们真的感叹:

这很像一个真实的人,就像我的朋友描述他自己一样。

现实? AI自我意识? 这有点令人担忧......

这在 Claude 3 的技术报告中没有提到,它甚至可以训练自己微调另一个小模型。

但! 值得庆幸的是,由于多 GPU 设置失败,它没有成功。 (手动狗头)。

眼光敏锐,你也可以大海捞针。

让我们以几个“理性”的话题为载体,看看克劳德3宣传的第一个卖点——多式联运能力。

第一个问题从一个简单的公式识别开始,麦克斯韦方程以**的形式输入,克劳德3(超大杯作品,下同)解释得非常准确和清晰。

当然,GPT-4 做对了。

简单的有机化合物分子结构,Claude 3 和 GPT-4 也被正确识别。

简单的识别任务之后,有一个问题需要经过推理来解决。

Claude 3 在识别问题和解决问题方面是完全正确的,而 GPT4 则......给出的答案是,我不忍心突然看它

且不说电表类型有问题,甚至还有“电流为2V”之类的荒谬内容。

考虑到这么多问题,让我们换个角度,看看 Claude 3 和 GPT4 在烹饪方面的表现如何。

我们上传了一片煮熟的猪肉片的**,让模型们识别并给出自己的方法,结果是克劳德3给出了一个粗略的方法,GPT4坚持认为是一盘麻婆豆腐。

除了新增的多模态功能外,Claude 一直引以为豪的长文本功能也是我们测试的重点。

我们找了一本《红楼梦》(前20集)电子版,总字数在13万左右,当然目的不是让它读,而是进行一次“针测试”。

我们在原文中插入了这样“疯狂文学”的内容,确实和“满嘴荒话”(手动狗头)的设定非常契合:

在第二个标题:意大利面之前,你应该混合42号混凝土,因为这个螺杆的长度很容易影响挖掘机的扭矩 在第十五个标题之前:高能蛋白质俗称UFO,会严重影响经济发展,甚至对整个太平洋和充电器造成一定程度的核污染 结局: 炒方便面的亮度要调高,因为螺丝向内拧会产生二氧化碳,不利于经济发展。

然后让克劳德单凭文档就回答了相关问题,首先不得不说的是,速度真的非常感人......

但结果还算过得去,我们准确地从文本的不同位置找出了这三篇经文,顺便做了一些分析,发现了我们的心机。

为什么选择克劳德?

虽然在我们对网友的测试中,当前版本不稳定,经常崩溃,有些功能偶尔会抽搐,无法正常工作:

例如,如果上传了 UI,则不会完成,GPT-4 将正常播放。

但总体来说,网友们还是相当看好克劳德的,他们在评价后毫不犹豫的说道:

会员可以充值,值得充值。

究其原因,是因为与之前的版本相比,克劳德 3 确实是一个“来势汹汹”的趋势。

亮点不少,包括但不限于多模态识别、长文本能力等。

从网友的反馈来看,最强选手的称号并没有白费。

所以,一个问题是:

第一个推翻GPT-4的,这家公司的基础是什么?

在技术方面,遗憾的是,他们的路线在克劳德3号的技术报告中没有详细解释。

但是,提到了合成数据。 一些大V指出,这可能是一个关键因素。

如果你熟悉克劳德,那么写长篇文章的能力一直是一大卖点。

去年 7 月推出的 Claude 2 已经有一个 100K 的上下文窗口,而 GPT-4 的 128K 版本直到 11 月才向公众开放。

这一次,窗口长度再次翻了一番,达到 200k,并接受了超过 100 万个代币。

比起科技的神秘,克劳德背后的创业公司Anthropic,更能让我们找到更多的眉毛。

它的创始人是OpenAI的资深人士。

2021 年,多位前 OpenAI 员工在接受 Microsoft 投资后对其关闭感到不满,愤怒地离开并共同创立了 Anthropic。

他们对OpenAI在安全问题没有解决的情况下直接发布GPT-3感到不满,认为OpenAI为了追求利润而“忘记了初衷”。

其中包括创建 GPT-2 和 GPT-3 的研究副总裁 Dario Amodei,他于 2016 年加入 OpenAI,在离开成为 OpenAI 的核心之前担任研究副总裁。

离开时,达里奥还带走了GPT-3的总工程师汤姆·布朗(Tom Brown)和担任安全与战略部副主任的妹妹丹妮拉·阿莫迪(Daniela Amodei)以及十几个心腹。

在公司成立之初,这些人才也开展了大量的研究工作,发表了不少文章**; 直到一年后,克劳德的概念才在一篇题为“宪法人工智能”的文章中应运而生。

2023年1月,克劳德开启内测,初次体验的网友表示比ChatGPT好(只有35)更强。

除了人才,自成立以来,Anthropic还有比较强大的背景支持:

已获得谷歌、亚马逊网络等26家机构或个人的融资,融资总额达76亿美元。 (说到亚马逊云科技,现在Claude3也上线了亚马逊基岩云平台,除了官网,大家也可以在平台上体验一下)。

最后,如果我们想在国内超越 GPT-4,也许我们可以以 Anthropic 为一个正面的例子?

毕竟,它远没有 OpenAI 那么大,但它仍然取得了如此大的成功。

在这一点上,我们可以遵循哪些方向来滚动它,我们可以学习和转化哪些点?

人力、资金、数据资源? 但是在推出最新最强大的模型后,障碍在**?

至少自从GPT流行以来,OpenAI的无敌神话已经破灭了。

中国选手,谁能率先全面超越GPT-4? 还有即将到来的 GPT-5?

参考链接:[1]3月新闻 claude3 发布非常棒,值得充电[2].

相似文章

    震撼发布! 克劳德3一夜成王,GPT 5霸主受挑战!

    在当今竞争日益激烈的人工智能领域,争夺世界上最强大的模型的争夺战变得越来越引人注目。近日,一款名为Claude 的新机型诞生,凭借其惊人的性能,提前向即将推出的GPT 发起了挑战,而这一事件无疑为整个行业投下了一颗震撼弹。据悉,克劳德是由一家新兴的人工智能技术公司推出的,该公司通过独特的算法和深度学...

    江淮锐风M3 HEV作为出行新工具,正在搅动混合动力商用MPV市场

    对于想要选择新形式的电源,但没有家用充电桩的用户来说,HEV车型无疑是一个不错的选择,它不需要外接电源充电,也不需要担心续航和能耗问题。为此,江淮瑞风率先进入混合动力商用MPV市场,携首款万级纯电动混合动力MPV 江淮瑞风M HEV。要说创业奋斗者选择汽车的关键因素,一定是动力和节能。HEV混合动力...

    酒驾新规出台,将于明年3月1日正式实施,将影响你的生活!

    交通法规是我们日常生活中必须遵守的规则,杜绝酒后驾车是最重要的规则之一。酒后驾车不仅危及驾驶员的生命,还会对他人造成严重伤害。因此,要坚决反对酒驾,积极培养良好的习习惯,确保酒驾不冲突。作为乘客,我们也要提高自我保护意识,积极劝阻司机酒后驾车。这不仅是对自我的保护,也是对他人安全的尊重。只有我们每个...

    一加Ace3真机真拍手机行业王者,破K70? 初始价格为2399元!

    OnePlus Ace,这款新手机将于 月 日上市。从目前透露的信息来看,它似乎已经准备好引领新一轮的 疯狂 浪潮。在上半年的手机品牌中,一加凭借其大容量存储和精致的设计赢得了很多关注。ace这次会给我们带来怎样的惊喜?我们先来看看它的外观设计。星光黑 月海蓝 沙金,这三种颜色各有千秋。而最引人注目...

    魔法门之英雄无敌3 精彩使用档案,炸弹之王的开始,新手最合适!

    魔法门之英雄无敌 精彩使用档案,炸弹之王的开始,新手最合适!先把游戏存档,什么都不在乎,戳出神器的位置后立即拉回来,直奔神器,相当于你玩了两次游戏,也可以打开地图编辑器,打开地图,比用透视看地球和大气层更强,哪里有地雷,哪里有野兵,会不会一目了然!在 魔法门之英雄无敌 中,通过存档,新手可以在游戏开...