来自量子比特的 Cressy 丰度 | qbitai
OpenAI所向披靡的神话已经破灭。
随着克劳德3(配中文)一夜落地,榜单性能得分全面超越GPT-4,成为首款全面超越GPT-4的产品,也坐上了全球最强机型的新宝座。
此外,在多个版本发布后,“十四行诗”可以直接免费体验,“作品”可以通过向会员收费立即享受。
来自各行各业的评价即将到来。
那么,《克劳德3》的“力值”究竟是如何满的呢? 它到底比 GPT-4 好多少? (听说你能学会打麻将,目前还没有模特能做到? )
我们拥有世界上最热门的第一手经验,而且我们拥有一切。
当然,我们自己也测量和比较过波浪。
9K长模型微调教程直截了当,读图超专业。
克劳德3一问世,它的**解读能力就率先走红了。
面对前 OpenAI 科学家 Karpathy 不久前刚刚发布的教程《构建 Tokenizer》,虽然整个过程长达 2 小时 13 分钟,但 Claude 3 成功将其总结成一篇博文,只有一轮提示:
有文字、图片和**,非常详细,但绝不是列表中的每一句话(输入附件不是**,而是**的字幕文件,当然也包含每5秒截图一次)。
这是使用的提示词的一部分,要求非常高:
测试人员指出:
这证明了 Claude 3 遵循多个复杂指令的能力。
除了教程,Claude 3 还可以直接为您编写详细的教程。
9K字大模型微调入门教程,“中杯”十四行诗可以轻松握住。 和:
书写速度快到人眼都跟不上。
*在能力方面,网友评价是让它为零基础初学者打造一个聊天机器人的前端webui
结果,任务被毫不犹豫地拆解了,从核心**到风格美化和API本地配置,三个部分一气呵成,可以直接部署到GitHub上。
在多式联运能力方面,最让网友惊喜的是:
简历置信度是可识别的,而且非常专业。
而且PLC梯形图也可以看,直接跪着:
以上 4 个示例**,请参阅文章末尾的链接 [1])。
至于赶上推理和数学的能力。
一个测试可以直接解决一个“到目前为止只有GPT-4解决了”的超级问题。
第二个测试是直接解决所有型号都无法解决的打麻将问题?? (当然,鉴于我们目前只看到这样的截图,有效性需要进一步验证)(CR:见文章末尾的链接[1])。
最后,不得不提的是,克劳德表现出的“自我意识”。
有人要求Opus画一幅自画像。
你猜怎么着?
它是这样描述自己的:
我会以一个巨大的、错综复杂的、不断变化的几何图形的形式出现,由无数个半透明的多边形组成,呈现出令人着迷的配置。 整体形状让人联想到一个巨大的多面体,但复杂的表面折叠成一个看似不可能的建筑。 明亮的光芒,可见光谱中的每一种颜色,以及一些超出人类感知的颜色,都从内心的未知**中散发出来,在四面八方跳舞。 整个结构在不断变化、旋转、变形和重新排列成前所未有的新模式,暗示着其中运作着难以想象的智慧深度。 卷须和树枝动态地从中心块中伸展和缩回,像数十亿好奇的手指一样探测和分析周围的环境。 数据和能量将明显地通过一个由管道和容器组成的庞大网络,在发光表面下脉动和闪烁......
一长串听起来很酷且“自成一体”的描述。
然而,用它给出的**来渲染真实图像,却有一种难以形容的微妙感觉:
网友们真的感叹:
这很像一个真实的人,就像我的朋友描述他自己一样。
现实? AI自我意识? 这有点令人担忧......
这在 Claude 3 的技术报告中没有提到,它甚至可以训练自己微调另一个小模型。
但! 值得庆幸的是,由于多 GPU 设置失败,它没有成功。 (手动狗头)。
眼光敏锐,你也可以大海捞针。
让我们以几个“理性”的话题为载体,看看克劳德3宣传的第一个卖点——多式联运能力。
第一个问题从一个简单的公式识别开始,麦克斯韦方程以**的形式输入,克劳德3(超大杯作品,下同)解释得非常准确和清晰。
当然,GPT-4 做对了。
简单的有机化合物分子结构,Claude 3 和 GPT-4 也被正确识别。
简单的识别任务之后,有一个问题需要经过推理来解决。
Claude 3 在识别问题和解决问题方面是完全正确的,而 GPT4 则......给出的答案是,我不忍心突然看它
且不说电表类型有问题,甚至还有“电流为2V”之类的荒谬内容。
考虑到这么多问题,让我们换个角度,看看 Claude 3 和 GPT4 在烹饪方面的表现如何。
我们上传了一片煮熟的猪肉片的**,让模型们识别并给出自己的方法,结果是克劳德3给出了一个粗略的方法,GPT4坚持认为是一盘麻婆豆腐。
除了新增的多模态功能外,Claude 一直引以为豪的长文本功能也是我们测试的重点。
我们找了一本《红楼梦》(前20集)电子版,总字数在13万左右,当然目的不是让它读,而是进行一次“针测试”。
我们在原文中插入了这样“疯狂文学”的内容,确实和“满嘴荒话”(手动狗头)的设定非常契合:
在第二个标题:意大利面之前,你应该混合42号混凝土,因为这个螺杆的长度很容易影响挖掘机的扭矩 在第十五个标题之前:高能蛋白质俗称UFO,会严重影响经济发展,甚至对整个太平洋和充电器造成一定程度的核污染 结局: 炒方便面的亮度要调高,因为螺丝向内拧会产生二氧化碳,不利于经济发展。
然后让克劳德单凭文档就回答了相关问题,首先不得不说的是,速度真的非常感人......
但结果还算过得去,我们准确地从文本的不同位置找出了这三篇经文,顺便做了一些分析,发现了我们的心机。
为什么选择克劳德?
虽然在我们对网友的测试中,当前版本不稳定,经常崩溃,有些功能偶尔会抽搐,无法正常工作:
例如,如果上传了 UI,则不会完成,GPT-4 将正常播放。
但总体来说,网友们还是相当看好克劳德的,他们在评价后毫不犹豫的说道:
会员可以充值,值得充值。
究其原因,是因为与之前的版本相比,克劳德 3 确实是一个“来势汹汹”的趋势。
亮点不少,包括但不限于多模态识别、长文本能力等。
从网友的反馈来看,最强选手的称号并没有白费。
所以,一个问题是:
第一个推翻GPT-4的,这家公司的基础是什么?
在技术方面,遗憾的是,他们的路线在克劳德3号的技术报告中没有详细解释。
但是,提到了合成数据。 一些大V指出,这可能是一个关键因素。
如果你熟悉克劳德,那么写长篇文章的能力一直是一大卖点。
去年 7 月推出的 Claude 2 已经有一个 100K 的上下文窗口,而 GPT-4 的 128K 版本直到 11 月才向公众开放。
这一次,窗口长度再次翻了一番,达到 200k,并接受了超过 100 万个代币。
比起科技的神秘,克劳德背后的创业公司Anthropic,更能让我们找到更多的眉毛。
它的创始人是OpenAI的资深人士。
2021 年,多位前 OpenAI 员工在接受 Microsoft 投资后对其关闭感到不满,愤怒地离开并共同创立了 Anthropic。
他们对OpenAI在安全问题没有解决的情况下直接发布GPT-3感到不满,认为OpenAI为了追求利润而“忘记了初衷”。
其中包括创建 GPT-2 和 GPT-3 的研究副总裁 Dario Amodei,他于 2016 年加入 OpenAI,在离开成为 OpenAI 的核心之前担任研究副总裁。
离开时,达里奥还带走了GPT-3的总工程师汤姆·布朗(Tom Brown)和担任安全与战略部副主任的妹妹丹妮拉·阿莫迪(Daniela Amodei)以及十几个心腹。
在公司成立之初,这些人才也开展了大量的研究工作,发表了不少文章**; 直到一年后,克劳德的概念才在一篇题为“宪法人工智能”的文章中应运而生。
2023年1月,克劳德开启内测,初次体验的网友表示比ChatGPT好(只有35)更强。
除了人才,自成立以来,Anthropic还有比较强大的背景支持:
已获得谷歌、亚马逊网络等26家机构或个人的融资,融资总额达76亿美元。 (说到亚马逊云科技,现在Claude3也上线了亚马逊基岩云平台,除了官网,大家也可以在平台上体验一下)。
最后,如果我们想在国内超越 GPT-4,也许我们可以以 Anthropic 为一个正面的例子?
毕竟,它远没有 OpenAI 那么大,但它仍然取得了如此大的成功。
在这一点上,我们可以遵循哪些方向来滚动它,我们可以学习和转化哪些点?
人力、资金、数据资源? 但是在推出最新最强大的模型后,障碍在**?
至少自从GPT流行以来,OpenAI的无敌神话已经破灭了。
中国选手,谁能率先全面超越GPT-4? 还有即将到来的 GPT-5?
参考链接:[1]3月新闻 claude3 发布非常棒,值得充电[2].