"在浩瀚无垠的科技海洋中,每一次浪潮都可能预示着一个新庞然大物的觉醒。 今天,我们正在见证一个新的庞然大物——克劳德 3 的崛起。 "Anthropic 刚刚正式宣布:克劳德 3 来了! 作为OpenAI最强的竞争对手,它此次发布的新型号系列,以最强版Claude 3 OPUS为代表“已经实现了近乎人类的理解。”
在推理、数学、编码、多语言理解和视觉方面,全面超越包括GPT-4在内的所有大型模型,直接重新树立行业标杆的那种。
看一眼这份成就清单,就很抢眼
一些数学评估是用 0-shot 来衡量的,超过了 GPT-4 的 4-8 shot。
最重要的是,以长窗口而闻名的克劳德(Claude)为全系列大型模型提供了200k的上下文窗口,并接受了它超过 1,000,000 个代币进入
gemini 1.5 Pro:嗯?
目前,您可以免费体验第二强的十四行诗,最强版本的Opus可供Claude Pro付费用户使用,但大型模型竞技场也可以免费使用。 于是,网友们开始疯狂玩了。 _(doge)_
此外,OPUS 和 SONNET 也是开放的 API 访问,因此开发人员可以立即使用它们。
有人直接 艾特奥特曼:好的,你现在可以发布GPT-5了。
不过,奥特曼可能还是被马斯克的诉讼......所困扰
克劳德 3 系列由三种型号组成:小型俳句、中型十四行诗和大型 Opus,成本和性能不断提高。
首先,在性能参数Claude 3 在许多方面都得到了全面改进。 其中,OPUS在MMLU、GPQA、GSM8K等评估基准中领先于所有其他型号
在视觉能力方面,它可以处理多种视觉格式,包括**、图表、图形和技术图表。
对于这样的性能结果,一些专业人士发表了自己的意见。
例如,爱丁堡大学的一名博士生,也是中国大型模型知识评估基准C-eval的提出者之一傅瑶换句话说,像MMLU GSM8K Humaneval这样的基准测试已经严重饱和:所有模型的性能都相同。
他认为,模型性能基准的真正区别在于:math and gpqa
此外,克劳德3在拒绝回答人类问题方面向前迈出了一大步,拒绝回答的可能性大大降低。
在上下文和记忆方面,他们使用大海捞针(NIAH)来评估大型模型从大量数据中准确调用信息的能力。
结果不仅实现了近乎完美的召回率,准确率超过99%。 在某些情况下,它甚至可以识别出“针”句似乎是人为地插入到原文中,从而确定了评估本身的局限性。
在生物知识、网络相关知识等方面也取得了进步,但出于负责任的原因,它们仍处于人工智能安全级别 2 (ASL-2)。
其次,在响应时间,Claude 3 被大幅缩短到近乎实时。
据官方统计,即将发布的一小杯俳句可在三秒内阅读并理解 ARXIV** 带有长度约为 10k 个代币的图表。
而中杯十四行诗能够建立更高水平的智力,比克劳德 2 和克劳德 2 更快1 是 2 倍的速度,尤其擅长需要快速响应的任务,例如知识检索或自动销售。
Big Cup Opus 具有最高级别的智能,但速度丝毫没有减弱,Claude 2 和 Claude 2大约1个。
三款车型的官方车型也有明确的定位。
Big Opus:比其他型号更智能。 适用于复杂任务自动化、研发和战略制定; 中杯十四行诗:比其他类似型号更实惠。 更适合规模化。 非常适合数据处理,RAG,在中等复杂度的工作流程中节省时间; 小杯俳句:比同类型号更快、更实惠。 非常适合与用户进行实时交互,并在简单的工作流程中节省成本; 在方面,最便宜的小杯子价格为01M 代币输入为 25 美元,最昂贵的大杯子为 75 美元,用于 1M 代币输入。
与GPT-4 Turbo相比,大杯**确实高了很多,这也说明Anthropicai对这个模型非常有信心。
在这种情况下,让我们免费试用吧
现在官方页面已经更新,Claude 展示了理解和处理图像的能力,包括建议样式改进、从图像中提取文本、将 UI 转换为前端**、理解复杂的方程式、转录手写笔记等等。
《克劳德3》发布后,网友@op7418第一次尝试了《克劳德3》作品,并做了三次测试。
网友首先测试了Claude 3 Opus的翻译能力,挑战了复杂的英文文本。 结果表明,Opus 的翻译不仅组织良好,而且分段和格式也很好,从而大大改善了阅读体验。 不过,在翻译的流畅性和准确性方面,GPT-4还是略有优势的。
此外,网友们还用一张复杂设计稿的截图来测试Opus还原细节的能力。 在网友明确指出需要还原风格后,Opus准确把握了设计元素,整体表现优于GPT-4。
图像多模态能力也是opus值得关注的关键点。 它不仅能读懂学术**的精髓,又能清晰地呈现分析结果。 然而,与 GPT-4 相比,OPUS 在信息丰富度方面似乎有一定的增长空间。
网友@mlpowered向 API 提供了两个小时的文字记录和关键屏幕的精选截图,并成功制作了一篇内容丰富的 HTML 格式的博文。
网友@7oponaut用 Opus 和 GPT-4 玩井字游戏,可惜 Opus 无法流畅地绘制网格。 ,GPT-4 宣布成功。
我们还测试了 Claude 3 的一些效果,例如查看图片以识别配方。
图像来解释方程式。
image 来提取 JSON 文件。
即使是模糊的时间顺序文档也可以准确地进行OCR识别:
上面写着:你正在使用他们第二智能的模型,克劳德 3 十四行诗。
然而,鹅,可能是人太多的原因,尝试了几次,都表现出来了“failed”
不过,网友们也蹦出了一些测试效果,比如让十四行诗解谜。
给它一些例子,让它找到数字之间的关系,比如“1 dimitris 2 q 3”,意思是 3 是 1 和 2 相加的结果。
结果,十四行诗成功求解了-11 加 8 等于 69,所以“x”的值应该是69:
有网友发现十四行诗现在也能读ASCII码了,并大喊:这是 GPT-4++ 级别
在编程任务方面,先不说谁先写了**,Claude 3 至少不会像 GPT-4 那样懒惰。
也有体验过opus的玩家,**为模型挖坑,但opus非常适合躲避,不上当:
乍一看,感觉还行。 这个时候,应该是 Aite OpenAI: GPT-5 在**?
英伟达资深科学家 Jim Fan 已经对 GPT-5 的出现充满期待。
好,有兴趣的可以点击下面的链接体验一下
参考链接:1]。