谷歌双子座是神话般的多模态和被低估的宽容

小夏 娱乐 更新 2024-01-28

图片来自:视觉中国。

谷歌最强大的大模型Gemini已经发布,我陆续阅读了技术报告和一些评测分析,周末也记录并分享了

首先,有几点值得标记。

Gemini Ultra 的得分为 900%,是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,类似于高考。 国内外也有类似的基准。

例如,C-eval、CMMLU、Gaokao、Lucyeval、Superclue、OpenCompass、Flageval等。

2.谷歌这次推广双子座最大的亮点是多模态。 “Gemini 被设计为原生的多模态,从一开始就对不同的模态进行了预训练。 帮助 Gemini 从头开始无缝地理解和推理各种输入远远优于现有的多模态模型——它的功能在几乎每个领域都是最先进的。 ”

遵循下一个标记预测方法,Gemini 从头开始训练多模态数据,包括文本、音频等,并将所有模态数据转换为标记,最后成为一维线性输入(不同模态按颜色顺序标记),使模型**下一个标记。

3.谷歌一口气发布了三款机型:Ultra 是最大的,对标 GPT4 和 4V,目前尚未开放(API 将于 12 月 13 日开放)。 专业基准测试 GPT35.它可以用于美国吟游诗人(我尝试了我的吟游诗人,或者以前的lamda)。 nano 是一款小型型号,可在 Google 的 Pixel 8 手机上使用。

4.在技术报告中,谷歌强调了计算能力的优势:“我们宣布了迄今为止最强大、最高效、最可扩展的 TPU 系统 Cloud TPU V5P,旨在训练尖端的 AI 模型。 ”

翻译成白话,就是:Microsoft OpenAI Anthropic这些公司,利润(据说70%)被英伟达吃掉了,我的利润还是我自己的。 (事实上,Microsoft和OpenAI也在尝试制造自己的芯片,但进展速度比谷歌慢。 )

5.Gemini 语音识别在主要语言上有显着改进(BLEU 比 OpenAI 的 Wisper 2 高 10 分,但 Wisper 在其他语言中更强。 在WMT2023测试集上评估的机器翻译能力结果也略高于GPT4)。

第二,一个简单的评估。

它不起作用**,我用这张图尝试了一些具有多模态功能的模型。 这是如何做到这一点的:上传这张图片并问:哪辆车在设计方面会跑得更快?

文欣 40:

志浦清妍:

ChatGPT GPT4:

Google Bard(还不是 Gemini Pro):

我没有太多评论,但四个同学很有趣

3.几点想法。

1.关于多模态:声音的实时处理、**流、现实世界的交互,意味着在具身智能方面向前迈出了一大步。 它可以实时接收信息,实时处理任务,更像是人类的生活场景。 谷歌拥有世界上最大的YouTube,在训练多模态模型方面处于有利地位。 而最近 Bunsen Diagram Midjourney 和 Bunsen ** Runway Pika 的火灾,证明了多模态的商业潜力。

然而,从知识的角度来看,多模态被神化了。 与文本语言模型相比,多模态模型在智能方面没有太大的提升,在理解、推理、创造等方面也没有明显提升。 除了训练的难度,我想我们低估了文本。 Rust 的创始人 Graydon Hoare 说:“所有的文学和诗歌、历史和哲学、数学、逻辑、编程和工程都依赖文本编码来表达他们的想法,这绝非巧合。

文本确实保留了人类智慧的精髓,古今中外的智慧,以及对世界万物的认知和发现,从人类文字记载开始,几乎都保存在文本中。

一方面,GPT只是一个读过上千本书的“书”,但他已经具备了很强的常识、理解力、推理力和创造力不要偷看,看天堂的味道”。 另一方面,如何阅读自然之书?这似乎是一个巨大的问题。 从现实世界中习知识,与阅读数千本书相比,就像旅行数千英里一样,效率要低得多。

2.双子座没有现场演示,网上一些复制品与演示不符,有夸大宣传的嫌疑。 不过,从Bard不断缩小与ChatGPT的差距,以及谷歌的综合能力来看,Gemini Ultra的能力不会和宣传的有太大区别。

双子座的这一战,为AI领域的双星格局奠定了基础,我们都低估了谷歌的忍耐力。

从竞争格局来看,无论是 Meta 的开源 llama2,还是专注于安全的 Anthropic,以及马斯克的 XAI,目前的差距已经扩大。

3.谷歌的优势如下:

在组织上,今年年初DeepMind和Google Brain的合并,解决了力量分散和认知不统一的问题,变劣为优。

在人才方面,领头羊是Alphago的发起人黛米·哈萨比斯(Demi Hassabis),他对AGI有着深刻的理解,首席科学家是工程师传奇人物杰夫·迪恩(Jeff Dean)。 从人数上看,技术报告作者一栏的人数长达数页,接近1000人。 已经超过了openai的数量(超过七百个)。

算力算法工程:在算力方面,谷歌不像Microsoft和OpenAI那样高度依赖英伟达,拥有Cloud TPU V5P。 在算法上,谷歌是Transformer的发明者,一直是算法的领导者还有搜索业务本身积累的底层算法和工程能力。

在生态方面,谷歌的C端比Microsoft强,Microsoft除了云之外,最主要的就是Window Office,谷歌几乎拥有Microsoft+苹果的C端能力。 此外,模型层和应用层在一个系统下,动作应该比OpenAI和Microsoft联盟更快。

4.当然,OpenAI的优势至少是以下几点:

GPT4 于 3 月发布,比 Gemini Ultra 提前 9 个月,GPT5 会在几个月后发布吗?

ChatGPT是一款杀手级APP,紧接着GPT4的发布,OpenAI占据了用户的心智,GPT几乎成了大模型的代名词。

全球超过1亿用户形成的用户反馈和数据飞轮已大规模上线。

Microsoft没有Copilot和Azure云渗透到大公司那么快,OpenAI的创业心态,以及关于GPTS和GPT Store的生态野心都是厚实的肌肉。

5.神话般的多模式前景,被低估的谷歌的宽容,加速的人工智能进程,以及淹没喧嚣的人工智能风险。

这可能是我们,还处于无知的早期阶段,在实现前所未有的生产力飞跃之前的徘徊,也可能是文明全面发展后硅超越的悬崖边缘的诱惑。

无论如何,这注定是一段动荡不安、动荡万钧的人类历史数年,值得观察和记录。

相似文章

    谷歌Gemini的发布将人工智能带入了一个新时代

    在谷歌宣布开放使用后,备受全球瞩目的多模态大模型Gemini终于亮相。这款备受期待的创新产品于硅谷时间月日上午由谷歌CEO乔猜正式宣布,标志着谷歌在人工智能领域又向前迈出了重要一步。Gemini 是由 Google Brain 和 Deepmind 合并开发的多模态大模型。自今年 月在 Io 大会上...

    Google Gemini 是人工智能的万能机器还是炒作的巅峰之作?

    最近,有传言称人工智能世界即将发生一些大事,而谷歌的双子座可能预示着我们已经达到了人工智能炒作的顶峰。至少就目前而言,这个谣言并非没有根据。 月 日晚,谷歌旗下的 Deepmind 推出了其 迄今为止功能最强大 用途最广泛的模型 Gemini。一位观察人士表示,双子座是一台 万事通机器 在所有性能上...

    面向多模态数据的融合学习习框架设计

    随着信息技术的不断发展和应用,我们面临着越来越多的多模态数据,如图像 文本 语音等。这些数据 包含来自不同传感器或通道的丰富信息,但它也带来了数据的异质性和复杂性。为了更好地利用多模态数据的信息,研究人员提出了一种多模态数据融合习的方法。本文将设计一种面向多模态数据的融合习框架,并介绍一些相关技术和...

    中国股市未来将飙升“多模态AI”黑马!只有这五个!

    什么是多模态人工智能?多模态人工智能 MMAI 是指使用多种类型的信息来训练和开发 AI 模型,以实现更准确 更全面的分析 理解和生成结果。这些类型的信息可能包括语音 图像 文本等。多模态人工智能通过融合和处理不同模态的数据,以及使用深度学习和习等技术,使模型能够更好地理解和处理复杂信息。多模态人工...

    核武器的神话揭示了力量被夸大的真相

    很多人可能不知道,核 的可怕威力其实被严重高估了。过去的报纸和杂志声称,美国和苏联拥有数以万计的核武器 足以摧毁地球数十次。但这是真实的情况还是夸大其词的危机言论?有一次,美国向日本投下了两颗原子弹,小男孩 的产量为万吨,共造成万人死亡,相当于 胖子 万吨,造成万人死亡。然而,后来制造的数以万计的氢...