图片来自:视觉中国。
谷歌最强大的大模型Gemini已经发布,我陆续阅读了技术报告和一些评测分析,周末也记录并分享了
首先,有几点值得标记。
Gemini Ultra 的得分为 900%,是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,类似于高考。 国内外也有类似的基准。
例如,C-eval、CMMLU、Gaokao、Lucyeval、Superclue、OpenCompass、Flageval等。
2.谷歌这次推广双子座最大的亮点是多模态。 “Gemini 被设计为原生的多模态,从一开始就对不同的模态进行了预训练。 帮助 Gemini 从头开始无缝地理解和推理各种输入远远优于现有的多模态模型——它的功能在几乎每个领域都是最先进的。 ”
遵循下一个标记预测方法,Gemini 从头开始训练多模态数据,包括文本、音频等,并将所有模态数据转换为标记,最后成为一维线性输入(不同模态按颜色顺序标记),使模型**下一个标记。
3.谷歌一口气发布了三款机型:Ultra 是最大的,对标 GPT4 和 4V,目前尚未开放(API 将于 12 月 13 日开放)。 专业基准测试 GPT35.它可以用于美国吟游诗人(我尝试了我的吟游诗人,或者以前的lamda)。 nano 是一款小型型号,可在 Google 的 Pixel 8 手机上使用。
4.在技术报告中,谷歌强调了计算能力的优势:“我们宣布了迄今为止最强大、最高效、最可扩展的 TPU 系统 Cloud TPU V5P,旨在训练尖端的 AI 模型。 ”
翻译成白话,就是:Microsoft OpenAI Anthropic这些公司,利润(据说70%)被英伟达吃掉了,我的利润还是我自己的。 (事实上,Microsoft和OpenAI也在尝试制造自己的芯片,但进展速度比谷歌慢。 )
5.Gemini 语音识别在主要语言上有显着改进(BLEU 比 OpenAI 的 Wisper 2 高 10 分,但 Wisper 在其他语言中更强。 在WMT2023测试集上评估的机器翻译能力结果也略高于GPT4)。
第二,一个简单的评估。
它不起作用**,我用这张图尝试了一些具有多模态功能的模型。 这是如何做到这一点的:上传这张图片并问:哪辆车在设计方面会跑得更快?
文欣 40:
志浦清妍:
ChatGPT GPT4:
Google Bard(还不是 Gemini Pro):
我没有太多评论,但四个同学很有趣
3.几点想法。
1.关于多模态:声音的实时处理、**流、现实世界的交互,意味着在具身智能方面向前迈出了一大步。 它可以实时接收信息,实时处理任务,更像是人类的生活场景。 谷歌拥有世界上最大的YouTube,在训练多模态模型方面处于有利地位。 而最近 Bunsen Diagram Midjourney 和 Bunsen ** Runway Pika 的火灾,证明了多模态的商业潜力。
然而,从知识的角度来看,多模态被神化了。 与文本语言模型相比,多模态模型在智能方面没有太大的提升,在理解、推理、创造等方面也没有明显提升。 除了训练的难度,我想我们低估了文本。 Rust 的创始人 Graydon Hoare 说:“所有的文学和诗歌、历史和哲学、数学、逻辑、编程和工程都依赖文本编码来表达他们的想法,这绝非巧合。
文本确实保留了人类智慧的精髓,古今中外的智慧,以及对世界万物的认知和发现,从人类文字记载开始,几乎都保存在文本中。
一方面,GPT只是一个读过上千本书的“书”,但他已经具备了很强的常识、理解力、推理力和创造力不要偷看,看天堂的味道”。 另一方面,如何阅读自然之书?这似乎是一个巨大的问题。 从现实世界中习知识,与阅读数千本书相比,就像旅行数千英里一样,效率要低得多。
2.双子座没有现场演示,网上一些复制品与演示不符,有夸大宣传的嫌疑。 不过,从Bard不断缩小与ChatGPT的差距,以及谷歌的综合能力来看,Gemini Ultra的能力不会和宣传的有太大区别。
双子座的这一战,为AI领域的双星格局奠定了基础,我们都低估了谷歌的忍耐力。
从竞争格局来看,无论是 Meta 的开源 llama2,还是专注于安全的 Anthropic,以及马斯克的 XAI,目前的差距已经扩大。
3.谷歌的优势如下:
在组织上,今年年初DeepMind和Google Brain的合并,解决了力量分散和认知不统一的问题,变劣为优。
在人才方面,领头羊是Alphago的发起人黛米·哈萨比斯(Demi Hassabis),他对AGI有着深刻的理解,首席科学家是工程师传奇人物杰夫·迪恩(Jeff Dean)。 从人数上看,技术报告作者一栏的人数长达数页,接近1000人。 已经超过了openai的数量(超过七百个)。
算力算法工程:在算力方面,谷歌不像Microsoft和OpenAI那样高度依赖英伟达,拥有Cloud TPU V5P。 在算法上,谷歌是Transformer的发明者,一直是算法的领导者还有搜索业务本身积累的底层算法和工程能力。
在生态方面,谷歌的C端比Microsoft强,Microsoft除了云之外,最主要的就是Window Office,谷歌几乎拥有Microsoft+苹果的C端能力。 此外,模型层和应用层在一个系统下,动作应该比OpenAI和Microsoft联盟更快。
4.当然,OpenAI的优势至少是以下几点:
GPT4 于 3 月发布,比 Gemini Ultra 提前 9 个月,GPT5 会在几个月后发布吗?
ChatGPT是一款杀手级APP,紧接着GPT4的发布,OpenAI占据了用户的心智,GPT几乎成了大模型的代名词。
全球超过1亿用户形成的用户反馈和数据飞轮已大规模上线。
Microsoft没有Copilot和Azure云渗透到大公司那么快,OpenAI的创业心态,以及关于GPTS和GPT Store的生态野心都是厚实的肌肉。
5.神话般的多模式前景,被低估的谷歌的宽容,加速的人工智能进程,以及淹没喧嚣的人工智能风险。
这可能是我们,还处于无知的早期阶段,在实现前所未有的生产力飞跃之前的徘徊,也可能是文明全面发展后硅超越的悬崖边缘的诱惑。
无论如何,这注定是一段动荡不安、动荡万钧的人类历史数年,值得观察和记录。