在沉寂了一年之后,谷歌带着旗下的多模态大模型双子座(Gemini)重返AI圈。
此前,谷歌曾凭借AlphaGo在全球掀起一股AI浪潮。 但新一波AI的风头已经被ChatGPT抢走了,谷歌急需一款现象级的AI产品来证明自己的实力,这也就不难理解为什么谷歌要冒着风险在演示中夸大自己大模型的性能了**。 因为他们希望双子座看起来比竞争对手更好。
从名字也可以看出,谷歌对双子座超越人脑的能力寄予厚望。 官方认为,Gemini 是 AI 模型的巨大飞跃,其许多功能都超过了 ChatGPT。 从那以后,谷歌正式向竞争对手OpenAI和Microsoft宣战,争夺AI霸主地位。 AI圈最强的终于不再是ChatGPT的独角戏了。
争夺最强大模型的战斗正在冒烟。
作为 ChatGPT-4 的杀手级功能,谷歌称 Gemini 是迄今为止最大、功能最强大、最灵活的 AI 模型。 不仅如此,谷歌还表示,Gemini 是一个从头开始构建的多模态模型,更接近人类理解世界的方式。
与ChatGPT的逐步更新不同,谷歌一次性发布了Gemini的三种模式,分别是Gemini Nano、Gemini Pro和Gemini Ultra。 不同版本在性能上有明显的差异,现在每个人都可以使用Gemini Pro,但从功能上讲,可以与ChatGPT竞争的是Gemini Ultra。
虽然**的推广被推翻了,但Gemini的数据表现还是相当不错的。 在计算性能方面,Gemini 几乎“击败”了 GPT-4。 Gemini Ultra 在 32 个多模式基准测试中的 30 个中表现优于当前的 SOTA 结果。 在数学题、Python**任务、阅读等方面,Gemini 的表现超过了以前的最高水平。
Gemini 是第一个在纯文本问题的 MMLU(大规模多任务语言理解)评估中优于人类专家的模型。 Gemini 在此类问题上得分为 90%,人类专家得分约为 89%,GPT-4 得分为 86%; Gemini 在多模态问题上的得分为 59%,GPT-4 得分为 57%,表现最好。
除了在常规能力上超越GPT-4外,Gemini最大的特点是多模态,即可以同时识别和理解文本、图像、音频、**和**五种信息,用户可以交错添加文本、图像、**等内容,Gemini还可以输出相应的交错文本和图像。 从一开始,Gemini 就对不同的模态进行了预训练,并使用额外的多模态数据进行了微调,这进一步提高了模型的有效性。
冲刺能否将优势保持到最后? 答案可能不一定。
对于初出茅庐的大型模型行业来说,行业格局尚未确定,后续的竞争依然充满变数。 谷歌一开始在AI领域遥遥领先,但最终却赶上了OpenAI; ChatGPT一出现就震惊了,现在已经被双子座超越了......这样的故事不断发生。 谷歌展示的多模式能力实际上可以在一年内实现。 但ChatGPT还会在一年内继续迭代,届时双子座还会是ChatGPT的对手吗?
谷歌的野心不仅限于追赶,而是想在各个方向上碾压它。 Gemini 的发布不仅是为了与 ChatGPT 竞争,也是为了潜伏在一个更大的项目背后。 除了 Gemini,Google 还发布了迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统 Cloud TPU V5P,专为训练尖端 AI 模型而设计。 下一代 TPU 将加速 Gemini 的开发,帮助开发人员和企业客户更快地训练大规模生成式 AI 模型,并开发新产品和新功能。 更可靠、更可扩展的训练模型和最高效的服务模型是谷歌打造双子座的重要目标。
在这场战斗中,谷歌的布局影响深远,其夺回AI霸权的野心显而易见。 面对已经打出王弹的谷歌,对手OpenAI绝对不会坐以待毙,而OpenAI的诀窍就是猜不出它会打出什么牌。 在争夺最强大模型的战斗中,枪支已经开始。
大模的竞争才刚刚开始,国内同行不得不更加努力。
过去一年,国内比较知名的大模型有科大讯飞星火、腾讯混元、商汤咨询、文心亿言、字节跳动豆宝、知步AI-chatGLM、阿里通益千文等。
从表面上看,每个大模型都有自己的优势,但实际上还处于起步阶段,算法尚未取得突破性成果,与国外大模型相比,还存在一定的差距,Gemini的出现可能会加速行业优胜劣汰,让一大批竞争力不足的产品加速出局, 同时,也启发了国内大模式:与其后续研发,不如尽快在现有产品和服务中赋能AI功能,成本更低,见效更快。
在大模型的竞争中,头部玩家的经验或多或少会被其他追赶者重用,这对后来者来说是一个宝贵的习学习机会,只要保持追赶的势头,就有超越的可能,这次是谷歌,下一次会是谁?