自从去年年底ChatGPT在全球掀起大模型热潮以来,“先锋”谷歌整整一年都在青少年的光环中黯然失色。 在庞然大物谷歌面前,OpenAI只是一家小小的创业公司,即使背后有Microsoft的大力支持,但与谷歌雄厚的AI人才储备、雄厚的资金实力和天价的计算资源相比,OpenAI就像一个飞贼在龙息下偷宝。
这个“小飞贼”成功抢走了谷歌的AI桂冠,率先走上了AGI(Artificial General Intelligence,通用人工智能)之路,取代谷歌成为AI浪潮的领头羊,这是深耕AI十几年的谷歌无法接受的。
Gemini 不仅是谷歌迟来的产品,也是一场蓄谋已久的复仇。
文 |曹婷婷, 赵磊.
编辑 |赵磊.
运营 |圈中圈。
谷歌带着复仇回来了
对标 GPT-4 并超越 GPT-4,是谷歌最新大型模型 Gemini 的天生使命。 早在几个月前,当Gemini发展的消息传出时,你就能感受到谷歌对它的厚望:
Google Brain 和 Deepmind 合并后,该公司数百名最资深的 AI 科学家和产品经理加班加点地工作,几乎耗尽了 Google 所有可用的计算资源来训练一个可以尽快赶上甚至超越 GPT-4 的大型模型。
于是,十天前,当Gemini上线时,虽然ChatGPT已经夺走了“人工智能的iPhone时刻”,但谷歌希望重现人工智能首次向世界展示强大力量时的“alphago时刻”,从而完成OpenAI的“复仇”。
双子座确实在GPT占主导地位的AI世界中撕裂了裂痕。 谷歌发布一系列测试结果,Gemini 成为第一个在 MMLU(Massive Multitasking Language Understanding)测试中超越人类专家的模型,得分为 90 分0%,领先于人类专家的 898%,而 GPT-4 为 864%。换句话说,它不仅在专业知识上超过了 GPT-4,甚至比人类专家知道得更多,给出了合理的答案。
Gemini 更大的优势在于它是原生的多模态大模型,将其他现有的多模态大模型拼接在一起。 用谷歌的话来说:“从第一天起,它就是一个多模态的大模型,跨文本、图像、音频和**的无缝推理。 ”
图 官网截图 与ChatGPT相比,Gemini更像是人脑,可以同时收集、组合、理解不同类型的信息,在输出信息时也可以使用语言、手势、动作、表情等方式。 同一个大脑处理不同的信息,信息在“翻译”过程中不会丢失,与人类的交流会更加顺畅。
比如我们普通人,当我们看到“老虎”这个词时,就能直接联想到老虎的形状和它的奔跑方式,甚至老虎的咆哮声都会出现在我们的脑海中,而其他多模态的大模型更像是一个聋哑人,需要把声音写成文字或者手语,才能知道别人说了什么, 在不同信息的转换中,难免会出现误解。
在谷歌的演示**中,双子座用一个年轻人的语气看着用户画画、变魔术、玩**,同时实时分析画面,主动与用户对话。 那一幕很像《钢铁侠》中的贾维斯和托尼应该用铁甲来设计。
在某种程度上,谷歌再次为人工智能的演进树立了新的里程碑,正如谷歌猫项目、Alphago vs. 李世石和变形金刚架构开启了人工智能的新篇章一样,谷歌用十几年来一次又一次震惊世界的行动为人工智能的发展标出了清晰的道路。
但自从去年年底ChatGPT在全球掀起大规模模型狂潮后,“先锋”谷歌整整一年都在后辈的光环中黯然失色。 在庞然大物谷歌面前,OpenAI只是一家小小的创业公司,即使背后有Microsoft的大力支持,但与谷歌雄厚的AI人才储备、雄厚的资金实力和天价的计算资源相比,OpenAI就像一个飞贼在龙息下偷宝。
这个“小飞贼”成功抢走了谷歌的AI桂冠,率先走上了AGI(Artificial General Intelligence,通用人工智能)之路,取代谷歌成为AI浪潮的领头羊,这是深耕AI十几年的谷歌无法接受的。
年初,在Microsoft推出 GPT-4 支持的 Bing Chat 版搜索引擎后,谷歌更是不安。 很快,谷歌宣布推出Bard,这是一款由自己的大型模型支持的聊天机器人。
在谷歌的描述中,Bard 拥有类似 ChatGPT 的聊天功能,更“负责任”。 当时,ChatGPT因胡说八道而广受诟病,谷歌阴阳皆乐。 这也让外界对巴德充满期待。 故事的其余部分就像在电影中表演一样,充满了戏剧性。 在巴德的宣传**中,有一个事实错误。
巴德被问到一个问题——“关于詹姆斯·韦伯太空望远镜,我可以告诉我 9 岁的孩子有什么新发现?从表面上看,巴德就像一个循序渐进的老师,流利地回答了这个问题。 然而,拍摄太阳系外行星第一张照片的人的名字是错误的。
第一次介绍是错误的。 尽管谷歌很快删除了演示**,但一旦发生,破碎的信任是无法弥补的。 股价应声下跌9%,市值缩水1000亿美元。 本来想靠Bard赶上Microsoft和OpenAI的先发优势,结果却犯了一个大错误。 在这场夺回人工智能领地的战斗中,谷歌处于不利地位。
图视觉中国随着ChatGPT迭代的加速,留给谷歌的时间越来越紧。 谷歌习过去每年5月和6月发布新产品,但这次它选择了年底。 据美国一份报告报道,谷歌管理层担心OpenAI、ChatGPT、Microsoft的Copilot正在成为AI领域的代表,谷歌不能再等了。
目前,Gemini 的效果还有待验证,已经发布的 Gemini Pro 仅比 GPT-3 好5. 目前还不可能完全赶上 GPT-4。 甚至有业内大佬质疑谷歌的双子座宣传**有剪辑痕迹,放大了产品的效果。 谷歌承认已经进行了后期处理,并且还发布了对交互过程的更具体的分析。
黑色和红色也是红色的,也许是为了营销,也许是太过分了,无法做出炫酷的效果,总之,谷歌的复仇大作多了几分戏剧效果。 毕竟,谷歌已经退缩了太久,它需要成功来证明自己。
一大早就醒来了
当谷歌开始大规模投资人工智能时,OpenAI还不存在。
2012 年,谷歌斥资 4400 万美元收购了一家成立不到一个月、没有产品、没有收入、只有三名员工和几篇文章的公司。
该公司由多伦多大学教授 Geoffrey Hinton 和他的两名学生创立,他们的神经网络算法 AlexNet 仅使用四个 NVIDIA GPU,以 84% 的准确率赢得了 ImageNet 图像识别竞赛。
这让谷歌感到了巨大的挫折。 早在2024年,谷歌就创建了谷歌大脑AI项目,目标是研究深度习和神经网络,以提高谷歌产品和服务的性能,比几乎所有美国科技公司都要早。 神经网络是机器习的一个方向,通过模拟人脑识别大量数据的模式,谷歌很早就意识到这可能是机器学习听、说、读、写和最终思考的一种方式。
Google Brain 有一个关于 The Cat Neurons 的研究项目,简单来说就是你可以使用神经网络算法来识别 YouTube 的 **,而 Google Cats 项目不仅由斯坦福大学顶级人工智能学者 Ng Enda 和 Google 首席科学家 Jeff Dean 领导,还有 Google 创始人 Larry Page page)。 在 Google 数据中心使用 16,000 个 CPU 进行训练,达到 74 个8%的识别率。 谷歌也对imagenet数据集做了内部测试,识别率远低于Hinton团队。
面对巨大的差异,恰逢Hinton团队组织的“自我拍卖”,谷歌决定不惜一切代价引进人才。 当时,除了谷歌、Microsoft和英国人工智能实验室Deepmind之外,还有四方参与拍卖。 事实上,它是第一家向Hinton教授提出要约的科技公司,但谷歌给了他太多钱。
Hinton 带着两个学生进入谷歌后,很快就赢得了 ImageNet 图像识别大赛,但这已经不重要了,最重要的是谷歌招募了这些顶尖人才,其中一名学生就是后来成为 OpenAI 首席科学家的 Ilya Sutskever。
在太浩湖拍卖会之后,大型科技公司也加入了这一行列。 习 深度学习研究院成立,Google Cat 负责人吴恩达被 Facebook 聘用,“深度学习习三巨头”之一的 Yann Lecun、Hinton 的学生 Ruslan Salakhutdinov 被苹果聘为苹果首位 AI 总监。
参与拍卖的Deepmind也逐渐意识到,财力雄厚的科技公司正在不惜一切代价收购AI人才,而Deepmind作为一家初创公司,没有竞争力,只能选择卖自己。 该公司自2024年以来一直致力于神经网络,并致力于实现AGI,建立一个可以学习习玩经典雅达利游戏的系统,如“太空入侵者”,“乒乓球”和“Arkanoid”,特斯拉创始人埃隆马斯克和硅谷创业教父彼得泰尔是Deepmind的早期投资者。
2024年,彼得·泰尔(Peter Thiel)和马斯克(Musk)在PayPal的公司总部持有他们用来支付PayPal的Visa信用卡。 Facebook 和谷歌竞购了 DeepMind,但以 Demis Hassabis 为首的创始人坚持认为,Deepmind 的技术不能用于军事目的,其通用人工智能技术必须由一个独立的技术和道德委员会监督。 扎克伯格不同意这些条件,最终 Deepmind 被谷歌以 6 的价格出售5亿美元。
谷歌做出了妥协,妥协只是为了押注通用人工智能,这在当时还是虚无缥缈的,Google Brain的很多员工并不了解这家公司。 毕竟,DeepMind需要足够的计算能力来开发,这意味着其背后需要巨额投资。 没有人知道 DeepMind 接下来会燃烧多少,以及会燃烧多久。
这种担忧并非没有根据。 被谷歌收购后,Deepmind年复一年亏损。 2024年的亏损为127亿英镑,亏损28亿英镑,2024年亏损47亿英镑。 但从长远来看,谷歌的大摇摆被证明是相当有先见之明的。
《经济学人》发表了一篇长文,分析了Deepmind对谷歌的重要性。 该杂志认为,谷歌收购DeepMind现在已经成为全球AI领域的金招牌,这种品牌效应将帮助谷歌吸引顶尖的AI人才,甚至在这场竞争中占据领先地位。
很快,谷歌迎来了自己的真正高光时刻。 2024年,DeepMind的AlphaGo击败了李世石,用人工智能的力量震惊了世界。 谷歌也已成为最先进人工智能技术的代名词。 此外,谷歌还收购了十几家AI公司,投入巨资,树立了AI老大哥的名号。
一时间,风投、科学家、大学教授、创业者都在谈论AI商业化的可能性,但此时的AI还是专家,无论是下围棋还是人脸识别、语音识别、翻译,都只能满足特定的功能。
直到 2017 年,谷歌的几位研究人员发表了《注意力就是你所需要的一切》**,他们首先提出了 Transformer 算法,并用它来理解人类语言,即自然语言处理。 这种开源**让许多研究AI的科学家和科技公司意识到,这可能是实现与识别AI完全不同的通用AI的关键。
Transformer,它成为后来所有LLM(大型语言模型)的基石。
巨人很难扭转局面
如果不是谷歌开源了 Transformer,后来 ChatGPT 也不会成功,OpenAI 站在巨头的肩膀上,看到了自己进步的方向。
但起初,OpenAI 的成立是为了对抗谷歌。
2015 年 7 月,在自己的生日派对结束后,马斯克和前来参加派对的朋友、时任谷歌 CEO 拉里·佩奇 (Larry Page) 爆发了一场关于人工智能的争论,佩奇认为人类最终会与 AI 机器共存、共同竞争、共同发展,而马斯克则认为沉迷于 AI 发展最终会毁灭人类,佩奇则嘲笑马斯克是一个偏袒人类的“物种主义者”。
这让马斯克再次对谷歌对人工智能发展的控制保持警惕。 Deepmind被谷歌收购后,马斯克不再参与公司事务,但仍然以股东身份参加了Deepmind在2024年8月召开的伦理委员会会议。 当时,DeepMind创始人汇报了工作情况,并强调了AI可能带来的严重风险,如导致虚假信息大量增加,导致大量人员失业等,并建议谷歌实施“全民基本收入”政策,即与普通人分享AI发展带来的红利。
马斯克对此表示同意,但他的言论没有多大用处,谷歌的资助者认为这些担忧过于清醒。 于是,马斯克与包括硅谷风险投资家山姆·奥特曼(Sam Altman)在内的其他对人工智能发展持谨慎态度的人联手,于2024年底创立了OpenAI,致力于防止人工智能威胁人类,开发通用人工智能造福全人类,对抗谷歌等大公司对人工智能的垄断。
刚刚成立的OpenAI,就像一个专注于学术研究的象牙塔,以理想为支撑,但并不清楚它到底想做什么。 在理想的启发下,伊利亚·苏茨凯维(Ilya Sutskevi)等一群顶尖科学家,以及Deepmind的前布道者,放弃了谷歌的高薪,离开了谷歌,加入了OpenAI。 直到 2017 年,谷歌帮助 OpenAI 解决了不知道该做什么的问题,Transformer 架构才成为 OpenAI 的方向。
从那时起,谷歌和OpenAI就成为了同一条跑道上的竞争对手。 但在大模型成长过程中,双方走了两条路线。 第一种可以理解为“阅读理解”,即通过给出前一句和下一句来不断训练模型,只是为了让大模型越来越“人性化”。 2018 年 6 月,OpenAI 发布了 GPT-1,这是一个仅 GPT 的生成式预训练模型,只有一个解码器。
图:第二种视觉中国可以理解为“空白中的完形填空”。 也就是说,给出一个段落,在中间阻止某些部分,并为训练提供上下文,可以使大模型所说的内容更准确。 2018 年 10 月,谷歌推出了 BERT,它比 GPT 大四倍,具有 3拥有 4 亿个参数的大模型在几乎所有性能上都碾压了 GPT。
BERT 的成功一度让 OpenAI 怀疑自己是否走在正确的道路上,但作为一家初创公司,OpenAI 没有那么多钱去做其他尝试,只能押注生成式 AI,实践无脑参数的暴力美学,2019 年 2 月推出的 GPT-2 没有新的架构,但参数提升了十倍以上, 模型堆栈的数量翻了两番,GPT-3 再次翻了一番。
谷歌在此期间在做什么?2019 年 10 月,谷歌发布了统一的模型框架——T5,它兼具编码器和解码器,相当于结合了 BERT 和 GPT,110 亿个参数再次碾压了 GPT-2。
谷歌似乎在很长一段时间内都占据了上风,但实际上它正在朝着错误的方向走得更远。 谷歌的改动,让OpenAI有足够的时间迎头赶上,继续在GPT-3上猛烈堆砌参数,堆砌高达1750亿,并惊喜地发现,大模型上出现了一个“智能涌现”,即参数数量达到一个阈值,模型会有一些开发者无法解释的复杂能力, 看起来它有人类的思维和推理能力。
这时,谷歌意识到自己选错了方向,重新切换到只有解码器的模式,还堆砌了OpenAI等参数,并在2024年左右陆续推出了FLAN模型和Lamda 2模型,但最终却是个糟糕的举动,OpenAI发布了InstructGPT和被魔鬼调谐的兄弟模型ChatGPT, 一炮而红,站在人类通往AGI之路的最前沿。
技术上的迂回使谷歌推迟了18个月。 此外,领导层的保守主义也导致谷歌因为风险考虑而没有推出一款产品,即使它已经取得了一些成果。
2021 年 5 月,谷歌展示了其最新的人工智能系统 Lamda,这是一种用于对话应用程序的语言模型。 与 ChatGPT 一样,Lamda 可以使响应更“合理”,并使对话更自然。 此外,它还可以利用外部知识来源来发起对话。 而且,这些回复都不是预先设置的,即使是相同的答案也不会被第二次使用。
当时,距离ChatGPT出现还有一年半的时间。 但 Lamda 未能迎来 ChatGPT 式的爆炸。 甚至没有多少人知道它。 Lamda被藏在深宫中,谷歌没有向公众发布。 被隐藏的一个原因是 Lamda 的错误程度很高,谷歌认为这是“有毒的”,容易对用户造成伤害。
谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)和谷歌长期人工智能主管杰夫·迪恩(Jeff Dean)也表示,谷歌实际上完全有能力提出类似ChatGPT的结果。 但是,如果造成事故,像谷歌这样的企业巨头必须承受的财务和声誉损失是无法估量的。
一个案例是,Google Photo的AI自动将黑人标记为猩猩,这在政治正确的美国是一场大灾难,直接延缓了聊天机器人的发展,最终拖慢了ChatGPT的速度。
毕竟,全球有数十亿用户在使用谷歌的搜索引擎,而 ChatGPT 在 12 月初才突破 100 万用户。 巨头很难扭亏为盈,谷歌的试错风险远高于初创公司。
如果谷歌不提交论文,每个人都不能使用它们。 对于许多用户来说,演示完全是关于“谁吹谁”的。 谷歌目前也失去了被世界看到的机会。
OpenAI 的选择
站在巨人的肩膀上,或者换句话说,把巨人踩在脚下,OpenAI的成功尤为引人注目。
ChatGPT 就像哆啦A梦的口袋,似乎可以回答您可能遇到的任何疑问。 它不仅可以回答连续的问题、生成文本摘要、对信息进行分类、写**等,还可以承认错误、质疑不正确的前提、拒绝不适当的请求。 在某种程度上,它具有类似人类的特征。
ChatGPT 推出后的 5 天内,玩家人数超过 100 万,Facebook 花了 10 个月的时间才积累了这个数字。 发布两个月后,ChatGPT 的月活跃用户达到 1 亿,是历史上增长最快的应用程序。 为此,Instagram 使用了 25 年,TikTok 花了 9 个月。
但OpenAI的成功,在OpenAI科学家眼中,更像是“与魔鬼做交易”。
因此,神经网络的概念虽然早在半个世纪前就已经存在,但直到十五年前,它仍然处于科幻小说的水平,被科学界所忽视。 直到英伟达的显卡解决了算力问题,互联网积累了海量数据,痴迷于算法研究的AI科学家才有了用武之地。
作为一家初创公司,OpenAI希望在大模型的道路上走得更远,最终实现AGI,这需要不断烧钱,这是它与竞争对手谷歌的最大差距。 作为一个非营利组织,OpenAI很难获得太多的投资者。 坚守初心意味着没有钱去发展,最终,在2024年3月,OpenAI重组并创建了一家新公司OpenAI LP,成为一家“上限利润”机构。 《突然开除,ChatGPT之父做错了什么?详细解释了OpenAI的组织架构,这也成为OpenAI内乱的伏笔。
尽管被OpenAI董事会解雇的CEO阿尔特曼最终以胜利者的身份重返公司,但OpenAI内部的分歧不会消失,正如OpenAI政变背后的发起人、首席科学家Sutzkvi在接受采访时所表达的那样:他的首要任务不是制造下一代GPT,而是研究如何阻止超级AI失控——这是OpenAI的出发点。
当地时间2024年11月6日,在美国加州,OpenAI首席执行官Sam Altman在OpenAI开发者大会上发表演讲。 图 视觉中国 在OpenAI内乱中,有一个小插曲,OpenAI董事会开除奥特曼后,秘密接触AI创业公司Anthropic,打算合并两家公司。 Anthropic 创始人 Dario Amodei 曾是 OpenAI 员工,他于 2020 年离职创办公司,因为他认为 OpenAI 忽视了人工智能的道德和伦理风险,并且在商业化和产品更新方面走得太快。
无论如何,OpenAI 再也无法回到那个纯粹的象牙塔,正如《大西洋月刊》所写,“在 ChatGPT 之后,赚取收入和利润的道路变得清晰,你再也无法捍卫自己作为'理想主义研究实验室'的身份。 那里有客户在等待服务”。
无法解决的矛盾隐藏在OpenAI中,等待下一次爆发,也拉扯着ChatGPT更新的节奏,这对谷歌来说应该是个好消息。 追赶仍在继续,只要不玩牌桌,这场人工智能竞赛的结果仍然是不可预测的。 除了谷歌、OpenAI 和 Microsoft,Meta 依靠开源来吸引人气,亚马逊投资了 OpenAI 的潜在竞争对手 Anthropic,马斯克也在准备重拾辉煌。
在大模特之年,整个世界已经开始向前迈进,谁将成为最终的赢家,目前还不得而知。 唯一可以确认的是,人工智能世界正在加速释放想象力。 对于人类来说,未知的风暴仍在酝酿中。
引用:[1] 《纽约时报》10,000字文章:人工智能行业的野心、恐惧和金钱。 全天候技术。
2] 后续AI模型:7岁的OpenAI打败了24岁的谷歌 你做对了什么?财经美联社。
3] 2024年,改变人类命运的180天。远川研究所。
4] OpenAI为什么要推翻谷歌已经布局多年的AI棋?Phineas 说 AI
5] Deepmind,推出了 Alpha Dog,为什么不做 ChatGPT?嘉子光年。
6] 狙击手 GPT-4 在上一场战斗中,Google Gemini 终于发布,听、说、读、写全能型。智能应运而生。
文章为《每日人物》原创作品,侵权必究