三少爷温。
自 2022 年底 ChatGPT 问世以来,大模型的兴奋一直到现在都喧嚣不已。 在互联网巨头、ICT巨头、云服务商、初创企业在这条赛道上密不可分地奋斗的同时,中国车企研发的大型车型也陆续上车。
在去年11月的智杰S7发布会上,华为盘古大模正式上车,大模联接智能助手小艺,展现了“私家车顾问”的能力。 12月,理想汽车将OTA 5推至L7 8 9用户0、mindGPT正式开启内测,重点关注助手功能,涵盖出行、用车、娱乐、知识百科四大场景。 在12月底的M9发布会上,于承东展示了盘古模型可以实时观看的同时“百科问答”能力,最近一次展示肌肉的大模型是今年1月的比亚迪梦想日,比亚迪以一代旅行策略为例,展示了自主研发的一款大模型的实力。
理想的汽车。
也许是车企宣传不当,或者是消费者期望值过高,这些大型车型最终并没有给用户带来普遍的“WOW”感。 在“供需错配”的背后,既有来自用户体验的表层原因,也有来自技术的深层原因。
经验差距从何而来?
ChatGPT问世后,正如英伟达创始人兼CEO黄仁勋将其比作人工智能领域的iPhone时刻,很多人对LLM大语言模型和生成式AI产生了极大的热情,甚至有人用宗教狂热喊出了“硅基文明终将取代碳基文明”的口号。 这种情绪是可以理解的,陷入股票竞争的现代人,热切期待下一次技术革命,也是很自然的。
只不过,随着ChatGPT的问世越来越远,GPT大模型带来的新鲜感也越来越少。 越来越多的人觉得GPT的发展似乎与他们的工作和生活没有太大关系。
***openai
他们的感觉是对的,但背后的原因并不是“大模型都很好,但我不喜欢”,也不是因为大多数人对新技术不敏感,而是因为GPT可以“超预期”的设计场景与你我无关。
麦肯锡。
GPT有智能助手情感陪伴、虚拟专家、内容生成、开发和自动化任务五大应用场景,除了开发前期的自动化任务外,在其他应用场景中,“超预期”在虚拟专家(帮助研究人员阅读**)和**开发(帮助程序员写**)和“只写**,读**”中起着作用,不适合汽车场景, 因此,整车大模型的应用场景只留下了智能助手的情感陪伴和内容生成。
不知道大家有没有注意到,上面提到的三家车企,在展示大模型的能力时,只展示了智能助手和内容生成应用场景。 但是,可以通过ChatGPT或文心一言在桌面上实现内容生成,明显高于大多数本土车企大车型的能力,无需花费自己的流量费用,在耐心耗尽之前在车内生成“漂浮在太空中的电动汽车”; 一个可以帮你打开车窗、调节空调温度的语音助手,或者一个做旅行指南的旅行助手,都不符合那些习惯了看“智能”大场面的人的期待。 这些都不是“增值”体验,因为大模型在车上,在汽车这样的封闭空间里,人们自然期待“情感陪伴”,来回互动和温暖,但现在,大模型的温暖并不像诺米多做几句话那么明显。
最终创造的情境是,在汽车的场景中,消费者原本希望的大模型是春风般情感的陪伴,至少是一个认识我、理解我的“聊天机器人”,但结果却是百科全书问答、包含汽车知识、文旅知识的专家系统等冷冰冰的机器。 车企提供的大型车型与消费者需求之间存在供需不匹配,在巨大的心理差距下,失望在所难免。
那么,大模型的开发者是不是不够努力呢? 其实不然,主要原因是消费者“想得太多”或者过于乐观。 如果开发者要反思自己是否努力过,肯定会像那个因为爱情而讨厌李佳琪的猪姑娘一样抱怨:“佳琪,我真的很努力。 ”
为什么消费者过于乐观,可以用两个独立的问题来回答。 一、世界上最先进的大型模型处于什么发展阶段; 二、本土车企研发的大型车型与“顶尖学霸”的差距有多大?
大型模型离人脑还很远
先撇开立场的争论和似是而非的认知,我们可以从技术参数维度客观地看待最先进的GPT模型的发展阶段。
GPT 的“智慧涌现”能力或性能取决于大模型的大小,而规模衡量的两个最关键的指标是参数的数量和训练语料库(token)的数量。 在大模型结构设计足够好的前提下,可以认为参数的数量决定了大模型性能的“理论”上限和上限,训练语料库的数量决定了大模型的“实际”训练程度。
为了帮助你理解这两个指标的意义,让我们用人脑做一个不那么严格的类比。 毕竟,人工智能领域一直把人脑作为最大的灵感**。
当它们落地时,娃娃们的大脑已经有了良好的结构和足够的参数(100万亿尺度),但无知的幼崽们却需要在各种环境中被熏陶、殴打、激励和训练,以发展情商、智商和各种“商数”,并塑造大脑的神经元、突触和皮层,才能在这时而温暖时冷的环境中发展出独立生存和发展的能力, 有时是友好的,有时是丛林社会。换句话说,人脑的结构和参数是“与生俱来的”,决定了娃娃理论上能发挥多少潜力,但具体程度取决于后天的训练。
因此,提升GPT性能的方法主要有两种:1、推高大模型的参数规模; 2. 训练更多数据(以代币形式)。 我们可以拿 OpenAI 近年来的 GPT 版本来说明参数规模和训练数据规模在提高性能方面的作用。
2020年,OpenAI发布了GPT-3,该模型的参数数量为1750亿,训练代币数量为3000亿,这个数据真实有效,来自Andrej Karpathy(特斯拉AI和自动驾驶部门前负责人)在2023年Microsoft Build大会上。 在不改变模型结构和参数规模的前提下,OpenAI将更多的训练语料喂给GPT-3,提升了模型的推理、语言理解和生成以及基础问题解决能力,并将版本号升级为GPT-35、在此基础上,推出了风靡全球的ChatGPT。 GPT-4,将于 2023 年推出,虽然 OpenAI 尚未透露其参数大小和训练数据量,但经过一轮又一轮的爆料,大致可以认为其参数量高达 18万亿,训练代币数量为13万亿。
Microsoft 构建会议。
GPT-4 与人脑相比水平如何? 据相关研究,人脑的神经元大约有860亿个,由大约100万亿个突触连接,对应深度学习神经网络的参数数量,而人脑的“参数”大约是100万亿。 什么是训练令牌? 有人估计,光是字数,人类一生训练的代币数量大约在数百亿到一千亿之间,考虑到各种形象、感受、情绪,代币数量将会增加好几个数量级。
且不说在LLM大语言模型之后会不会有更接近人类智能的“新大模型”,只要将GPT与人脑进行对比,至少在这个阶段,顶级GPT和人脑相差甚远。
更重要的是,本土车企研发的大型车型与GPT-4之间还有很大差距。
车企大模式受开源限制
顶尖学员的成绩揭晓,下面就是从参数数量和训练代币数量两个维度,对比顶级大模型与国内车企全栈自研大模型。
从数量上看,本土车企的自主研发大型车型确实不少,但除了盘古大模型已经公开了参数数量(万亿级)之外,没有其他车企公开了自主研发的大模型的参数数量。 不过,理想汽车曾在去年的 Family Tech Day1 上透露了用于培训的代币数量3万亿,蔚来还透露,NOMI接入的GPT大模型的代币数量高达1000亿,所以就目前而言,无论参数数量多少,仅对比训练代币数量,GPT和GPT-4在Ideal和NIO之间存在一个数量级的差距。
其实参数规模上的差距也很大,因为大部分全栈自研大模型都是基于开源大模型的,开源大模型的参数规模一般不高。
不仅在国内,在世界范围内,开发大模型的方法也只有几种:在开源大模型的基础上做调优训练,调用其他大模型的API,在其他大模型的基础上做应用,真正开发大模型。 OpenAI是真正自研大模型的巨头,他们正专注于推动玩家在赛道上选择第二种和第三种方式,然而,鉴于OpenAI开发和发布的API数量仍然很少,大家要么老老实开发自己的大模型,要么在开源大模型的基础上进行训练。
从历史底蕴和技术积累来看,真正研发出属于自己的大型车型的国产车企恐怕并不多。 而且,就算是想“真正自主开发”一个大模型,也要从一个参数少的模型做起,大家都是这样来的。 目前,月活跃度排名全国第一的百川模型,参数从70亿、130亿、530亿缓慢增加。 值得一提的是,OpenAI 的 GPT-3 不是开源的,开源 GPT-2 的参数规模只有 15 亿左右,而 Meta 的开源 LLAMA 2 有三个版本:7B、13B、70B,并且已经用 2 万亿个代币进行了训练。 可以认为,基于开源大模型的全栈自研车模参数都在百亿级,也与GPT-4相差一两个数量级。
参数数量、训练代币数量和行业顶尖学生之间有着巨大的数量级差距,如果真的明白了这一点,就不会对本土车企研发的大型车型抱有太高的期望。
写在最后
车载大模型的实际性能与消费者的心理预期存在一定差距,这主要是由于消费者的“乐观”估计造成的。 我记得比尔·盖茨曾经说过,“人们倾向于高估未来一两年将取得的成就,而低估了未来十年将取得的进展。 这句话的前半部分很可能适用于GPT,这是一项划时代的新技术。
后半句话呢? 在比尔·盖茨和黄仁勋等大佬眼中,GPT模型是几十年来最伟大的技术发明,模型的未来值得期待。 因此,我们不妨对车内的大模型保持谨慎和乐观。