车载模型是原子弹还是茶蛋？

三少爷温。

自 2022 年底 ChatGPT 问世以来，大模型的兴奋一直到现在都喧嚣不已。在互联网巨头、ICT巨头、云服务商、初创企业在这条赛道上密不可分地奋斗的同时，中国车企研发的大型车型也陆续上车。

在去年11月的智杰S7发布会上，华为盘古大模正式上车，大模联接智能助手小艺，展现了“私家车顾问”的能力。 12月，理想汽车将OTA 5推至L7 8 9用户0、mindGPT正式开启内测，重点关注助手功能，涵盖出行、用车、娱乐、知识百科四大场景。在12月底的M9发布会上，于承东展示了盘古模型可以实时观看的同时“百科问答”能力，最近一次展示肌肉的大模型是今年1月的比亚迪梦想日，比亚迪以一代旅行策略为例，展示了自主研发的一款大模型的实力。

理想的汽车。

也许是车企宣传不当，或者是消费者期望值过高，这些大型车型最终并没有给用户带来普遍的“WOW”感。在“供需错配”的背后，既有来自用户体验的表层原因，也有来自技术的深层原因。

经验差距从何而来？

ChatGPT问世后，正如英伟达创始人兼CEO黄仁勋将其比作人工智能领域的iPhone时刻，很多人对LLM大语言模型和生成式AI产生了极大的热情，甚至有人用宗教狂热喊出了“硅基文明终将取代碳基文明”的口号。这种情绪是可以理解的，陷入股票竞争的现代人，热切期待下一次技术革命，也是很自然的。

只不过，随着ChatGPT的问世越来越远，GPT大模型带来的新鲜感也越来越少。越来越多的人觉得GPT的发展似乎与他们的工作和生活没有太大关系。

***openai

他们的感觉是对的，但背后的原因并不是“大模型都很好，但我不喜欢”，也不是因为大多数人对新技术不敏感，而是因为GPT可以“超预期”的设计场景与你我无关。

麦肯锡。

GPT有智能助手情感陪伴、虚拟专家、内容生成、开发和自动化任务五大应用场景，除了开发前期的自动化任务外，在其他应用场景中，“超预期”在虚拟专家（帮助研究人员阅读**）和**开发（帮助程序员写**）和“只写**，读**”中起着作用，不适合汽车场景，因此，整车大模型的应用场景只留下了智能助手的情感陪伴和内容生成。

不知道大家有没有注意到，上面提到的三家车企，在展示大模型的能力时，只展示了智能助手和内容生成应用场景。但是，可以通过ChatGPT或文心一言在桌面上实现内容生成，明显高于大多数本土车企大车型的能力，无需花费自己的流量费用，在耐心耗尽之前在车内生成“漂浮在太空中的电动汽车”; 一个可以帮你打开车窗、调节空调温度的语音助手，或者一个做旅行指南的旅行助手，都不符合那些习惯了看“智能”大场面的人的期待。这些都不是“增值”体验，因为大模型在车上，在汽车这样的封闭空间里，人们自然期待“情感陪伴”，来回互动和温暖，但现在，大模型的温暖并不像诺米多做几句话那么明显。

最终创造的情境是，在汽车的场景中，消费者原本希望的大模型是春风般情感的陪伴，至少是一个认识我、理解我的“聊天机器人”，但结果却是百科全书问答、包含汽车知识、文旅知识的专家系统等冷冰冰的机器。车企提供的大型车型与消费者需求之间存在供需不匹配，在巨大的心理差距下，失望在所难免。

那么，大模型的开发者是不是不够努力呢？其实不然，主要原因是消费者“想得太多”或者过于乐观。如果开发者要反思自己是否努力过，肯定会像那个因为爱情而讨厌李佳琪的猪姑娘一样抱怨：“佳琪，我真的很努力。 ”

为什么消费者过于乐观，可以用两个独立的问题来回答。一、世界上最先进的大型模型处于什么发展阶段; 二、本土车企研发的大型车型与“顶尖学霸”的差距有多大？

大型模型离人脑还很远

先撇开立场的争论和似是而非的认知，我们可以从技术参数维度客观地看待最先进的GPT模型的发展阶段。

GPT 的“智慧涌现”能力或性能取决于大模型的大小，而规模衡量的两个最关键的指标是参数的数量和训练语料库（token）的数量。在大模型结构设计足够好的前提下，可以认为参数的数量决定了大模型性能的“理论”上限和上限，训练语料库的数量决定了大模型的“实际”训练程度。

为了帮助你理解这两个指标的意义，让我们用人脑做一个不那么严格的类比。毕竟，人工智能领域一直把人脑作为最大的灵感**。

当它们落地时，娃娃们的大脑已经有了良好的结构和足够的参数（100万亿尺度），但无知的幼崽们却需要在各种环境中被熏陶、殴打、激励和训练，以发展情商、智商和各种“商数”，并塑造大脑的神经元、突触和皮层，才能在这时而温暖时冷的环境中发展出独立生存和发展的能力，有时是友好的，有时是丛林社会。换句话说，人脑的结构和参数是“与生俱来的”，决定了娃娃理论上能发挥多少潜力，但具体程度取决于后天的训练。

因此，提升GPT性能的方法主要有两种：1、推高大模型的参数规模; 2. 训练更多数据（以代币形式）。我们可以拿 OpenAI 近年来的 GPT 版本来说明参数规模和训练数据规模在提高性能方面的作用。

2020年，OpenAI发布了GPT-3，该模型的参数数量为1750亿，训练代币数量为3000亿，这个数据真实有效，来自Andrej Karpathy（特斯拉AI和自动驾驶部门前负责人）在2023年Microsoft Build大会上。在不改变模型结构和参数规模的前提下，OpenAI将更多的训练语料喂给GPT-3，提升了模型的推理、语言理解和生成以及基础问题解决能力，并将版本号升级为GPT-35、在此基础上，推出了风靡全球的ChatGPT。 GPT-4，将于 2023 年推出，虽然 OpenAI 尚未透露其参数大小和训练数据量，但经过一轮又一轮的爆料，大致可以认为其参数量高达 18万亿，训练代币数量为13万亿。

Microsoft 构建会议。

GPT-4 与人脑相比水平如何？据相关研究，人脑的神经元大约有860亿个，由大约100万亿个突触连接，对应深度学习神经网络的参数数量，而人脑的“参数”大约是100万亿。什么是训练令牌？有人估计，光是字数，人类一生训练的代币数量大约在数百亿到一千亿之间，考虑到各种形象、感受、情绪，代币数量将会增加好几个数量级。

且不说在LLM大语言模型之后会不会有更接近人类智能的“新大模型”，只要将GPT与人脑进行对比，至少在这个阶段，顶级GPT和人脑相差甚远。

更重要的是，本土车企研发的大型车型与GPT-4之间还有很大差距。

车企大模式受开源限制

顶尖学员的成绩揭晓，下面就是从参数数量和训练代币数量两个维度，对比顶级大模型与国内车企全栈自研大模型。

从数量上看，本土车企的自主研发大型车型确实不少，但除了盘古大模型已经公开了参数数量（万亿级）之外，没有其他车企公开了自主研发的大模型的参数数量。不过，理想汽车曾在去年的 Family Tech Day1 上透露了用于培训的代币数量3万亿，蔚来还透露，NOMI接入的GPT大模型的代币数量高达1000亿，所以就目前而言，无论参数数量多少，仅对比训练代币数量，GPT和GPT-4在Ideal和NIO之间存在一个数量级的差距。

其实参数规模上的差距也很大，因为大部分全栈自研大模型都是基于开源大模型的，开源大模型的参数规模一般不高。

不仅在国内，在世界范围内，开发大模型的方法也只有几种：在开源大模型的基础上做调优训练，调用其他大模型的API，在其他大模型的基础上做应用，真正开发大模型。 OpenAI是真正自研大模型的巨头，他们正专注于推动玩家在赛道上选择第二种和第三种方式，然而，鉴于OpenAI开发和发布的API数量仍然很少，大家要么老老实开发自己的大模型，要么在开源大模型的基础上进行训练。

从历史底蕴和技术积累来看，真正研发出属于自己的大型车型的国产车企恐怕并不多。而且，就算是想“真正自主开发”一个大模型，也要从一个参数少的模型做起，大家都是这样来的。目前，月活跃度排名全国第一的百川模型，参数从70亿、130亿、530亿缓慢增加。值得一提的是，OpenAI 的 GPT-3 不是开源的，开源 GPT-2 的参数规模只有 15 亿左右，而 Meta 的开源 LLAMA 2 有三个版本：7B、13B、70B，并且已经用 2 万亿个代币进行了训练。可以认为，基于开源大模型的全栈自研车模参数都在百亿级，也与GPT-4相差一两个数量级。

参数数量、训练代币数量和行业顶尖学生之间有着巨大的数量级差距，如果真的明白了这一点，就不会对本土车企研发的大型车型抱有太高的期望。

写在最后

车载大模型的实际性能与消费者的心理预期存在一定差距，这主要是由于消费者的“乐观”估计造成的。我记得比尔·盖茨曾经说过，“人们倾向于高估未来一两年将取得的成就，而低估了未来十年将取得的进展。这句话的前半部分很可能适用于GPT，这是一项划时代的新技术。

后半句话呢？在比尔·盖茨和黄仁勋等大佬眼中，GPT模型是几十年来最伟大的技术发明，模型的未来值得期待。因此，我们不妨对车内的大模型保持谨慎和乐观。

车载模型是原子弹还是茶蛋？

相似文章

原子弹爆炸后的广岛和长崎

原子弹制造的真相大白于天下！

麦克阿瑟原子弹提案

原子弹之路曼哈顿计划（II）。

通往原子弹之路曼哈顿计划（III）。