继里程、车内大屏、智能驾驶之后,电动智能汽车卷起了高端人工智能。
12月20日,星途星时代ES搭载奇瑞“雄狮AI”大车型10日,理想汽车5岁OTA 版本 0 召开发布会,重点介绍车上一款名为 Mind GPT 的大型模型;此前,GPT车型文心一妍已经分别搭载了极月01和银河L6;文捷、小鹏汽车、蔚来汽车、长城汽车也纷纷研发或联合开发自己的大车型,华为盘古、XGPT灵犀、诺米GPT、咖啡GPT计划分别安装在M9、X9、ET9、蓝山车型上。 梅赛德斯-奔驰正在探索在海外直接上车的ChatGPT模式。
但从功能上讲,现阶段的大多数GPT更像是车内的“娱乐项目”,回答问题,生成一段文字或一张图片。 “我们还要做一辆与汽车相关的汽车,只是复制手机上可以实现的功能,感觉毫无意义。 某汽车公司的研发人员对目前在汽车上的GPT发表了评论。
公交车上的GPT,是时尚还是战略布局?
可以“控制”汽车的理想 MIND GPT
它只能用作“娱乐项目”,因为大多数 GPT 目前更像是车上的乘客,只能聊天,而不是车辆的一部分。
在连接性方面,大多数GPT仍然在云端,通过互联网“上车”,只能通过屏幕和音响系统接收人类的输入,并输出。 当有人说“我很冷”时,不可能像目前的语音助手那样调高车内空调的温度。
在《电动汽车观察家》的不完全统计中,理想的MIND GPT相对领先,已经具备了一定的驾驭汽车的能力。
目前,Mind GPT在云端和车端都有模型,规模不同,责任范围也不同。 除了“聊天”。Mind GPT可以在车内调用“车辆控制、行驶、**”的API(应用编程接口),配合语音助手系统提供服务和响应。
比如想吃火锅,只需要告诉理想中的同学,我们的车机界面就会生成火锅的**供你选择,自动计算出行路线等,实现一系列高效自然的操作。 理想汽车空间软件负责人李涛在接受采访时举了一个例子。
在这背后,语音助手感知到语音和视觉信号后,mindgpt对其进行识别和理解,并自行判断是否生成命令(调用搜索导航功能)。 如果决定生成指令,则该指令用于调用外部接口或向车辆机器进行执行和语音反馈广播。
MindGPT 必须考虑何时调用哪个 API,传递哪些参数,并根据 API 返回内容生成回复,这是一套新的基于大型模型的代理(人工智能**)架构。 理想汽车的一位研发工程师告诉《电动汽车观察家》。
未来:从语音助手到人工智能代理
以前,“调用哪个 API,传递什么参数,根据 API 返回内容生成什么样的语音”都是由人类工程师完成的。
目前,包括智能手机、智能座舱在内的电子设备或应用产品,基本上都是由工程师封装成图形化的UI,用户可以按照一定的规则点击实现。
例如,点击“**模式”,点击二级页面的“fm”模式,点击**页面的“频道”模式,实现“收听广播”的功能。
VOS(语音操作系统)模块架构。
目前,语音助手可以实现通过语音发送人类指令,但底层仍然是应用封装路径对应的语音指令库来实现功能。
在这种模式下,交互和功能是固定的和不灵活的,但约束和准则是明确的。 因此,新系统的学习成本对于人类来说是很高的,但一旦实现,功能实现的成功率就极高。
GPT 提供了另一种交互方式。
虽然GPT和VOS(语音操作系统)的核心模块属于NLP(自然语言模型),但它们具有以往NLP模型所不具备的理解和推理能力。
以前,NLP模型主要用于识别“你在说什么”。例如,“冷”、“开放”、“等”。 GPT具有通过上下文和环境信息理解“单词含义”的能力例如,在谈话过程中,对“你(笑话)太冷了”的回应不是打开空调,而是讲一个“温暖的笑话”。
因为GPT可以根据提示进行扩展、完成、改进,从而生成新的文本内容,甚至可以将其转换为**、语音等其他模态。
提示是向模型提供输入以指导模型生成特定输出的文本或指令。 然而,与通常需要明确甚至单一提示的语音助手不同,GPT 提示可能复杂而模糊。
就像人类经常忘记一样,但当被提示时,他们会立即记住。 这个“提示”可以是一句话、一个词,甚至可以是一个没有直接关系的场景或物体。 提示用于帮助 GPT 回忆他们在预训练期间“学到”的内容。 预训练越丰富,对语言的理解就越深。
当这种理解与调用API的能力相结合时,人与机器之间的交互不再是通过手操作机器,而是与助手通信以完成任务。
以原有的算力,没有办法解释你的意图,所以使用GUI来预设你的意图。 现在有了 LUI(语言接口,基于 GPT 理解),它可以解释您输入的所有意图,然后灵活匹配所有 API。 蓝湖&Mastergo创始人任阳辉表示:“我认为未来所有的能力都可能同质化,比如可以买货、订机票、订酒店等等......在任何应用程序中只要你说话,就没事。 即使这个 API 在这个应用程序中不可用,它实际上可以在 API 市场中调用,并且可以随时提取。 ”
演示:伪场景和基本准备
搭载新款梅赛德斯奔驰e的“场景”功能。
事实上,除了聊天和画画之外,很多车企也在探索赋予GPT一定数量的车控能力,基于车内人的状态和表情,自由组合一些基于场景的功能。 “但据我所知,GPT可以应用的场景是相对低频的,不需要车机占据手机能做的事情。 上述车企研发人员表示。
就像GPT本身还没有形成商业模式一样,GPT也还没有找到一个可以被人们高频使用的场景。
另一方面,车辆的算力与GPT要求之间存在巨大差距,降低了模型的性能。 完全依赖云计算能力意味着延迟增加,这对于高安全性的汽车来说是不可接受的。
然而,在探索过程中,汽车智能化和GPT的方向是一致的。 目前,小鹏汽车、智际、奔驰等多家国内外车企推出的“场景”功能,车主只需简单的编程,就可以组合成新的应用。 在它的背后,它由数百甚至数千个封装的原子级 API 支持。 而这些原子级的能力,也将为GPT未来作为助手调动资源提供基础。