在过去的二十年里,自动驾驶技术取得了重大进展,一些高度自动化的汽车已经上市。 不久前,我们分享了一个机器人实验,涉及理解复杂的指令。 如果大型语言模型(LLM)能够理解并执行自动驾驶汽车的口头指令,不再局限于简单的命令,如“嘿XX,打开天窗,关掉空调”,而是涉及复杂的指令,在道路上实际操纵汽车,那将是多么神奇的体验。
本文的作者介绍了Talk2Drive,这是一个自动驾驶框架,它利用LLM来解释和响应各种人类命令,尤其是那些抽象或情感的命令,同时利用历史交互数据来实现个性化的驾驶体验。 与需要精确输入的传统系统不同,Talk2Drive框架允许与车辆进行更自然、更直观的通信。
本文将深入探讨LLM在自动驾驶决策中的作用,并讨论车辆配置、感知系统和通信设备等技术,以及这些技术如何协同工作以实现真实道路上的自主导航。
**主题
large language models for autonomous driving: real-world experiments
链接
与传统系统相比,LLM在自动驾驶方面具有以下优势:
对抽象表达的理解传统系统难以理解人类的抽象指令,而LLM能够理解和适应各种人类情感和上下文线索。 个性化您的驾驶体验:LLM通过提供基于人类历史偏好和命令的个性化驾驶模式来增强驾驶体验。 实时性和安全性:LLM 在处理复杂的人工指令时具有低延迟,这对于实时应用程序和安全关键场景至关重要。 Talk2Drive框架是一种用于自动驾驶规划和控制任务的创新方法,它将基于云的大型语言模型(LLMS)与真实世界的车辆动力学相结合,以个性化的方式响应人类输入,如图1所示。
图1Talk2Drive框架结构。
这是确保准确翻译用户口头指令的框架的第一步,通过整合实时环境数据,系统可以更全面、更智能地理解和处理这些指令。
talk2drive框架从先进的语音识别技术开始识别人类口头命令。口头命令它被翻译并转换为文本指令这一步的关键是确保口语的内容和细节可以准确地转换为文本格式。 同时,LLM 访问基于云的实时环境数据,包括天气更新、交通状况和当地交通规则信息集成上下文数据以文本格式呈现,在决策过程中发挥关键作用,确保系统的响应考虑到上下文的上下文。
在本节中,LLM 用于处理和推理文本命令,这些命令是框架中的关键步骤,使系统能够理解复杂的、上下文丰富的指令。 LLM 在推理过程中解释这些文本命令。 此步骤的目标是让 LLM 理解用户的指令并做出相应的决策。 此外,LLM 可以与上一步中提供的上下文数据相结合。
LLM 推理过程的输出是可执行的,用于规划和控制车辆行为。 受“战略即战略”概念的启发,这一步骤生成的不仅仅是一系列简单的指令,这些指令涉及复杂的驾驶行为和参数微调,这些都需要在车辆的底层控制器中完成。 这包括微调控制参数,如前视距离和前视比,以及根据驾驶员的口头指示修改车辆的目标速度。
这个过程已经实现从语言模型生成到实际驾驶行为的过渡并通过了安全检查这确保了整个过程的可靠性和安全性。
LLM生成的**通过云发送回车辆的电子控制单元(ECU),并在ECU中执行。 talk2drive 框架为生成的 **设置了两个安全检查:
先检查生成的 ** 的格式是否有效如果它不符合有效的格式,框架将不会提供与生成相关的反馈或操作,从而确保生成在结构上是正确的,以避免可能的错误。 另一项安全检查涉及:参数验证评估给定参数在当前情况下是否合适和安全。 此步骤有助于防止执行潜在危险**,并确保生成的**适合车辆且安全。 执行涉及调整车辆规划和控制系统中的基本驾驶行为和各种参数。 执行器通过CAN总线和电子控制驱动系统控制油门、制动器、档位选择和转向,如图2所示。 这确保了LLM生成的**能够准确地引导车辆执行适当的驾驶行为。
图2 自动驾驶功能模块和消息流
该模块为talk2drive框架引入了个性化的驾驶体验,通过记录、分析和利用历史交互数据使系统变得更好智能适应用户的驾驶偏好。这种新的内存模块的目的是存储人与车辆之间的历史交互,重点是增强个性化的驾驶体验。
人与车辆之间的每一次互动都会被记录下来,并以文本格式保存到ECU内的内存模块中。 记录包括人类口头命令、生成的 LLMS**和人类反馈。 每次行程后,记忆模块中的历史数据都会更新,并实时记录与车辆的每次交互,以反映用户与车辆的最新状态和偏好。
如果用户对类似命令的反应不同,LLM 将使用最新的反馈作为其当前决策过程的参考点,这可以满足用户可能不断变化的偏好。 当用户发出命令时,LLM 会访问内存模块,并将存储的信息用作决策过程输入提示的一部分。
车辆的行驶轨迹是通过记录一系列航点来生成的,这些航点在局部坐标系中表示车辆的位置信息,并构成车辆的预定行驶路线。 轨迹跟踪模块的主要功能是使飞行器能够按照指定的航点序列进行导航。 它通过加载选定的曲目来启动整个过程。
系统根据当前目标路径不断检查车辆的当前状态,并计算它们之间的距离,称为前瞻距离。 此前瞻距离用于确定车辆是否足够接近当前航点。
如果飞行器离当前路径足够近,则当前目标路径将更新到下一个航点。 如果飞行器与当前目标航点之间的距离没有达到设定的最小距离,系统将继续通过纯跟踪算法导航到原始当前目标航点。 重复上述过程,直到车辆到达最终路径,此时算法结束。
图3 轨迹跟踪流程图。
作者在自动驾驶系统中使用纯跟踪算法作为路径跟踪方法。 其输入包括目标航点、前方距离和所需速度,生成用于车辆控制的车轮角度和当前加速度。 纯跟踪算法的核心思想是利用前方距离、转弯半径、前瞻点的方向角来计算前轮旋转角度,然后利用计算出的前轮旋转角度和预期车速来实现对目标航点的跟踪,如图4所示。
图4 纯跟踪路径跟踪算法示意图。
实验。
图 5 实验中真实自动驾驶汽车的设置。
自动驾驶汽车平台的传感器套件和连接设置如图 5 所示。 实验测试轨道如图 6 所示,测试的指定轨迹形成一个矩形环,其中包括一个允许连续速度和控制评估的长直道,以及每个角落的拐角。
图6 实验场地图。
在实验中,受试者被分为三组,这些组内的成员在驾驶行为方面具有相似的趋势。 然后,受试者被要求在三个层面上制定命令(直接、习惯和非习惯性间接策略)。 它通过talk2drive框架进行处理,该框架初始化轨迹跟踪模块。 每个命令都使用四种不同的语言模型进行处理,收集速度和响应延迟等数据点,然后计算评估指标。 为了建立速度差异和速度方差的基线,还要求不同组的人类驾驶员在同一条轨迹上行驶,并将其数据的平均值作为基线值,表1显示了这些评估指标的具体值。
表 1 不同 LLM 模型和命令类别的 Talk2Drive 结果。
理解:使用速度差异来评估 LLM 模型理解间接命令的能力。 在框架中测试的所有 LLM 都能够理解不同速度意图类别的速度命令,并以 100% 的成功率准确地将其转化为执行**。 安慰:为了评估舒适度,测量了速度变化和加速度。 结果表明,速度差和平均加速度没有明显超过基线,而平均加速度下降没有超过“优秀”驾驶体验的建议阈值。 这表明通过talk2drive进行速度调节对驾驶舒适性没有显着影响。 延迟:从初始化 LLM API 调用到成功接收命令文本的持续时间被考虑在内。 结果表明,GPT-3 具有最短的延迟,这可能是由于其较小的模型尺寸。 GPT-4 和 Palm 2 稍慢,GPT-4 的延迟更稳定,也可能与用户数量有关。 在测试过程中,评估了talk2drive集成前后的接管率,并通过模拟不同驾驶风格的人类驾驶员来模拟各种驾驶场景。 当驾驶员认为轨道跟踪模块的默认速度设置太快或太慢时,他们就会接管车辆。 如表2所示,Talk2Drive的集成使驾驶员能够以更直观和个性化的方式与系统进行交互,通过口头命令传达他们对速度的偏好。 这种能力的提高反映在实际驾驶场景中接管率的显著降低上,表明该系统更好地适应了驾驶员的偏好,并改善了整体用户体验。
表2 收购率比较分析
同时,还表明内存模块的引入显著降低了接管率,这说明了历史模块在实现更个性化的驾驶体验方面的优势。
本文演示了LLM在Talk2Drive框架中的创新应用。 实验结果表明,talk2drive框架使自动驾驶汽车能够有效地理解和执行复杂的、上下文丰富的人类命令,为驾驶体验提供更高水平的个性化。 这也标志着Talk2Drive成为第一个在真实世界的自动驾驶汽车上成功部署LLM的框架,并以100%*的执行成功率为自动驾驶技术树立了新的里程碑。
然而,在确保数据安全的同时,在实际场景中实现LLM对汽车的复杂驾驶,涉及反应速度和解释指令的能力,仍然具有挑战性。 我们期望在未来的研究中探索与其他智能交通系统和物联网设备的深度融合,以创建更智能的城市交通网络,共同打造更智能、更高效的城市交通网络。 我们期待自动驾驶技术的进一步发展,为未来的出行带来更便捷、安全、个性化的新体验