编辑搜索图像。
喊了一年,智能驾驶模式现在在哪里?作者 | janson
编辑 |果汁大模+自动驾驶的口号喊了一年,现在进展如何?在年初大模型爆发后,业内人士正在考虑将大模型技术与自动驾驶相结合。 特斯拉率先推出Transformer+BEV端到端技术架构,随后在行业内率先引入占用网络技术。 在采访中,这位清华大学教授直言不讳地表示,特斯拉已经领跑行业三年了。
华为、小鹏、陌陌智行、智佳科技、TiRE1等国产主机厂在年底都展示了最新进展。 但经过一年的发展,进步似乎并不那么明显。 无论是 ads20或XNGP,两者都还没有达到智能驾驶模式的所谓“通用”智能驾驶性能,而且每个公司都或多或少地将其局限在特定的城市或特定的场景中,距离“通用”智能驾驶还有一段距离。 与文本信息的数据量相比,智能驾驶赛道面临的数据量可以说是呈指数级增长的。
在基于大数据的自动驾驶领域,需要处理来自不同传感器的数据,如激光雷达、毫米波雷达、超声波雷达,以及高清摄像头和GNSS。 这些数据具有不同的时空属性,还需要考虑硬件损坏与数据可靠性之间的相关性。
此外,大型车载模型还需要大量的场景数据,包括交通标志线、交通流和行为模型。 这使得大型车型开发和训练的门槛相当高。
编辑搜索图像。
特斯拉的3D视觉模式。
同时,从视觉方案迭代的角度来看,从早期的CNN到BEV,再到现在主流的Transformer+BEV,都考验着研发团队的技术积累。
今年,以特斯拉为代表的企业走出了占用网络,占据了网络技能树,再次将研发难度、研发投入和技术底线带到了一个新的高度。
不过,与年初相比,那些高喊“大车型上车”的主机厂和解决方案提供商似乎已经“凋零”,不再依靠单纯的宣传为首款车转向可用性和可靠性的提升。 不难看出,在年底智能驾驶大模“沉寂”的背后,是大模“混战”中各厂商的技术停顿。 至于接下来的比赛,谁能脱颖而出,就只能用技术性能和产品来说话了。 本文福利:大型模型赋能自动驾驶,去哪儿了?分享手册 “国内车企在自动驾驶中采用大模型技术,产品不断迭代更新。 ,对话框将回复 [Car Thing 0568] ** 报告。
推荐我们的年会。 12月19日,2023全球自动驾驶峰会将在深圳举行。 主会场设有开幕式,以及高端智能驾驶、大模型、算力三场专场。 分会场将举办深圳南山智能网联汽车政企交流会、自动驾驶分析师论坛、自动驾驶BEV感知技术论坛。
其中,清华大学邓教授、Uniad作者李红阳、极家科技创始人黄冠、盛启科技创始人兼CEO孙琦、凯王数据创始人兼CEO于旭、智基汽车智能驾驶软件高级经理尹伟等将带来关于大型视觉语言模型等话题的演讲和讨论, 端到端自动驾驶、世界模型、数据闭环、自动副驾驶、大模型车辆量产交付。扫描二维码注册
01.大车型的普及持续成为智能驾驶玩家的必经之路,小鹏、理想等主机厂,以及华为、陌陌智行、智能驾驶科技等解决方案提供商今年开始转向BEV+Transformer技术路线,并或多或少推出了一些在车上落地的产品或解决方案, 我们可以尝试从目前的进展中窥见国产智能驾驶大车型的发展现状。从技术路线来看,国内厂商已基本将技术路线转向BEV+Transformer。
编辑搜索图像。
国内主流智能驾驶玩家的技术路线。
在应用速度方面,使用BEV+Transformer的企业使用小鹏汽车的XNGP、BEV视觉感知系统XNET和华为的ADS2以0为代表,基本上所有产品都经过训练,在汽车上实现车载大模型。 其中,小鹏汽车的XNet可以从BEV角度输出4D动态信息(如车速、运动**等)和3D静态信息(如车道线位置等),可以更好地辅助系统进行决策。 此外,小鹏汽车在XNET2中Part 0 也开始逐步引入占用网络技术。 还有华为的ADS20 还加入了自主研发的基于视觉融合算法的 GOD 网络技术,依靠激光雷达等传感器,使整个系统获取的信息更加充分。
编辑搜索图像。
小鹏XNGP
理想和蔚来都选择在BEV+Transformer算法架构的技术中加入占用网络算法,因此应用速度比前两者略慢,无论是复杂交通环境识别的Ideal成熟度,还是蔚来的多模态神经网络大模型,实现进度都比较缓慢,或者应用范围仍然有限。 从目前的进展不难看出,在选择加入占用网络算法的企业中,对研发能力和信息处理的要求都提升到了更高的层次。 但不可否认的是,一旦选择占用网络算法的企业将产品落地到车上,与全面采用BEV+Transformer算法架构的企业相比,将实现“半代”领先。 陌陌智行的MANA感知架构、Nume的MAXdrive一体化驾驶泊车解决方案、MaxiEye智能驾驶技术的maxipilot 20是基于BEV+Transformer技术架构做出更通用的大模型智能驾驶解决方案,它们可以对纯视觉解决方案和视觉融合解决方案做出相应的适配,帮助车企完成覆盖不同成本的智能驾驶解决方案。
编辑搜索图像。
MANA 感知架构。
虽然到了今年年底,各家企业都或多或少地拿出了自己智能驾驶车型在这段时间里的解决方案或实际产品。 但是,实际的汽车数量仍然不是很理想。 从实际覆盖范围来看,目前官方确认的只有上海、广州、深圳、重庆、杭州、北京等6个城市。 尽管华为曾声称,在年底新款M7发布时,城市地区的NCA将在全国范围内可用,但目标与目标的实现之间仍有很大差距。 小鹏汽车在城市NGP方面取得了长足的进步,已在全国25个城市推行了城市NGP功能,成为中国数量最多的城市智能驾驶城市。 但需要注意的是,在25个新城市名单中,常熟、太仓、昆山等部分城市在行政区划上属于苏州市,因此可以说,小鹏第二批开城的最小单位是县级市,规模略有缩小。 理想汽车经历了一次目标的转变,从最初的城市NOA导航辅助驾驶,到通勤NOA,再到全场景智能驾驶NOA,目标反复水平跳跃。 目前,理想汽车12月全场景智能驾驶NOA“正式版”将覆盖全国100个城市的高速、环路,但具体实施情况尚未公布。 此外,其他一些玩家目标也出现了不同程度的缩水,其城市NOA功能也未被大规模推送给用户。 虽然车载大车型的最终目标是“通用化”智能驾驶辅助,但通用性较弱的特定城市或特定场景下的智能驾驶功能仍未广泛开放。 不难看出,在基于大模型的智能驾驶技术研发中,一方面,各厂商都从负责任的角度出发,对智能驾驶领域新技术的应用和推广持谨慎态度。 另一方面,智能驾驶模型的开发和应用在技术上仍然相当困难,在短时间内克服它仍然不现实。 对此,清华大学教授邓志东曾在采访中表示:特斯拉从2024年开始推动这个(智能驾驶)领域,作为领先的新能源汽车制造商,他们积累了全球最丰富的数据资源。 今年3月之后,中国才开始加速布局这一领域,而中国和特斯拉之间至少有三年的差距,因此在短时间内超越特斯拉是一个挑战。 由此可见,在国产智能驾驶模式的道路上,不是急于求成,也不符合客观规律,一步一个脚印才是发展之道。 02.特斯拉优势明显,BEV+TRANSFORM路线车载大车型的研发,以及占据网络的算法的引入,是各车企在自动驾驶领域竞争的重要技术方向。 首先,BEV+TRANSFORM技术路线具有良好的通用性和灵活性,能够适应不同场景下的自动驾驶需求。 此外,该技术路线可以减少对高精度地图的依赖,减少自动驾驶技术对主机厂或解决方案提供商地图建图资质和数据安全要求的依赖,通过实时感知和数据处理,使车辆能够更好地适应道路环境的变化,提高驾驶的安全性和可靠性。
编辑搜索图像。
特斯拉的决策逻辑。
其次,该技术路线可以提高自动驾驶的感知能力,通过引入占用网络,可以更好地处理复杂场景下的遮挡和交互问题,提高感知结果的准确性。 同时,占用网络的引入还可以降低自动驾驶系统的成本,与传统的激光雷达+高精度地图方案相比,BEV+TRANSFORM技术路线在感知上具有更高的性价比。 需要知道的是,取消高清地图和激光雷达有利于降低车辆成本,促进自动驾驶技术的进一步普及。 最后,BEV+TRANSFORM技术路线和占用网络应用是自动驾驶感知领域的重要研究方向,有利于在技术竞争中完成技术储备和技术迭代。 要知道,在当前OEM厂商和解决方案提供商的竞争中,谁有机会,谁就能在这场“混战”中离功能更近一步,拿到一张有潜在盈利的门票。 在自动驾驶领域,特斯拉绝对是最具前瞻性的公司之一。 从2024年开始,特斯拉就开始布局自动驾驶软硬件的自主开发,并将算法和芯片的自主开发列为这些年的发展重点。 2024年,特斯拉发布FSD Beta,率先将算法从原来的2D+CNN路由升级为BEV+TRANSFORM路由。 首先需要了解的问题是BEV+TRANSFORM路线的优势是什么。 Transformer采用深度学习习神经网络,具有特征提取的优势,可以实现全局理解,从而增强模型的稳定性和泛化能力。 通过位置编码的方式,可以更好地处理序列数据中的位置信息,从而更准确地理解序列中元素之间的关系。 CNN在处理序列数据时,往往需要将序列数据转换为图像数据,这可能会导致位置信息丢失。 BEV是Bird's Eye View的缩写,是一种将三维环境信息投射到二维平面上,以自上而下的视角显示环境中的物体和地形的方法。 与传统的小模型相比,BEV+Transformer提升了智能驾驶的感知和泛化能力,有助于缓解智能驾驶的长尾分类。 在感知能力方面,BEV统一视角,将激光雷达、雷达、摄像头等多模态数据融合到同一平面,可以提供全局视角,消除数据之间的遮挡和重叠,从而提高目标检测和跟踪的准确性。 Transformer 模型中的自注意力机制允许各个元素在计算时相互独立,这使得模型更容易进行并行计算,从而提高计算效率。 然而,CNN模型中的卷积运算往往需要考虑相邻元素之间的关系,这可能会导致并行计算的难度。 在泛化能力方面,Transformer模型可以通过自注意力机制实现全局理解的特征提取,有利于发现事物本身的内在关系,使智能驾驶学会总结总结,而不是机械地学习习。
编辑搜索图像。
Transformer 模型算法示意图。
同时,Transformer模型能够同时考虑输入序列中的所有元素,从而更好地捕捉序列数据中的长距离依赖关系。 然而,CNN模型在处理序列数据时,往往需要通过卷积运算逐步捕获局部特征,这可能会导致长距离依赖关系的丢失。 在此基础上,2024年,特斯拉在算法中引入了时间序列网络,并将BEV升级为占用网络。 占用网络是一种基于深度习的三维目标检测方法,可以有效改善物体在三维空间中的位置和形状,从而有效解决从模型到三维到二维过程中的信息丢失问题。 纵观中国的进展,CNN无疑面临淘汰,没有多大讨论价值。 从感知算法的进步来看,从2024年开始,整个行业基本逐步将算法升级为BEV+Transformer路线。 这样一来,特斯拉基本上可以说是第一批采用BEV+Transformer技术的企业。 03.智能驾驶车型开发存在诸多难点,需要突破的问题很多,自动驾驶车型需要大量的资源和投入来支持其运行。 在感知层面,自动驾驶系统需要处理来自不同传感器的数据,如激光雷达、毫米波雷达、超声波雷达,以及高清摄像头、GNSS等。 这些数据具有不同的时空属性,如何有效整合这些数据,提高数据处理的效率和准确性,是智能驾驶模型的首要问题。 此外,智能驾驶赛道面临的数据量呈指数级增长,如何高效存储、处理和分析这些海量数据,以便在大模型中实现更精准的**和决策,对企业和研究人员提出了更高的要求。 对此,在智能驾驶技术领域,这条赛道上的三座山峰分别是模型训练的局限性、车载算力的不足以及组网应用存在的问题。 在模型训练方面,一是高质量数据采集成本高,且某些特定驾驶场景的数据难以获取,导致模型在泛化能力和准确性方面存在缺陷。 其次,深度学习习模型依赖于大量的标注数据进行训练,手动标注过程不仅费时费力,还可能引入错误。 此外,在训练数据有限的情况下,模型容易出现过拟合,即在实际应用中面对新数据时性能下降。 此外,在车载算力方面,与服务器相比,车载硬件的算力有限,为了实现车载算力和成本之间的平衡,往往需要更有效的识别算法和决策算法来保证。 这样在一定程度上可以解决只有高端智能驾驶模型才能使用的算力限制,提高智能驾驶模型的通用性。 在互联应用方面,智能驾驶依赖于大量的数据传输,包括车对车和车对云通信。 然而,现有的数据传输技术可能会受到网络延迟和数据丢失等问题的影响。 同时,智能驾驶的网联性也可能带来安全隐患,因此保障数据安全和隐私成为重中之重。 最后,由于缺乏统一的标准,不同车辆和设备之间的数据通信变得困难,限制了智能驾驶网联的广泛推广。 同时,车载大模型需要强大的算力和存储设备支撑,而目前的车载硬件设备在算力和功耗方面仍存在局限性,如何在这些约束下实现大模型的部署和优化是智能驾驶大模型面临的关键问题。 至于模型的局限性,与大模型的概念相比,国内一些学者提出了通用模型的概念。
编辑搜索图像。
Lee提倡团队uniad的概念。
今年5月,上海人工智能实验室青年科学家李红阳团队发表文章,首次提出感知与决策一体化的自动驾驶通用模型,并获得CVPR 2023 Best **奖。 这也是CVPR顶级会议40年历史上首次颁发自动驾驶领域最佳奖项。 李红阳团队提出了一套面向目标的自动驾驶算法方案(UNIAD),其设计理念是采用端到端架构,以规划为最终目标,集成所有自动驾驶模块。 李红阳表示,这个方案与MTL、特斯拉的区别在于,后者试图在所有任务上实现最佳性能,而他们的方案则侧重于规划的结果。 此外,据**报道,除了当时会议上的技术阐述外,李红阳还提出了一个尖锐的观点:“我认为现在这个行业还没有自动驾驶的大模型。 我们给Uniad工作的定义也是自动驾驶的通用模型,而不是一个大模型。 “如果自动驾驶模型最终发展成一个感知模型,这并不完美,它可以在一般视觉中完成。 这也代表了国内一些学术界对智能驾驶模式的新理念:避免重创轮子,提高通用性,弥补算法和资源的不足。 然而,这只是解决模型局限性的一种手段,至于目前智能驾驶模型中普遍存在的其他问题,仍然需要技术的不断发展和时间的积累来解决。 04.结论:尽管智能驾驶模型在技术研发、数据采集与处理、硬件设备等方面面临诸多挑战,但要把大模型搭在车上还有很长的路要走。然而,随着科技的不断进步,各类玩家纷纷加入竞争,推动着技术的不断发展,可以预见,在不久的将来,智能驾驶车型上车是必然趋势。 然而,要实现大模型在自动驾驶等领域的广泛应用,还有很长的路要走。 一方面,在未来的发展中,需要攻克当前的技术难关,促进大规模模型技术的成熟和商业化应用。 另一方面,也要摒弃重科技领域的“营销思维”,在数据处理、感知决策、算力匹配之间精心平衡,让真正符合智能驾驶趋势的车载大车型早日面世。