作为一条大赛道,人形机器人还撰写了40多篇关于各模块的分析对比文章,并代表了公司。 今天就和大家分享一下人形机器人的大模型,如果你对人形机器人相关产业链上的公司感兴趣,可以查看我主营业务下栏的文章列表,或者直接点击最近文章的链接如下:
第25章:人形机器人离商业化还有多久? 从企业机器替代的投资回收周期中扣除。
第45章 揭秘:人形机器人的核心部件在国内外头无芯电机参数上展开竞争。
介绍:在人工智能的浪潮下,人形机器人以其独特的魅力和广阔的应用前景成为科技领域的热点。 然而,尽管市场需求巨大,但人形机器人的商业化之路却步履蹒跚。 在本文中,我们将研究人形机器人在商业化过程中面临的共同挑战,并分析大型模型如何成为解决该问题的关键。
1、人形机器人商业化的痛点:通用性有限
1. 多功能性有限的挑战:
多功能性是人形机器人商业化的关键。 然而,如今的人形机器人往往需要高度专业化的用户操作,并且只能在特定场景中工作。 这种限制使人形机器人难以适应不断变化的现实世界,限制了其商业化的可能性。
*:on the opportunities and risks of foundation models
二、机器人模型在拓宽通用性中的作用
1、软硬件异步问题
在人形机器人的发展中,硬件的进步为人形机器人提供了坚实的物理基础。 然而,软件升级是商业化的关键。 软件的智能化,特别是大模型的应用,可以使机器人更好地理解和适应环境,从而实现更广泛的应用。
例如,波士顿动力公司的Atlas采用电液混合驱动结合IMU、编码器、摄像头、激光雷达和力传感器,实现跳跃、后空翻等高难度动作,在运动能力方面绝对是行业标杆,但这些动作都是从预先创建的行为库中衍生出来的,并没有真正适配的软件模型来做智能泛化适配。
2.机器人的大脑和小脑:
在机器人的控制系统中,大模型扮演着“大脑”的角色,负责高层任务规划和决策。 另一方面,“小脑”负责低级运动控制。 这种分层控制策略使人形机器人能够在复杂环境中灵活地执行任务。
*:ROKASHI机器人韩凤涛。
3.人形机器人大型模型的理想大脑:
通过深度学习和强化学习,大型模型能够理解和执行复杂的任务。 他们不仅能够处理视觉和语言信息,而且还能够理解物理世界的基本规律。 这种强大的泛化能力使人形机器人能够在各种场景中执行任务,这大大提高了它们的通用性。
*:on the opportunities and risks of foundation models
3. 人形机器人模型需要具备的关键能力
机器人模型的最终目标是提高人形机器人在不同场景和任务下的成功率。 对于有限的应用场景和任务,大型模型需要具备自主可靠的决策能力、多模态感知能力、实时精准的运控能力。 为了扩展到各种复杂的应用场景和任务,大型模型还需要具备泛化能力和涌现能力。
1、多模态感知能力:
为了在复杂的环境中做出正确的决策,人形机器人需要能够通过视觉、听觉和触觉等多种感官获取信息。 大型模型需要整合这些多模态感知数据,以实现对环境的全面理解。
2. 能够做出独立可靠的决策
在执行任务时,人形机器人需要能够理解任务的复杂性,并将其分解为一系列可执行的子任务。 这就要求大型模型具有较强的语言理解能力和对物理世界的深刻理解。 例如,机器人可能需要了解“清洁房间”的任务,包括识别哪些物品需要移动,哪些物品需要丢弃。
3、实时精准操作控制能力:
在执行任务时,人形机器人需要实时调整自己的动作,以适应环境的变化。 这需要一个大型模型,可以快速处理感知信息并精确控制机器人的运动。 例如,机器人需要实时调整其步伐,以避开行走时的障碍物。
4、泛化能力:
大型模型需要能够在以前从未见过的新环境中执行任务。 这意味着模型不仅必须在训练数据上表现良好,而且还必须能够适应新的未知情况。
5.紧急能力:
除了在训练数据上的表现外,大型模型还应该展示超出训练范围的执行能力。 这种能力使机器人能够展示应对新挑战的创新解决方案。
四、大型模型相关人形机器人的介绍
人形机器人大模型主要基于谷歌Deepmind的RT相关模型,以及特斯拉、英伟达和Voxposer在机器人方面的布局,国内厂商主要是华为、中科院和科大讯飞等具有大模型和硬件布局能力的国产厂商。
1、autort:
Google Deepmind 提出的 AutoRT 系统结合了大型基础模型(如大型语言模型 LLM 或可视化语言模型 VLM)和机器人控制模型(如 RT-1 或 RT-2),用于在新环境中部署机器人并收集训练数据。
2、palm-e:
PALM-E 是 Google Deepmind 开发的大型多模态模型,它结合了强大的语言模型 PALM 和视觉模型 VIT。 PALM-E 拥有 5620 亿个参数,在处理语言、视觉和视觉语言任务方面表现出色,并在 OK-VQA(开放域视觉问答)任务上实现了最先进的性能。 其主要特点包括:1)自主决策:PALM-E能够理解复杂的自然语言指令,并将其转化为具体的行动计划。2)多模态感知:模型能够对图像和文本信息进行处理和理解,实现跨模态的理解和推理。
*:palm-e: an embodied multimodal language model
3、rt-2:
RT-2 是 Deepmind 开发的端到端机器人具身大模型,基于 Transformer 架构,模型为 VLA(Vision-Language-Action)模型,有机地结合了自主决策、多模态感知、实时精准操作和控制等多种能力,提升了机器人的整体性能。 其主要功能:1)VLA(Vision-Language-Action):RT-2能够理解视觉信息,处理自然语言指令,并执行相应的动作。2)多能力组合:RT-2有机结合视觉理解、语言处理、动作执行等多种能力,提升机器人的智能水平。
*:rt-2: vision-language-action models transfer web knowledge to robotic control
4、rt-x:
RT-X 是由 DeepMind 开发的机器人模型,该模型已在多个数据集上进行了训练,以全面提高其能力。 RT-X 在视觉理解、语言处理、动作执行等方面得到了增强。 该模型在多个数据集上进行训练,全面提升了多模态感知、自主可靠决策、实时精准云控、泛化涌现等能力。 它代表了当前人形机器人模型的最高水平,预示着未来机器人的发展方向。 其主要特点包括:1)RT-X在多个任务上表现出更高的性能,包括视觉识别、语言理解、行动计划等。2)泛化能力:在多数据集上训练后,RT-X对新任务和新环境的适应性得到增强。
*:open x-embodiment: robotic learning datasets and rt-x models
5.特斯拉的人形机器人模型:
特斯拉在大模型领域的布局主要体现在其名为Optimus的人形机器人项目上。 Optimus使用与特斯拉汽车相同的计算机视觉,一个处理视觉数据、做出行动决策并支持通信的“大脑”,以及与特斯拉汽车相同的芯片。 特斯拉正在利用其积累的自动驾驶技术将其应用于人形机器人的开发。
在大型车型的具体应用方面:特斯拉将把FSD系统中使用的大型车型的核心技术能力应用到Optimus上,使其具备先进的感知、决策和执行能力。 这包括使用类似 Dojo 的计算资源来训练和优化 Optimus 的 AI 模型。
6. Voxposer大模型:
谷歌部门的几个大型机器人模型的总体思路是专注于任务理解、拆分和逻辑推理,很少涉及机器人运动控制本身的规划,尤其是规划问题,而是在端到端的训练方法中生成了简单离散的机械臂末端位置和底盘运动指令, 不考虑更机器人领域的内容,如连续路径和轨迹规划。
Voxposer利用VLM和VLM的能力,将机器人的观察空间(一般是三维空间和待操纵的物体)转换为3D值图,然后利用成熟的路径搜索算法(Voxposer使用概率路线图)在3D值图上搜索并生成可用的机器人运动路径。 有了可用的路径,机器人运动的下一步轨迹规划和控制是当前机器人领域中一个比较好的问题。
*:composable 3d value maps for robotic manipulation with language models
7.NVIDIA ISAC机器人平台(重要但不是大模型)。
准确地说,NVIDIA Isaac 是一个开放的 AI 平台,而不是一个专为机器人设计的大型模型,提供了大量的 GPU 加速算法和深度神经网络 (DNN) 模型。 NVIDIA iSAAC 是一个多技术平台,提供全面的解决方案,包括机器人操作系统 (ROS)、人工智能 (AI) 框架、仿真工具、预训练模型和软件工具,以支持机器人技术的开发和应用。 iSaac平台支持大型模型的训练和应用。
其功能分类:
1) 3D 物体姿态估计:Isaac 平台提供精确的 DNN 模型,包括物体检测、3D 姿态估计和使用深度传感器数据的姿态优化。这使机器人能够在仓库等环境中执行有效的物体识别和操作。
2)导航和规划:ISAAC集成了几项新的操作、导航、规划和定位功能,使机器人能够在复杂的环境中自主导航和执行任务。
3) 实时**:Isaac Sim 提供了一个强大的环境,允许开发人员在虚拟环境中测试和优化其机器人的行为,从而降低实际部署的风险和成本。
8.华为盘古大模型:
华为本身拥有业界领先的自动驾驶软硬件一体化解决方案,华为推出了“盘古”车型,这是一个面向行业的车型系列,涵盖多个层次和多个应用领域。 盘古模型的结构分为三层:L0层包括五个基本的大模型,即自然语言模型、视觉模型、多模态模型和科学计算模型; L1层是行业的大型模型,涵盖政务、金融、制造、矿业、气象等多个领域; L2层为细分场景提供了更多的模型,如政务**、网络助手、先导药物筛选等,但其强大的算力和多模态数据处理能力也为大型机器人模型的开发提供了基础。
此外,华为在23年发布了机器人云平台,这是一个集人工智能、云计算、机器人技术于一体的高度集成平台。 该平台的主要特点包括云原生机器人数据闭环系统、端云协同智能流程机器人解决方案,以及针对不同应用场景的定制化解决方案,相信在机器人领域也会有很好的表现。
9.中科院紫东太初大模型:
中科院在机器人及机器人相关大模型领域表现不俗,尤其是其研发的“紫东太初”大模型,是中科院自动化研究所研发的千亿参数三模态大模型,后来升级为全模态大模型。 该模型可以理解和处理语音、图像、文本等多种模态的数据,从而实现更接近人类智能的认知和决策能力。
紫东太初模型采用国产化基础软硬件平台Ascend AI,其算法由中科院自动化研究所自主研发。 该模型不仅可以处理传统的图像和文本数据,还可以理解更复杂的数据类型,如**、信号、3D点云等。 紫东太初模型在神经外科导航、短内容审查、法律咨询、医学多模态鉴别诊断、交通违章图像研究等多个领域显示出广泛的应用前景。 例如,在医疗场景中,该模型可以与神经外科机器人微神经相结合,实现手术过程中视觉、触觉等多模态信息的实时融合,协助医生进行手术。
10. 科大讯飞超级大脑:
科大讯飞本身在语音识别和自然语言处理领域拥有领先的技术,其大模型可用于机器人的语音交互和理解。 在较强的自然语言处理(NLP)能力、多模态感知能力、深度学习与认知智能、具身智能、强化学习、系统集成等方面具有明显优势,为构建人形机器人模型提供了坚实的基础。
科大讯飞《科大讯飞超级大脑2030计划》提出了认知智能、具身智能和运动智能相结合的目标。 这意味着科大讯飞的人形机器人模型将具备在物理世界中导航、操纵物体和执行复杂动作的能力。 同时,科大讯飞与宇树科技等合作伙伴在人形机器人研发过程中,推动“视觉-语言-行动”多模态具身智能大模型的开发。 这有助于建立一个支持人形机器人开发的生态系统,包括硬件供应商、软件开发商和行业应用合作伙伴。
5 人形机器人模型的不足与未来展望
作为人工智能的前沿领域,人形机器人正在以惊人的速度发展。 然而,为了实现真正的智能化和自主性,现有的大型模型在许多方面仍需改进。
*:ROKASHI机器人韩凤涛。
1. 感知模态的局限性及多模态感知的发展趋势
1)知觉模态的缺陷:
目前的人形机器人模型主要依靠视觉感知,这种单一的感知模式无法应对复杂的环境。 例如,在嘈杂的环境中,机器人可能很难仅根据视觉信息准确识别和响应。
2)多模态感知的未来:
为了克服这一局限性,未来的大型模型需要集成多种感知模式,如视觉、听觉和触觉。 多模态感知可以提供更丰富的环境信息,使机器人能够在复杂场景中做出更准确的决策。 例如,通过结合听觉和触觉信息,机器人可以更好地理解人类的指令和情绪状态。
2. 指令生成的速度和复杂性问题
现有的大型模型生成指令的速度很慢,并且生成的结果往往过于简单。 这可能导致机器人在需要快速响应的场景中无法及时做出正确响应,例如紧急救援或复杂的操作任务。 目前主流的机器人大模型偏向于任务理解和拆分,很少涉及机器人运动控制,而是利用端到端训练生成简单、离散分布的机械臂末端位置和底盘运动指令,不考虑连续路径和轨迹规划的内容,这在机器人领域比较多。
3. 泛化能力和模型架构的提升
1)缺乏泛化能力:
泛化能力是大型模型在新环境、新任务下表现的关键。 当前模型的泛化能力仍有待提高,尤其是在面对未知的环境和任务时,模型的性能往往不尽如人意。
2)模型架构和方法的创新
为了提高泛化能力,未来的大型模型需要在架构、训练方法和数据集等方面进行创新。 例如,通过引入元学习和迁移学习等技术,模型可以更好地适应新任务。 同时,构建更多样化的数据集也有助于模型学习更广泛的知识。
结论:
人形机器人模型的开发正处于关键阶段。 但随着技术的不断进步,我们有理由相信,未来的大型模型将更加智能、高效和通用。 这不仅将推动人形机器人在各个领域的应用,也为具象智能和人工智能的发展开辟了新的道路。
人形机器人或具身智能仍处于产业发展阶段从0-1,多还是要了解和分析公司在行业内的相关技术能力进行布局的安排,如果你愿意沟通并看好这个行业,可以关注联系,谢谢。
机器人人工智能有点枯燥的东西