人形机器人当大型模型落地时，它从机器人拿起一杯咖啡开始

近日，来自清华大学、复旦大学等国内顶尖高校的60余支队伍在上海进行了一场机器人大赛，最终来自复旦大学、国防科技大学、中科院软件研究所的10支队伍脱颖而出。

比赛的主题和内容设计非常有趣，一般都是一般性的比赛，需要这些团队在咖啡馆场景中竞争，参赛者不仅要“教”服务机器人如何扮演咖啡馆服务员的角色，还要应对顾客和老板角色的多轮对话“考验”最后，它可以自主执行一系列复杂的任务。

对于人类来说，充当服务员在咖啡店制作一杯咖啡并将其端到给定顾客的餐桌上可能并不难。但如果用机器人代替它，复杂性是不言而喻的。 这不仅是对硬件和环境的考验，也是对软件和算法的更大挑战。

它是在今年CCF中国计算机学会专家会议上首次提出的“软件定义的智能机器人”。专家提出的概念可以应用大型语言模型和具身智能等新技术推动智能机器人与软件技术相结合，搭建捷径，快速拓展“机器人+”场景。在这种思路下，机器人不需要大量额外的数据和训练来完成任务，并且可以更轻松地进行应用程序开发。 通过这个游戏，许多专家意识到这种方法可能确实有效。

重大技术融合

首先是场景还原“，在接受机器人大讲堂采访时，MindMinds Robotics副总裁王斌直言不讳地表示，大赛的设计比想象的要难。

作为主办方，MindMinds Robotics已经是第四次举办这样的比赛了，但还是第一次将如此多的热门技术融入到比赛命题中，试图让参赛者无需编程即可探索机器人对复杂任务的处理，降低人机交互的复杂性。

为了达到高度的还原，MindMinds率先在**机器人元宇宙的数字孪生构建在环境中虚拟场景基于实际咖啡馆的相同数据生成，通过从数百个咖啡馆模型中收集和融合各种常见物品，不仅还原了咖啡机、桌椅、饮料、蛋糕等环境中的各种物品和商品，还还原了咖啡馆的实际照明和清洁工具。对于普通团队来说，很难有钱和精力去做这件事。

值得注意的是，我们发现模拟环境甚至考虑了真实环境中物体的纹理和物理特性等问题杯子的重量不同，落地时会破裂，物品接触时会有摩擦力可以说，最终的100%修复已经基本实现。

通过提供大型且高度可重复的数据集，基于该数字孪生场景，机器人开发平台仅凭计算能力，您就可以像在真实场景中一样，在虚拟**中轻松且经济高效地执行各种训练这也使国内人工智能和智能大模型研究团队能够快速尝试在人形机器人上实现各种技术的结合。

除了数字孪生环境外，为了进一步提高机器人与环境交互的能力，机器人硬件还充当了软件和算法的执行层它的设计和功能也至关重要。 由于机器人智能体需要与外界实时交互，因此首先需要机器人感知环境，包括听觉、视觉和触觉。

例如，当一个人到达咖啡馆时，机器人不仅需要领导位置，还需要在机器人制作咖啡的任务中再次细分，例如如何找到咖啡机的按钮，确定咖啡机的按钮和用途等。同时，在这项任务中，选择咖啡、制作咖啡和送咖啡也很困难。这意味着：如何使用大型模型来理解、分析和执行实际的环境任务。 例如，如果客户对机器人说要喝xx咖啡，这个任务可能会有所不同，首先，需要依靠通信中大模型的分析来准确定义需求，实现环境中的运动和操作能力。

多任务处理本质上是升级到更高层次的认知，需要基于机器人语言和视觉的大模型它可以在环境中实现感知、认知，并根据各种要求进行处理这也涉及到人工智能的算法，使机器人可以精确地执行各种操作。

为了更好地测试不同团队的特点，MindMinds将大赛的评判标准总结为4个指定任务和2个开放任务，包括机器人的主动探索与记忆、机器人的交流与对话、机器人的视觉语言与操作、机器人指令响应等，任务贯穿机器人在整个落地过程中的多个过程和细节。

虽然最终的任务呈现得像看起来简单，但机器人只是简单地响应客户的需求，完成咖啡的制作，通过机器人的手臂抓住咖啡，最后借助底盘运动将其运送到相应的位置，这突出了这个过程多项前沿技术的集成特点特别是大型模型技术与具身智能的结合，得到了专家评委的一致肯定。

大模型带来的革命

大模型对于实际场景的价值还处于探索期，在本次竞争中，大模型无疑是机器人技术实际提升的一大亮点。

MindMinds Robotics副总裁王斌介绍，在前几年，在大模型出现之前，机器人开发者主要通过应用的手动编程来实现任务执行，比如波士顿动力的机器人，虽然在执行任务的过程中有一定的灵活性，动作也很有美感，但是因为是固定程序，任务过程将不可避免地遵循规则。

在Mindmind的游戏任务中，它突出了大规模模型技术的应用思维链（COT）能力的价值。 这种能力主要体现在机器人接到任务后对任务的分解，从而形成基于思维推理的思路链，与原有的固定编程和深度学习习相比，机器人可以利用大语言模型实现自然语言到机器语言的理解和转化，并最终完成两者的对齐，从而自主执行任务。

这也意味着，经过机器人与大模型的深度结合，未来将进一步实现零射习（零射依托这两项技术，机器人还可以借助大模型实现关节运动控制，无需对机器人身体部位和运动的轨迹进行编程，真正实现零编程。

此外，国外很多具身智能的研究成果都是在机械臂上完成的，真正的潜力还没有得到充分的证明。这一次，比赛将取得丰硕成果放在一个成熟的人形机器人上，而在咖啡馆这样的固定场景中，实现了复杂的任务处理，展现了具身智能技术的更大价值。

在这个游戏流程中，我们看到了它智能服务机器人在语音、视觉、导航、操作等方面的可能性。 当机器人进入陌生场景时，首先会主动探索和记忆环境，感知和判断不同的物体和属性，实现记忆数据的记录和检索。在此基础上，机器人随后开始与咖啡馆场景中的人进行交流，并拆解任务信息。在执行层面，机器人需要使用视觉语言模型来拆分指令并实现特定动作，例如，当一个人说要喝水时，机器人需要拿起水杯，用水壶倒水，给客人送水。

在这个过程中，不仅需要将大型语言模型样本与具身智能业务场景相结合，实现对齐和微调，从而变得越来越精准和通用，还需要：结合算法的应用，从而使机器人的操作更合规这无疑对研发团队的实力提出了非常全面的要求。

新任务，新挑战

在这项研究中，非常有趣的是，MindMinds还设计了两个具有挑战性的问题对话者中增加了“商店经理”的角色。 机器人除了充当服务员响应相关顾客的消费需求外，还需要与店长进行“对接”，实现人机协作。

在店长和机器人之间的交互中，衍生出一个更复杂的任务，即机器人要完成“领导交办的其他工作”。

例如，如果店长说地板不干净，机器人就必须明白这意味着什么，并判断这意味着我可能需要再次清洁它。王斌总是介绍，类似的机器人触发任务对于机器人环境中的职责定义和自主动作选择非常具有挑战性最后，机器人需要能够像真正的咖啡馆服务人员一样行动，具备多种附加能力，从而实现对“阴天开灯”、“洒桌子”等随机事件的自主观察和处理，从而为实际应用部署奠定基础。

从最终成绩来看，顶尖团队改变了往年本科生参赛的局面，开始由博士生领衔，从一等奖到三等奖的前10名团队主要由研究生和博士生组成，这也使得大赛展现出不少研究成果。

例如，复旦大学团队不仅使用大模型完全实现了所有任务，非常简洁，具有一定的工程完整性，而且通过对齐和微调技术，使大模型开始减少一些错误或错觉，通过进一步优化，具有商业矩阵开发的价值。

国防科技大学团队尝试实验一种新的理论，通过集统计和连接于一体的人工智能技术构建行为树，从而以大模型进一步提高机器人的轨迹自主性，完成对行为规则的理解和演化。

此外，中科院软件研究所提出了一种新的内存存储策略和算法，通过关系型内存方法提高了环境中存储资源的利用效率，保证了内存的效率。

鹏程实验室采用自主研发的鹏程Mind模型，通过架构密集的AI模型实现2000亿参数，依托“鹏程云脑II”国产化AI计算平台进行充分预训练，实现机器人在咖啡厅场景中的各项任务。

结语与未来

马斯克于 12 月 12 日在推特上发布了 Optimus 的最新**，并透露第二代 Optimus 机器人（Gen 2）将于本月发布，在步行速度、平衡和身体控制方面显示出初步改进。然而，在中国工信部的人形机器人产业规划中，除了人形机器人的四肢外，另外两项核心技术，即“大脑”和“小脑”，都在这两个领域被描绘出来，但特斯拉仍然没有展现出太多的前沿性。

但随着大模型和人工智能的发展，这两个领域对机器人的重要性正在增加。作为国内乃至全球为数不多的在机器人“大脑”部分有技术积累和深耕的企业之一，除了大力发展机器人本体技术外，MindMinds也在不断探索大模型与机器人结合的更大可能性。

本次大赛除了展示大模型对机器人的提升外，还展示了MindMinds通过云脑的万能连接设备，真正实现了云计算平台对机器人应用的实际价值。

根据MindMind的预测，如果未来能够快速落地，预计不同场景下将快速形成不同软件功能的机器人APP，并借助云脑赋予机器人进入更多场景的能力。机器人只需要调用不同的接口，就能实现服务的升级和提升，满足“机器人+”的要求，赋能更多场景。

由于大模型和云大脑技术通用性强，技术架构也有望衍生自机器人的智能化、自主化能力，最终将帮助中国机器人在云网侧形成大型操作系统，构建机器人新生态，实现可控安全的后台操作平台，并帮助中国企业在大国博弈中占据有利地位。

人形机器人当大型模型落地时，它从机器人拿起一杯咖啡开始

相似文章

人形机器人来了！

人形机器人需要什么样的大模型？

机器人控制器人形机器人的动作大脑，全球本体厂商必须竞争

特斯拉人形机器人擎天柱II惊艳亮相！速度提升，减肥！

擎天柱人形机器人核心“IMU”梳理，国产替代势在必行！

人形机器人 当大型模型落地时，它从机器人拿起一杯咖啡开始

相似文章

人形机器人来了！

人形机器人需要什么样的大模型？

机器人控制器 人形机器人的动作大脑，全球本体厂商必须竞争

特斯拉人形机器人擎天柱II惊艳亮相！速度提升，减肥！

擎天柱人形机器人核心“IMU”梳理，国产替代势在必行！

人形机器人当大型模型落地时，它从机器人拿起一杯咖啡开始

机器人控制器人形机器人的动作大脑，全球本体厂商必须竞争