是时候为大模型打造一个身体了。
近日,欧比中光的研发团队将机械臂与大模型相结合,利用语音、语言、视觉语言大模型,辅以Orbbec Gemini 2系列深度相机的数据输入,打造出能够理解和执行语音任务的机械臂。
该项目以斯坦福大学李飞飞教授团队打造的机器人智能体为基础,通过解决泛化、观测、控制等一系列工程难题,将基于多模态大模型的机械臂从一流的环境落到现实世界,拓展智能机械臂的应用潜力。
集成多个大型模型功能
让机械臂理解并执行语音命令
去年以来,各种大模型的出现,引发了机器人行业新一轮的发展浪潮。 虽然“大模型+机器人”仍处于技术探索的早期阶段,但随着两者的深入融合,机器人有望拥有更智能的“大脑”,拥有更强大的“眼睛”和“身体”,实现向具身智能的进化。
欧比中光新建的大型机械臂可以利用语音提示作为输入,利用多种大型模型的理解和视觉感知能力,生成空间语义信息,使机械臂能够理解并执行动作。
首先,机械臂可以借助语音模型识别任务发出者的语音命令同时,使用两台Orbbec Gemini 2双目结构光相机,获得高质量的环境RGB和深度数据SAM 和 CLIP 等视觉语言模型用于理解场景信息,执行实时碰撞检测,并最终执行任务。
基于这个原理,欧比中光可以让机械臂完成一系列指令,例如:
请记住当前状态。
将红色方块放在黄色框中。
将绿色方块放在白色框中。
将蓝色方块逆时针旋转 30°
将蓝色方块沿绿色方块方向移动 10 厘米
将蓝色方块放在绿色方块的顶部。
请恢复到原始状态。
请将所有积木放入黄色框中。
目前,该项目在 1阶段 0 开放了机械臂上多模态大型模型的应用部署基线。 欧比中光正在进一步优化多模态指令理解、多传感器融合感知、机械臂轨迹规划控制、末端抓取控制等,未来将推出大型机器人控制系统,使机器人更加智能、灵活,适应更复杂的操作场景。
克服泛化、观察和控制的问题
从**到现实
目前,国内外许多关于机器人代理的研究大多是在最佳环境中完成的。 从虚拟世界到现实世界,需要攻克一系列工程落地问题。 例如,在第一种环境中,相机基于理想的成像模型,不能受到成像畸变、环境照明等的影响,这对智能体在真实场景中的泛化能力提出了挑战。
基于预训练的多模态机械臂模型,欧比中光研发团队攻克了泛化、观测、控制等一系列落地难题
1、为了实现快速准确的语音输入和理解,引入了大型语音预训练模型,使机械臂灵敏地响应语音指令。
2、为保证机械臂在现实世界中具有足够的泛化能力,采用视觉语言大模型,使机械臂理解和适应复杂场景,在多样化的环境中执行任务。
3、为应对预训练模型的理想相机成像问题,设计了新的标定方案,优化相机自动(AE)策略,解决环境光、成像畸变、透视变形等因素带来的挑战,使机械臂具有更强的鲁棒性。
4、为提高机械臂在复杂环境下的安全性,引入深度摄像头碰撞检测和抓取校正,优化机械臂的控制,提高机械臂抓取场景的性能、精度和适应性。
欧比中光基于关键技术的引进和创新,成功攻克了多模态机械臂在多个交叉领域的难题,打通了工程应用的“最后一公里”。
在机器人视觉领域,欧比中光拥有超过8年的行业落地经验,已服务超过100家机器人行业企业。 通过多年的合作,欧比中光在机器人3D传感器、激光雷达、模型算法等方面积累了丰富的经验,帮助机器人客户快速实现创新应用开发和量产。
布局多模态视觉大模型
上升机器人应用潜力
集多个大模型能力于一体的机械臂可以应用于哪些场景?
随着机器人“眼睛”(视觉传感器)、“大脑”(大模型)、“身体”(本体)的不断发展演进,智能机器人和机械臂有望在工业制造、柔性物流、商业服务等场景中占据主导地位。
例如,在自动化工厂场景中,基于多模态大模型的机械臂可以与无人车相结合,进行智能分拣搬运在上门服务机器人场景中,人们可以通过简单的自然语言命令,让机器人帮忙倒水、取快递。
目前,针对机器人行业,欧比中光可提供单目结构光、双目结构光、ITOF、激光雷达、DTOF等全技术路线的3D视觉传感器,并提供多传感器融合支持。 同时,针对AI大模型、具身智能机器人等科技发展趋势,欧比中光致力于打造机器人和AI视觉中台,通过多模态视觉模型和智能算法的研发,结合机器人视觉传感器,形成自主移动定位的完整产品解决方案, 导航避障,为全行业下游客户提供全面的能力平台和系列化的产品解决方案,满足智能机器人时代。