作者 Under the Rainforest
标题图片 Tesla Optimus Prime II 的屏幕截图。
抓鸡蛋,做深蹲...... …更轻、更稳定、更快。
这是特斯拉刚刚发布的人形机器人擎天柱的第二代,在运动能力和智能能力方面相比去年的一代有了明显的提升,也让人们对AI的终极形态感到兴奋。
具身智能是一种基于物理身体进行感知和行动的智能系统,它基于人形机器人的概念。
12月13日,虎嗅智库举办502线上同行主题研讨会MindMinds Robotics高级副总裁Karl Zhao博士,上海开普勒探索机器人联合创始人兼副总裁胡德波,乐居机器人副总裁吴宇轩,深圳凯虹数字产业发展***OS产品部总监柴颖,顶点投资副总监陈亚卓会上分享了关于具身智能和人形机器人的前沿观点。
以下是嘉宾的一些观点摘要:
肢解“具身智能机器人:大脑和小脑是核心。
具身智能并不是一个新知识,而更多的是人工智能领域新发展的统一组合。 其功能从上到下可分为:大脑、小脑、主控系统、骨干结构和部件。
大脑,负责规划和决策以及分解任务,主要是指新兴的AI模型小脑,负责对全身运动进行分层控制;主控系统包括实现系统调度、通信协议站、CPU、GPU、FPG硬件加速过程和算力优化骨骼结构和部位包括手臂、脚、轮子等,类似于人的一系列关节和肌肉。
在工业中,对小脑的研究比对大脑的研究更长、更深入。 小脑是运动控制的核心,主要是控制算法的演化。 为了完成更高难度的任务,小脑越需要能够实现精细的底层控制,优化整个运动效果,这涉及到步态平衡、动力学模型、控制框架等。 目前,该领域的最新研究是加强化学习和模拟的解决,使具身智能能够从环境中获得其更好的状态,然后智能体对环境做出决策并做出合理的行为反应,最终逐步实现具身智能机器人的愿景。
随着AI模型的演进和爆发,具身智能机器人能否进入现实?国内外学者和专家对此有不同的看法。 有人认为,这种在大数据语料库上训练大模型的方法,可以推广到机器人身上。 也有人认为,在这个时间点,不可能真正解决机器人习的大规模商业化问题。
第一个困难是获取数据的难度。 在现实生活中收集其他数据相对简单,但目前还没有明确的方法来获取大规模的机器人数据,而机器人形态和实体的多样性意味着数据需要由不同类型的机器人来收集,这使得本来就很困难的数据收集变得更加困难。
二是性能预测问题。 例如,GPT的答案会偏离实际情况,但当它真正应用于现实世界的工业、商业和家庭场景时,容错率非常低,目前的机器人习算法无法达到高可靠性和准确性,硬件系统单次故障的成本远高于软件系统, 所以成本也非常高。
第三是机器人任务的长视域问题。 与使用大型语言模型来获得问题的单一答案不同,机器人需要大量正确的指令和动作来完成我们提出的简单任务。 因此,随着时间的流逝和任务难度的叠加,误差会逐渐积累并变大,所以大家会觉得,在这个时间点用大模型做端到端的机器人具身智能还不成熟。
对于这一领域的初创企业来说,行业在技术上是有准备的,但应该有落地产品的终端交付的思维,而不是简单地通过高成本的单一培训来获得一个比较好看的研究成果。
国外“脑”发展先进,国内“降本”优势明显。
与硬件能力相比,国内企业和国外企业基本可以相提并论,甚至在核心部件方面,中国还是略有优势。 然而,在“大脑”方面,国外企业在AI大模型方面的优势更为明显,尤其是在多模态的探索方面,这也导致其机器人本体的表现更强。
从最早的美国波士顿动力公司和日本的本田阿西莫公司开始,人形机器人的开发时间并不短,但这些早期产品没有商业化的一个重要原因是成本,直到现在人形机器人还没能大规模推出。 但未来,国内企业最大的优势也会在这里体现出来,那就是国内自研的软硬件迭代能力和链条规模化后的成本降低,现在工业协作机器人的发展趋势已经证明了这一点。
人形机器人只有以合适的价格出售,更具体地说,至少要卖到10万元以上,或者最多20万元以上,才能在两三年内真正投入到一些垂直场景的示范应用中,而不是像现在这样仅仅作为科研载体。 那么当价格低到10万元左右甚至更低的时候,就可能走进千家万户。 当然,这个前提是大脑技术足够成熟。
机器人成本高,除了关键技术还在研发中外,还有一个比较大的因素,那就是传感器的结构布局过于分散,安装的东西越多,组装的复杂度就越高,这会给成本带来直接的压力。 因此,将所有设备与相同的软件操作系统互连,将有利于未来机器人的功能开放和成本降低。
与“人”竞争性价比,主流应用从B端起步。
目前,对具身机器人的研究更多是科研,预计未来三到五年内,将逐渐出现在B端场景,如汽车、物流、仓储、厨房、搬运制造,包括一些大专以上学历,以及便利店的装卸、保洁、最后一公里物流等。 从长远来看,它肯定会处于C端场景。 因为C端任务更加复杂和具体,技术要求更高,单机成本也会降低。 之后,最后的游戏将落在家庭安全、老人的照顾和陪伴、茶水上等。 这些更困难,需要非常通用的与对象交互的能力。
除了物理机器人,云网端架构还可以支持虚拟机器人,或者数字人,它们不是100%的具身智能,但也具有具身智能的特征。 虽然它不能直接走动,但也可以通过摄像头看到和听到,并且在具有思考能力后可以与人互动,这已经在包括图书馆在内的文化旅游行业中得到应用。
在B端应用中,肯定会有记账的逻辑。 根据我们的计算,人形机器人的佼佼者,只有员工工资一年到一年半左右,也就是10万元到20万元以上,才能与“人”有一定的竞争力。 在欧美,2-3万美元这个**区间是批量申请的门槛,而现在大部分人形机器人厂商都远高于这个**,只有少数中国厂商率先冲击这个价格。
比如有真实需求的客户会提出很多需求,非常有利于我们在实际场景中快速打磨应用,对功能有很好的反馈,也让我们对一线有了更深入的了解,就会有一个交叉反驳的螺旋式上升过程。
过去,传统的机器人都是由工程师进行配置和编程的,因此人形机器人的大规模落地,除了突破技术门槛外,还需要非常高的部署便利性,包括操作系统的集成、任务管理、数据安全等一系列问题,所有这些都必须一步一个脚印地解决。
本次活动,线上观众汇聚了来自北京大学、复旦大学、北京邮电大学、南开大学、中国科学院自动化研究所、上海人工智能实验室等高校的研究人员,以及来自美团、腾讯、字节跳动、JD.com、商汤科技等知名企业的人工智能相关负责人。 智璞AI、地平线等,以及多家知名VC投资人。越来越多的企业正在开发基于强化学习的小模型,如抓取、导航等,您如何看待这些新的小脑技术解决方案?“机器人灵巧的手能用多久才能完成繁重的工作?”嘉宾们给出了精彩的答辩,圆满结束了502线上同行研讨活动。
关于Tiger Sniff智库:此内容为作者独立观点,不代表虎嗅立场。 未经许可请勿做**,请联系hezuo@huxiu授权com虎嗅智库致力于推动以“双碳”转型为代表的产业数字化和可持续发展,服务于参与这一过程的中国企业高管和相关决策者。 我们的主要服务有:研究内容(报告、分析文章、研究和选择)、数据库、线上线下活动和社区、定制项目等。
我们提供的核心价值观:
及时、高质量的洞察,懂技术、懂行业、懂同行、懂竞争对手;
为决策者在技术和产品、产业规划、方案选择等方面做出战略决策提供了重要参考
帮助市场充分了解前沿技术的发展现状及其所影响的行业,以及未来趋势。
正在改变并想要改变世界的人都在 Tiger Sniff 应用程序上