2024机器人运动能力排行榜:技术测评与对比分析
摘要
机器人全身运动能力比操作能力更基础,但数据被低估。桥介数物建立跨本体全身运动数据
机器人进入真实场景“执行任务”,究竟依赖什么数据?面对这个问题,绝大多数具身智能从业者的第一反应是“操作数据”。毕竟,人类完成工作离不开双手,人形机器人的末端精细操作数据,自然被视为重中之重。
但桥介数物创始人尚阳星,给出了一个颠覆性的判断。
在他看来,机器人全身运动数据的真实价值被严重低估了。机器人想要在复杂真实环境中完成连贯任务,仅凭操作能力远不够,底层全身运动能力才是根基。这个逻辑可以类比计算机:如果把机器人视为电脑,运动控制能力就是操作系统的内核,操作模型则相当于应用软件。没有底层系统,应用无法运行。
换言之,缺乏高质量运动数据与全身运动模型,机器人将难以在多变地形中稳健行走、抵抗突发外力干扰,更谈不上长时间稳定运行和真正的商业落地。
基于这一判断,桥介数物在半年前启动了“跨本体全身运动数据工厂”的建设和数据流水线打磨,并于近期正式投入运营。他们将采集的数据定义为跨本体全身运动数据(Cross-Embodiment Whole-Body Motion Data),简称CWM。CWM数据融合了人体全身动作轨迹、第一人称与第三人称视角视频、语义标签、环境参数以及接触与物理状态信息,是一种多模态数据集,旨在训练跨本体通用全身运动模型,其核心价值在于具备跨本体泛化能力。
依托数据工厂深耕运动控制基础设施,桥介数物希望构建一套人形机器人的通用操作系统,类似尚阳星早前在中国移动具身智能产业大会上提出的Runtime Robot OS(运行时机器人操作系统)。简单说,这是一套通用的底层运动能力基础设施,让不同构型的机器人复用同一套运动模型,新接入的机型无需为大量基础动作重复训练。
桥介的定位也随之升级,从具身小脑厂商,转型为具身智能基础设施供应商。不过从某种意义上说,这更像是一种回归,尚阳星表示:“创业第一天,我的目标就是打造机器人时代的基础设施。”
01. 运动泛化仍是人形机器人落地的核心痛点
Q: 当前机器人Demo已能完成跑、跳、越障等动作,看起来全身运动已不再是主要瓶颈,为什么你们还要投资建设运动数据工厂?
尚阳星: 目前展示的机器人运动视频,几乎都是针对特定场景精心调校的成果。比如春晚表演的机器人,需要七八个工程师花费三四个月才能完成一个节目,换个场地或任务就失效。核心问题在于运动泛化能力薄弱。我们理解的泛化,是指一套系统能够适应不同地形、不同机型、不同动作,并在复杂环境中长期稳定运行。目前没有任何机器人能做到这一点。我们之前为客户提供运动控制方案,虽然采用通用框架,但仍需针对性参数适配。建设数据工厂的根本目的,就是训练出真正通用的底层运动模型,让机器人获得接近人类的运动能力,而这件事尚未被行业攻克。
Q: 在真实环境中,机器人最容易在哪些环节出故障?
尚阳星: 环境感知的滞后性首当其冲。当前机器人的感知模式本质上是被动的,如同闭眼行走,面对突发扰动(如人流密集区域)时反应剧烈,存在显著安全隐患。近期虽有厂商展示了语言交互Demo,但这类理解仍停留在表层,缺乏对物理世界真实状态的深度建模。其次是系统的持久稳健性。长时间运行导致关节磨损与性能衰减后,机器人难以像人类受伤后那样动态调整步态与补偿策略,持续学习与自我修复能力依然薄弱。这些都是我们重点突破的方向。
Q: 开发通用的底层运动模型,对具身智能的商业化落地有实质推动作用吗?
尚阳星: 行业目前多聚焦于人形机器人上半身的精细控制,但如果要实现全身协同作业,就必须先搭建通用的全身运动控制基础模型。有了这个底座,手部操作模型可以直接部署应用,无需每次重新解决全身运动适配的繁琐问题。
Q: 既然全身运动能力如此关键,为什么行业普遍不重视运动数据,反而集中精力采集操作数据?
尚阳星: 因为叠衣服、端咖啡、拧螺丝这类操作任务成果直观,商业价值容易被感知。机器人的运动能力可以理解为Windows、iOS这样的底层运行系统,操作能力则是系统上层的应用模块。没有底层系统,所有应用都无法运行。机器人也是一样,缺乏稳定的全身运动能力,复杂操作只能局限于固定桌面环境,无法实现真正的场景落地。市场需要更多应用开发,但也需要有人做基础设施。基础设施平时不显山露水,一旦失效问题就暴露;做好了又很难被察觉,但绝对不可或缺。
Q: 为什么不去外部采购数据,而是选择自建数据工厂?
尚阳星: 三个关键原因。第一,市场上几乎买不到高质量的运动控制数据,相关的数据供应商极少,且价格高昂。国内专注于运动控制且高度重视数据质量的,可能只有桥介。我们内部前期也使用动捕设备采集,但效率太低,需要更工业化、规模化的手段。第二,我们发现过去的数据普遍存在“本体绑定”问题——换一种机型数据就失效,迁移能力极差。我们需要更多无本体绑定的数据,以加速模型迭代。第三,我们观察到数据规模越大,全身运动基础模型的表现越好。这不只是我们内部的发现,英伟达在相关项目中也有类似结论:数据量越大,模型效果越强。英伟达虽然开源了数百小时的运动数据,但距离数据需求的上限还差很远。既然发现运动控制领域同样适用Scaling Law,我们就果断投入了。
Q: 近期世界模型成为行业热点,很多人认为它将是机器人理解物理世界的关键能力。桥介会布局这个方向吗?
尚阳星: 我们也在训练动作层面的世界模型。训练世界模型本身需要大量数据,视频是其中重要的一类。不过,世界模型可以接受任何形式的视频,但在处理动作这一维度时,需要做专门的特殊处理。
02. 人形机器人将比四足机器人更早实现商业化落地
Q: 你们的数据采集流程是怎样的?
尚阳星: 我们的数据工厂采用动捕设备搭配视频录制(包括第一人称和第三人称视角),采集后还会人工标注语义标签。我们采集的是人类全身运动数据,包括手部和全身的动作,初期从不需要精细操作的全身动作入手。这些数据可以与行业现有的操作数据配合使用,作为重要补充。
Q: 为什么选择这种采集方式?它比行业主流方案好在哪里?
尚阳星: 优势主要体现在两点。第一是无本体绑定,数据可以实现跨本体迁移,且采集操作更简单。很多厂商采用遥操作方案,数据与本体强绑定,复用性差,还需要人去适应机器人,而动捕方案不需要。第二是数据精度更高。当前很多人体数据依赖视频提取,全身动作还原精度有限。要获取高精度、高质量的全身人体动作,目前只有全身动捕这一种方法。这些高精度数据后续还可以用于训练视频动作提取模型。
Q: 去年开始行业流行无本体采集方案,UMI就广受关注,为什么不采用这种成本更低、操作更简单的方案?
尚阳星: UMI本质上是在去掉机器人本体,只保留末端执行器,用夹爪和相机采集数据。问题在于,如果用夹爪采集,后续本体上的夹爪无法轻易更换为其他执行器,灵活性远不及人手,而且通过视频提取的人体全身动作精度也不够。后来行业开始转向采集人体数据,因为人体数据更具通用性,不会绑定特定机器人。但新的问题是,人与机器人的结构存在差异,不同机器人之间也有差异,所以人体动作还需要经过重定向和适配。因此我们特别强调跨本体能力的重要性。
Q: 跨本体能力具体如何实现?有技术壁垒吗?
尚阳星: 迁移过程中涉及的核心技术是重定向。我们自研了一套重定向引擎,可以自动适配不同机器人的构型、动作和地形,还支持边采集边重定向。行业中的很多重定向方案只考虑运动学,即仅仅复现运动轨迹,我们还加入了动力学,同时考虑重力、受力与平衡问题。一般的数据工厂不会做到这一步,这构成了我们的技术优势。比如人类跳跃时形成一条抛物线,如果机器人只是简单模仿轨迹,很容易落地失败。加入动力学后,它会根据自身结构和受力情况调整动作,更符合真实物理规律。
Q: 在数据迁移过程中,哪些构型的机器人更容易迁移,哪些更困难?
尚阳星: 桥介采集的是人类数据,因此主要面向与人类形态最接近的双足人形机器人。机器人的形态与人类越相似,数据迁移越容易;差异越大迁移难度就越高。
Q: 为什么不选择落地更容易的四足狗或轮足人形来做运动控制?很多人认为四足狗加机械臂比人形落地更快、成本更低,轮足在很多场景也够用。
尚阳星: 轮足在特定场景确实能满足需求,但如果目标是物理世界的AGI,就需要更通用的形态,也就是双足人形。至于落地节奏,我有一个非共识的判断:人形机器人会比四足机器人更早实现商业化落地。这有点像大语言模型的发展轨迹。语言能力其实是人类后演化出来的能力,但由于互联网上的文本数据足够丰富,反而最先实现突破。机器人运动也一样,过去运动数据没有人系统性记录,但现在如果开始大规模采集,很可能也会快速取得突破。
03. 数据工厂的难点不在于采集,而在于数据闭环
Q: 你们采集的全身运动数据不涉及精细操作,未来如何与市面上的操作数据融合使用?
尚阳星: 我认为不会存在融合障碍,或者说我们会主动把融合做好。我们倾向于分层式架构:上层负责认知与任务理解,底层负责实时运动控制,而桥介提供的是底层运动控制模型。原因是认知模型体量大、推理速度慢,运动控制模型则对实时性和安全性要求极高,两者很难用同一个模型兼顾。Figure的具身模型也采用了多系统协同的方案。未来机器人行业会像操作系统和应用软件一样,形成更清晰的软件分工。
Q: 行业数据格式不统一是一个普遍问题,你们如何处理?
尚阳星: 当前行业的数据格式大多沿用了影视动画行业的体系,因此标准并没有特别混乱。出现格式不统一问题的根本原因之一还是数据与本体强绑定,正确的方向应该是采集无本体数据,这已经成为行业大趋势。
Q: 打造数据工厂,最难的环节是什么?
尚阳星: 数据处理与数据闭环是最难的。大规模数据需要完整的管线支撑,解决资源调配、算力处理等问题。数据工厂还要跑通“设计—采集—处理—训练—反馈”的完整闭环,背后涉及大量系统协同和流程管理。其中采集环节成本最高,反馈环节决定数据的实际有效性。单纯的动作采集难度并不高,花钱配置设备就能做,真正的难点在于后续的整体运营与统筹管理。
Q: 你们如何定义高质量运动数据,数据质量如何保障?
尚阳星: 高质量数据首先要噪声小、轨迹稳定,动作姿态自然流畅,不能出现肢体穿插、穿透等异常情况。数据质量主要取决于录制方式和动捕设备的精度。动捕设备直接录制的数据精度高、质量好;从视频中提取的数据精度就差得多。因此,在源头环节必须使用高精度动捕设备进行标准化采集。我们设计了一套准入体系,涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准。但设备本身存在局限,难免出现异常数据,所以采集完成后会经过人工核验和程序自动筛选,通过自研管线完成跨本体的数据清洗、动作重定向等环节,就连训练阶段也会再次筛查。最后,训练结果会反向指导数据采集——哪些动作效果不佳、哪些场景覆盖不足,都会反馈给采集端,据此调整下一轮的数据采集方向,形成持续优化的数据闭环。
Q: 行业中有观点认为脏数据也有价值,你们会收集这类数据吗?
尚阳星: 脏数据应该分为两类:任务失败数据和低质量数据,两类数据的价值差异很大。大家常说的脏数据,通常是指机器人执行任务失败后恢复的轨迹数据,比如摔倒后自主起身,这类数据具有很高的采集价值。而低质量数据,是指采集时因设备故障等问题录入的、本身就是错误失真的动作数据,这类数据没有用处,不需要留用。
Q: 同时满足高质量和大规模两个要求,一直是具身数据领域的难题。桥介如何平衡数据规模与数据质量?
尚阳星: 先用一小批具备一定规模的高质量数据训练模型,再用该模型从视频中挖掘更大规模的数据,实现相互增强。视频包含了一切信息,只是目前模型还无法充分提取。类比自动驾驶领域,视频中可能包含深度信息,但模型能力不够就提取不了,需要视频与深度配对的数据来训练模型。机器人同理,视频包含大量人体动作信息,人类看视频就能学会,但当前从视频中提取这些信息的基础设施尚未建好。
Q: 训练过程中会使用仿真数据吗?
尚阳星: 会,而且仿真数据是必须的。人体数据经过重定向后,机器人还需要在仿真环境中进行强化学习训练,以弥合人体动作与机器人实际执行之间的差距。离开数据工厂后,面对复杂环境的适应能力,本质上也需要依赖强化学习来完成泛化。
Q: 使用的真实数据与仿真数据的比例是多少?
尚阳星: 仿真数据的量级会远超真实数据,高出几个量级。
04. 最终目标是成为机器人的底层基础设施
Q: 目前数据工厂处于什么阶段?
尚阳星: 所有流程已经跑通,当前处于产能爬坡阶段。过去三个月,我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路,累计产出近千小时高质量CWM数据,训练出的模型在十多款不同足式机器人上完成了验证。我们计划今年内实现单日采集数十小时的数据,一个月就是数千小时。预计全年将收集上万小时的数据。
Q: 这些数据能带来哪些具体提升?未来会向行业开放吗?
尚阳星: 主要体现在我们模型泛化能力的提升,尤其是不同动作之间的泛化。目前机器人跳跃高度不足或无法完成极端动作,补充更多数据后就能学会。这些数据主要服务我们内部的模型训练,不会直接对外销售。但如果合作方有明确的数据采购需求,也可以协商。
Q: 具体到产品层面,今年会推出什么?
尚阳星: 数据训练出的能力,将通过我们的平台化产品提供给市场。去年更多是非泛化的动作能力。今年我们重点攻克两个泛化目标:跨本体和跨机型。6月我们会推出一款革命性产品,这将是历史上第一个将机器人运动控制做成标准化方案的产品。我们的设想是,未来任意机器人接入我们的平台后,就能快速获得对应的运动能力,无需为每个动作重复训练。例如,平台可以与机器人拳赛结合,让用户自由组合不同机型的技能,分为力量型、速度型等不同能力标签,不同本体之间的比赛才更有看点。
Q: 目前桥介在数据工厂上的投入大概是什么量级?
尚阳星: 我们采购了一批动捕设备,单套动捕设备约几十万元,再加上场地搭建、团队人员运营等成本,整体投入在千万级别。
Q: 数据合格率高吗?单位数据的成本是多少?
尚阳星: 目前数据合格率可以达到90%以上。我们不按“条”计价,而是按“小时”计算,因为不同数据条的时长差异很大。每小时数据的采集成本大约几百元,未来还会继续降本。
Q: 如果想让机器人真正达到接近人类的运动能力,需要多大规模的数据量?
尚阳星: 粗略估算需要几十万小时量级的数据,人形机器人的运动效果才能达到理想水平。这个数字是基于人类一生大约几十万小时的活跃时间推断的,但人类动作存在重复,也不可能完成所有动作,所以只是一个非常粗略的估计。如果数据量上来后,发现模型训练效果不再提升,我们也会适时停止数据采集。
Q: 这么说的话,专注运动控制会不会天花板太低?未来你们会拓展其他方向吗?
尚阳星: 等到收集足量的运动数据、机器人运动能力成熟之后,我们也不会止步于此。首先依靠海量全身运动动捕数据打好基础,让模型具备动作组合能力,可以灵活搭配不同动作完成各类任务。后续场景类、融合感知的规划数据,可以依托成熟模型从视频中提取,覆盖海量复杂现实场景。我们的最终目标是提供基础设施,让用户在平台上进行组合创新,壁垒在于构建应用生态。
Q: 基础设施的概念,听起来比你们之前“小脑厂商”的定位更为宏大。
尚阳星: 实际上从创业第一天起,我们的目标就是做通用机器人时代的基础设施厂商。运动控制虽然不等于完整的操作系统,但它正是操作系统中非常重要的一部分。桥介的长期定位是做人形机器人的操作系统,打造生态。
Q: 之前有投资人表示,你做硬件他们才愿意投资。现在他们的看法改变了吗?
尚阳星: 我们最近每天都在接待投资人,近期刚关闭了一轮融资,正在开启新一轮融资。我感觉越来越多的投资人已经看清楚了趋势。有投资人直白地告诉我,硬件赛道现在太拥挤了,投了那么多家,最后能存活下来的估计没几家。真正具备长期价值的,是底层平台能力。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。