其他资讯机器人机器人运动能力排行榜

2024机器人运动能力排行榜：技术测评与对比分析

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

机器人全身运动能力比操作能力更基础，但数据被低估。桥介数物建立跨本体全身运动数据

全身运动数据的核心价值，长期被行业低估。

机器人进入真实场景“执行任务”，究竟依赖什么数据？面对这个问题，绝大多数具身智能从业者的第一反应是“操作数据”。毕竟，人类完成工作离不开双手，人形机器人的末端精细操作数据，自然被视为重中之重。

但桥介数物创始人尚阳星，给出了一个颠覆性的判断。

在他看来，机器人全身运动数据的真实价值被严重低估了。机器人想要在复杂真实环境中完成连贯任务，仅凭操作能力远不够，底层全身运动能力才是根基。这个逻辑可以类比计算机：如果把机器人视为电脑，运动控制能力就是操作系统的内核，操作模型则相当于应用软件。没有底层系统，应用无法运行。

换言之，缺乏高质量运动数据与全身运动模型，机器人将难以在多变地形中稳健行走、抵抗突发外力干扰，更谈不上长时间稳定运行和真正的商业落地。

基于这一判断，桥介数物在半年前启动了“跨本体全身运动数据工厂”的建设和数据流水线打磨，并于近期正式投入运营。他们将采集的数据定义为跨本体全身运动数据（Cross-Embodiment Whole-Body Motion Data），简称CWM。CWM数据融合了人体全身动作轨迹、第一人称与第三人称视角视频、语义标签、环境参数以及接触与物理状态信息，是一种多模态数据集，旨在训练跨本体通用全身运动模型，其核心价值在于具备跨本体泛化能力。

依托数据工厂深耕运动控制基础设施，桥介数物希望构建一套人形机器人的通用操作系统，类似尚阳星早前在中国移动具身智能产业大会上提出的Runtime Robot OS（运行时机器人操作系统）。简单说，这是一套通用的底层运动能力基础设施，让不同构型的机器人复用同一套运动模型，新接入的机型无需为大量基础动作重复训练。

桥介的定位也随之升级，从具身小脑厂商，转型为具身智能基础设施供应商。不过从某种意义上说，这更像是一种回归，尚阳星表示：“创业第一天，我的目标就是打造机器人时代的基础设施。”

01. 运动泛化仍是人形机器人落地的核心痛点

Q：当前机器人Demo已能完成跑、跳、越障等动作，看起来全身运动已不再是主要瓶颈，为什么你们还要投资建设运动数据工厂？

尚阳星： 目前展示的机器人运动视频，几乎都是针对特定场景精心调校的成果。比如春晚表演的机器人，需要七八个工程师花费三四个月才能完成一个节目，换个场地或任务就失效。核心问题在于运动泛化能力薄弱。我们理解的泛化，是指一套系统能够适应不同地形、不同机型、不同动作，并在复杂环境中长期稳定运行。目前没有任何机器人能做到这一点。我们之前为客户提供运动控制方案，虽然采用通用框架，但仍需针对性参数适配。建设数据工厂的根本目的，就是训练出真正通用的底层运动模型，让机器人获得接近人类的运动能力，而这件事尚未被行业攻克。

Q：在真实环境中，机器人最容易在哪些环节出故障？

尚阳星： 环境感知的滞后性首当其冲。当前机器人的感知模式本质上是被动的，如同闭眼行走，面对突发扰动（如人流密集区域）时反应剧烈，存在显著安全隐患。近期虽有厂商展示了语言交互Demo，但这类理解仍停留在表层，缺乏对物理世界真实状态的深度建模。其次是系统的持久稳健性。长时间运行导致关节磨损与性能衰减后，机器人难以像人类受伤后那样动态调整步态与补偿策略，持续学习与自我修复能力依然薄弱。这些都是我们重点突破的方向。

Q：开发通用的底层运动模型，对具身智能的商业化落地有实质推动作用吗？

尚阳星： 行业目前多聚焦于人形机器人上半身的精细控制，但如果要实现全身协同作业，就必须先搭建通用的全身运动控制基础模型。有了这个底座，手部操作模型可以直接部署应用，无需每次重新解决全身运动适配的繁琐问题。

Q：既然全身运动能力如此关键，为什么行业普遍不重视运动数据，反而集中精力采集操作数据？

尚阳星： 因为叠衣服、端咖啡、拧螺丝这类操作任务成果直观，商业价值容易被感知。机器人的运动能力可以理解为Windows、iOS这样的底层运行系统，操作能力则是系统上层的应用模块。没有底层系统，所有应用都无法运行。机器人也是一样，缺乏稳定的全身运动能力，复杂操作只能局限于固定桌面环境，无法实现真正的场景落地。市场需要更多应用开发，但也需要有人做基础设施。基础设施平时不显山露水，一旦失效问题就暴露；做好了又很难被察觉，但绝对不可或缺。

Q：为什么不去外部采购数据，而是选择自建数据工厂？

尚阳星： 三个关键原因。第一，市场上几乎买不到高质量的运动控制数据，相关的数据供应商极少，且价格高昂。国内专注于运动控制且高度重视数据质量的，可能只有桥介。我们内部前期也使用动捕设备采集，但效率太低，需要更工业化、规模化的手段。第二，我们发现过去的数据普遍存在“本体绑定”问题——换一种机型数据就失效，迁移能力极差。我们需要更多无本体绑定的数据，以加速模型迭代。第三，我们观察到数据规模越大，全身运动基础模型的表现越好。这不只是我们内部的发现，英伟达在相关项目中也有类似结论：数据量越大，模型效果越强。英伟达虽然开源了数百小时的运动数据，但距离数据需求的上限还差很远。既然发现运动控制领域同样适用Scaling Law，我们就果断投入了。

Q：近期世界模型成为行业热点，很多人认为它将是机器人理解物理世界的关键能力。桥介会布局这个方向吗？

尚阳星： 我们也在训练动作层面的世界模型。训练世界模型本身需要大量数据，视频是其中重要的一类。不过，世界模型可以接受任何形式的视频，但在处理动作这一维度时，需要做专门的特殊处理。

02. 人形机器人将比四足机器人更早实现商业化落地

Q：你们的数据采集流程是怎样的？

尚阳星： 我们的数据工厂采用动捕设备搭配视频录制（包括第一人称和第三人称视角），采集后还会人工标注语义标签。我们采集的是人类全身运动数据，包括手部和全身的动作，初期从不需要精细操作的全身动作入手。这些数据可以与行业现有的操作数据配合使用，作为重要补充。

Q：为什么选择这种采集方式？它比行业主流方案好在哪里？

尚阳星： 优势主要体现在两点。第一是无本体绑定，数据可以实现跨本体迁移，且采集操作更简单。很多厂商采用遥操作方案，数据与本体强绑定，复用性差，还需要人去适应机器人，而动捕方案不需要。第二是数据精度更高。当前很多人体数据依赖视频提取，全身动作还原精度有限。要获取高精度、高质量的全身人体动作，目前只有全身动捕这一种方法。这些高精度数据后续还可以用于训练视频动作提取模型。

Q：去年开始行业流行无本体采集方案，UMI就广受关注，为什么不采用这种成本更低、操作更简单的方案？

尚阳星： UMI本质上是在去掉机器人本体，只保留末端执行器，用夹爪和相机采集数据。问题在于，如果用夹爪采集，后续本体上的夹爪无法轻易更换为其他执行器，灵活性远不及人手，而且通过视频提取的人体全身动作精度也不够。后来行业开始转向采集人体数据，因为人体数据更具通用性，不会绑定特定机器人。但新的问题是，人与机器人的结构存在差异，不同机器人之间也有差异，所以人体动作还需要经过重定向和适配。因此我们特别强调跨本体能力的重要性。

Q：跨本体能力具体如何实现？有技术壁垒吗？

尚阳星： 迁移过程中涉及的核心技术是重定向。我们自研了一套重定向引擎，可以自动适配不同机器人的构型、动作和地形，还支持边采集边重定向。行业中的很多重定向方案只考虑运动学，即仅仅复现运动轨迹，我们还加入了动力学，同时考虑重力、受力与平衡问题。一般的数据工厂不会做到这一步，这构成了我们的技术优势。比如人类跳跃时形成一条抛物线，如果机器人只是简单模仿轨迹，很容易落地失败。加入动力学后，它会根据自身结构和受力情况调整动作，更符合真实物理规律。

Q：在数据迁移过程中，哪些构型的机器人更容易迁移，哪些更困难？

尚阳星： 桥介采集的是人类数据，因此主要面向与人类形态最接近的双足人形机器人。机器人的形态与人类越相似，数据迁移越容易；差异越大迁移难度就越高。

Q：为什么不选择落地更容易的四足狗或轮足人形来做运动控制？很多人认为四足狗加机械臂比人形落地更快、成本更低，轮足在很多场景也够用。

尚阳星： 轮足在特定场景确实能满足需求，但如果目标是物理世界的AGI，就需要更通用的形态，也就是双足人形。至于落地节奏，我有一个非共识的判断：人形机器人会比四足机器人更早实现商业化落地。这有点像大语言模型的发展轨迹。语言能力其实是人类后演化出来的能力，但由于互联网上的文本数据足够丰富，反而最先实现突破。机器人运动也一样，过去运动数据没有人系统性记录，但现在如果开始大规模采集，很可能也会快速取得突破。

03. 数据工厂的难点不在于采集，而在于数据闭环

Q：你们采集的全身运动数据不涉及精细操作，未来如何与市面上的操作数据融合使用？

尚阳星： 我认为不会存在融合障碍，或者说我们会主动把融合做好。我们倾向于分层式架构：上层负责认知与任务理解，底层负责实时运动控制，而桥介提供的是底层运动控制模型。原因是认知模型体量大、推理速度慢，运动控制模型则对实时性和安全性要求极高，两者很难用同一个模型兼顾。Figure的具身模型也采用了多系统协同的方案。未来机器人行业会像操作系统和应用软件一样，形成更清晰的软件分工。

Q：行业数据格式不统一是一个普遍问题，你们如何处理？

尚阳星： 当前行业的数据格式大多沿用了影视动画行业的体系，因此标准并没有特别混乱。出现格式不统一问题的根本原因之一还是数据与本体强绑定，正确的方向应该是采集无本体数据，这已经成为行业大趋势。

Q：打造数据工厂，最难的环节是什么？

尚阳星： 数据处理与数据闭环是最难的。大规模数据需要完整的管线支撑，解决资源调配、算力处理等问题。数据工厂还要跑通“设计—采集—处理—训练—反馈”的完整闭环，背后涉及大量系统协同和流程管理。其中采集环节成本最高，反馈环节决定数据的实际有效性。单纯的动作采集难度并不高，花钱配置设备就能做，真正的难点在于后续的整体运营与统筹管理。

Q：你们如何定义高质量运动数据，数据质量如何保障？

尚阳星： 高质量数据首先要噪声小、轨迹稳定，动作姿态自然流畅，不能出现肢体穿插、穿透等异常情况。数据质量主要取决于录制方式和动捕设备的精度。动捕设备直接录制的数据精度高、质量好；从视频中提取的数据精度就差得多。因此，在源头环节必须使用高精度动捕设备进行标准化采集。我们设计了一套准入体系，涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准。但设备本身存在局限，难免出现异常数据，所以采集完成后会经过人工核验和程序自动筛选，通过自研管线完成跨本体的数据清洗、动作重定向等环节，就连训练阶段也会再次筛查。最后，训练结果会反向指导数据采集——哪些动作效果不佳、哪些场景覆盖不足，都会反馈给采集端，据此调整下一轮的数据采集方向，形成持续优化的数据闭环。

Q：行业中有观点认为脏数据也有价值，你们会收集这类数据吗？

尚阳星： 脏数据应该分为两类：任务失败数据和低质量数据，两类数据的价值差异很大。大家常说的脏数据，通常是指机器人执行任务失败后恢复的轨迹数据，比如摔倒后自主起身，这类数据具有很高的采集价值。而低质量数据，是指采集时因设备故障等问题录入的、本身就是错误失真的动作数据，这类数据没有用处，不需要留用。

Q：同时满足高质量和大规模两个要求，一直是具身数据领域的难题。桥介如何平衡数据规模与数据质量？

尚阳星： 先用一小批具备一定规模的高质量数据训练模型，再用该模型从视频中挖掘更大规模的数据，实现相互增强。视频包含了一切信息，只是目前模型还无法充分提取。类比自动驾驶领域，视频中可能包含深度信息，但模型能力不够就提取不了，需要视频与深度配对的数据来训练模型。机器人同理，视频包含大量人体动作信息，人类看视频就能学会，但当前从视频中提取这些信息的基础设施尚未建好。

Q：训练过程中会使用仿真数据吗？

尚阳星： 会，而且仿真数据是必须的。人体数据经过重定向后，机器人还需要在仿真环境中进行强化学习训练，以弥合人体动作与机器人实际执行之间的差距。离开数据工厂后，面对复杂环境的适应能力，本质上也需要依赖强化学习来完成泛化。

Q：使用的真实数据与仿真数据的比例是多少？

尚阳星： 仿真数据的量级会远超真实数据，高出几个量级。

04. 最终目标是成为机器人的底层基础设施

Q：目前数据工厂处于什么阶段？

尚阳星： 所有流程已经跑通，当前处于产能爬坡阶段。过去三个月，我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路，累计产出近千小时高质量CWM数据，训练出的模型在十多款不同足式机器人上完成了验证。我们计划今年内实现单日采集数十小时的数据，一个月就是数千小时。预计全年将收集上万小时的数据。

Q：这些数据能带来哪些具体提升？未来会向行业开放吗？

尚阳星： 主要体现在我们模型泛化能力的提升，尤其是不同动作之间的泛化。目前机器人跳跃高度不足或无法完成极端动作，补充更多数据后就能学会。这些数据主要服务我们内部的模型训练，不会直接对外销售。但如果合作方有明确的数据采购需求，也可以协商。

Q：具体到产品层面，今年会推出什么？

尚阳星： 数据训练出的能力，将通过我们的平台化产品提供给市场。去年更多是非泛化的动作能力。今年我们重点攻克两个泛化目标：跨本体和跨机型。6月我们会推出一款革命性产品，这将是历史上第一个将机器人运动控制做成标准化方案的产品。我们的设想是，未来任意机器人接入我们的平台后，就能快速获得对应的运动能力，无需为每个动作重复训练。例如，平台可以与机器人拳赛结合，让用户自由组合不同机型的技能，分为力量型、速度型等不同能力标签，不同本体之间的比赛才更有看点。

Q：目前桥介在数据工厂上的投入大概是什么量级？

尚阳星： 我们采购了一批动捕设备，单套动捕设备约几十万元，再加上场地搭建、团队人员运营等成本，整体投入在千万级别。

Q：数据合格率高吗？单位数据的成本是多少？

尚阳星： 目前数据合格率可以达到90%以上。我们不按“条”计价，而是按“小时”计算，因为不同数据条的时长差异很大。每小时数据的采集成本大约几百元，未来还会继续降本。

Q：如果想让机器人真正达到接近人类的运动能力，需要多大规模的数据量？

尚阳星： 粗略估算需要几十万小时量级的数据，人形机器人的运动效果才能达到理想水平。这个数字是基于人类一生大约几十万小时的活跃时间推断的，但人类动作存在重复，也不可能完成所有动作，所以只是一个非常粗略的估计。如果数据量上来后，发现模型训练效果不再提升，我们也会适时停止数据采集。

Q：这么说的话，专注运动控制会不会天花板太低？未来你们会拓展其他方向吗？

尚阳星： 等到收集足量的运动数据、机器人运动能力成熟之后，我们也不会止步于此。首先依靠海量全身运动动捕数据打好基础，让模型具备动作组合能力，可以灵活搭配不同动作完成各类任务。后续场景类、融合感知的规划数据，可以依托成熟模型从视频中提取，覆盖海量复杂现实场景。我们的最终目标是提供基础设施，让用户在平台上进行组合创新，壁垒在于构建应用生态。

Q：基础设施的概念，听起来比你们之前“小脑厂商”的定位更为宏大。

尚阳星： 实际上从创业第一天起，我们的目标就是做通用机器人时代的基础设施厂商。运动控制虽然不等于完整的操作系统，但它正是操作系统中非常重要的一部分。桥介的长期定位是做人形机器人的操作系统，打造生态。

Q：之前有投资人表示，你做硬件他们才愿意投资。现在他们的看法改变了吗？

尚阳星： 我们最近每天都在接待投资人，近期刚关闭了一轮融资，正在开启新一轮融资。我感觉越来越多的投资人已经看清楚了趋势。有投资人直白地告诉我，硬件赛道现在太拥挤了，投了那么多家，最后能存活下来的估计没几家。真正具备长期价值的，是底层平台能力。

来源：互联网

上一篇 雷军晒YU7超窄车位语音泊出：车外喊一声自动驶离 下一篇 卡片机二手价暴涨数倍 2024高性价比推荐榜

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

2024机器人运动能力排行榜：技术测评与对比分析

摘要

01. 运动泛化仍是人形机器人落地的核心痛点

02. 人形机器人将比四足机器人更早实现商业化落地

03. 数据工厂的难点不在于采集，而在于数据闭环

04. 最终目标是成为机器人的底层基础设施

相关文章推荐