首页 > 资讯 > ICRA 2026：朱玉可人形机器人数据海绵破局法

其他资讯机器人人形机器人

ICRA 2026：朱玉可人形机器人数据海绵破局法

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年6月3日，在ICRA 2026大会主题演讲中，德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR团队负

2026年6月3日，在ICRA 2026大会主题演讲中，德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR团队负责人朱玉可（Yuke Zhu）系统阐述了对人形机器人进展与未来走向的洞察。他直指当前领域的根本瓶颈——数据，并给出了一条清晰且可落地的规模化路径：以“数据金字塔”为架构支柱，以“世界模型”为驱动核心。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

人形机器人正在进入新时代

先抛出几个核心判断。人形机器人技术正迈入一个全新阶段。硬件性能持续攀升，学习算法与基础模型的可规模化扩展也变得愈发可行。但必须坦诚，最大的挑战——或许也是最大的机遇——依然横亘在前。

“打造自主的、类人的机器人”这个愿景，已让人类痴迷数百年。“机器人”一词最早见于1920年卡雷尔·恰佩克的戏剧《罗素姆的万能机器人》。自那时起，人们脑海中的机器人便是类人的通用工作者，而非为特定用途定制的专用装置。

回顾人形机器人的演变史，我们目睹了一轮又一轮的炒作周期：从七八十年代验证技术可行性的概念原型，到那些最终未能实现大规模商业落地的愿景演示，再到社交陪伴机器人。大约十年前，DARPA机器人挑战赛向我们泼了一盆冷水——即使在人类监督下，让机器人真正投入实际场景依然困难重重。截至目前，没有任何一款人形机器人实现了规模化的快速部署。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

但进入2024年左右，我们开始见证一场“人形机器人爆发”。各大企业、初创团队、研究机构纷纷打造性能更强的机器人。这很大程度上得益于AI、基础模型以及大语言模型的突破。今天，我想展示几项最新研究成果，旨在传达一个信号：我们有理由保持乐观，因为进步是扎实的。不过，也必须坦诚地说：终极配方尚未浮出水面。而这正是投身这一领域的最佳时机。

GR00T架构：系统二 + 系统一 + 全身控制

大约两年前，朱玉可开始领导英伟达的人形机器人研究团队。2024年3月GTC大会上，黄仁勋上台宣布了GR00T项目，一个旨在构建人形机器人全栈解决方案的计划。GR00T-1是推出的首个开源人形基础模型。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

整体架构采用双层设计。系统二是一个视觉语言模型，接收图像和语言指令作为输入，生成动作token；这些token传递至系统一——一个扩散Transformer，输出闭环动作供机器人执行。整个模型可以端到端训练。但在实际应用中，当需要控制一个超过四五十个自由度的系统时，通常还需一个用强化学习训练的全身控制器，将基础模型产生的高级指令转换为每个关节的最终执行动作。预训练模型赋予机器人泛化能力，使其能够响应不同语言指令，对各类物体和任务目标执行操作。模型还可进行后训练，处理更复杂的操控任务。

在最新的GR00T迭代版本N1.7中，团队尝试解锁机器人的完整运动学范围，通过全身运动操作完成任务。该模型仅需几十个演示进行后训练，就能完成复杂的工业流程任务。

不过，正如你们在几天的海报展示中多次听到的那样：数据，仍然是规模化提升机器人能力的核心瓶颈。

数据金字塔：异质数据的规模化策略

大约几年前，朱玉可提出了“数据金字塔”概念，清晰勾勒出数据策略：不会仅依赖单一数据源进行扩展，而是大规模汇集异质数据源。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

数据源被组织成三层：最底层是海量但被动的互联网人类视频数据，中间层是可无限生成的合成数据，顶层是真实机器人数据。与其只依赖一种数据源，大量研究致力于如何高效利用整个数据金字塔。今天重点放在金字塔的最底层——人类数据。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

人类数据是目前最具可扩展性的数据来源。互联网以人为中心，捕捉了世界的面貌、人类的行为方式、日常任务与生活模式。而人形机器人或许是消费这类数据最自然的形态，因为形态差距更小。具体而言，团队探索了两种人类数据形式：人类动作捕捉数据和第一人称视角的人类视频。

SONIC：用人类动捕训练全身控制器

对于人类动作捕捉数据，在SONIC工作中，团队探索了用它训练通用的人形全身控制器。核心思路是：先将人类运动重定向到特定人形机器人的形态上，生成对应的动捕数据库，再将运动跟踪作为强化学习的训练目标。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

这种组合极大简化了奖励函数设计，从而使规模化强化学习训练成为可能。做大规模的事情时，简洁往往带来更好的扩展性。模型训练在三个维度上进行了扩展：参数量从120万提升到4200万，这个规模足够强大，但依然小到可以部署在机器人本体的NVIDIA Jetson上；数据量达到1亿帧，总计超过10700小时的人类动捕数据；训练使用了9000个GPU小时，每个GPU运行自己的物理仿真副本，合计相当于数千年的真实机器人经验。

SONIC的关键在于动作的自然流畅度，这主要来自运动跟踪目标，让模型更好地模仿人类运动。该模型可以接受遥操作、基础模型输出、甚至人类视频作为高级指令。目前已部署在宇树G1机器人上，训练代码、部署框架和数据集完全开源。

EgoScale：第一人称视角视频的三阶段训练

团队感兴趣的第二种数据形式，是第一人称视角的人类视频。这类视频提供了一个窗口，让我们观察人类日常活动中丰富的多样性和复杂性。在最近的工作EgoScale中，团队跟踪人类手腕和手指在三维空间中的运动——把人想象成一个机器人，头部运动就是动作空间，如此将第一人称视角视频转化为训练数据。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

EgoScale的训练方案由三个阶段组成：第一阶段仅在人类视频上预训练，从第一人称视角预测手部运动；第二阶段在配对的人机数据上对齐表征，使知识从人类领域迁移到机器人领域；第三阶段用少量真实机器人数据精调模型。用概念框架来理解：预训练阶段是“获取人类知识”，从视频中收获常识和物理知识；对齐训练阶段是“压缩知识”，从人类领域压缩到机器人领域；后训练阶段是“表达知识”，利用积累的知识解决具体任务。

这项工作最令人兴奋的地方在于，模型对更多人类视频数据有着巨大的需求。当视频数据从1000小时扩展到20000小时，模型性能稳步提升，呈现出近乎完美的对数线性关系，意味着继续投入数据，性能还会持续提升。真正的“魔法”来自预训练——预训练得越好，后训练所需数据就越少。这就是规模化方案的核心：绝大部分数据来自人类数据，不到1%来自真实机器人。

世界模型即“数据海绵”

接下来要聊的，是“海绵”的故事。这里所说的海绵，就是世界模型。世界模型像海绵，因为它有一种神奇的能力，可以吸收数据金字塔中各种类型的数据。它可以从互联网视频中学习，获取常识和物理知识、语义知识和程序性知识；可以从合成数据中学习，受益于控制多样性；可以从真实机器人轨迹中学习，精化特定任务的表征；可以从多模态数据、音频数据中学习。也许最重要的是，可以从失败数据中学习——这类数据对策略改进非常有用。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

DreamZero：世界动作模型

在DreamZero工作中，团队探索了这个想法，用世界模型构建下一代NVIDIA基础模型。核心是“世界动作模型”。想象一下视频生成模型是如何工作的：从初始帧开始，从一个带噪声的视频出发，逐步去噪，生成清晰视频。在大规模互联网数据上训练这样的模型，它能捕捉相当多的物理理解。然后在机器人数据上微调，告诉模型机器人应该长什么样、应该如何运动。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

关键创新在于，不仅让模型生成未来画面，还增加一个扩散通道同步生成动作。测试时丢弃未来帧预测，只提取动作执行。仅通过视频生成模型或世界模型，就能显著增强视角泛化能力和行为克隆的样本效率。这是朱玉可第一次在公开场合展示这些结果。训练GR00T基础模型执行复杂任务，展示了闭环策略学习和反应式恢复行为。如果你从事机器人研究足够久，会认出YCB数据集中的物体。十年前看到它时，觉得绝不可能用机器人完成这样的装配任务。但现在，有了基础模型，这已经变成可能。而且是在一天之内完成的，无需任何人工干预。

对过去两年取得的进展感到兴奋，社区中的加速非常惊人。但也很容易看到，还有大量工作需要做，需要更广泛的研究社区参与。这正是为什么开源如此重要。无论是在UT Austin的实验室，还是在英伟达的团队，都尽可能开放开源基础模型、开源仿真框架（比如Isaac）、开源数据集和基准。就在这个星期一，团队刚刚宣布了首个H2 Plus参考平台。打造人形机器人的梦想已经让人着迷了超过一百年。最终，各种技术要素正在汇聚，让我们真正有可能实现这个梦想。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

Q&A 问答环节

听众：请问您如何让这些基础模型在特定领域内达到90%的成功率，实现更高的可复现性和可靠性？

朱玉可：这是一个非常好的问题。如果你观察过大语言模型的训练流程，就会知道预训练只是第一阶段。在机器人领域，后训练和对齐同样关键。你需要针对特定任务场景，用高质量的领域数据进行精调。同时，可复现性需要严格的评估基准和标准化的测试协议，这一点在YCB等基准工作的基础上还需要持续推进。总的来说，预训练给你泛化的底座，后训练给你领域的深度，两者缺一不可。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

来源：互联网

上一篇 芯片巨头共识达成：AI Agent时代全面来袭 下一篇 光纤光缆订单排至2027，头部企业加速光棒自研扩产

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

ICRA 2026：朱玉可人形机器人数据海绵破局法

摘要

人形机器人正在进入新时代

GR00T架构：系统二 + 系统一 + 全身控制

数据金字塔：异质数据的规模化策略

SONIC：用人类动捕训练全身控制器

EgoScale：第一人称视角视频的三阶段训练

世界模型即“数据海绵”

DreamZero：世界动作模型

Q&A 问答环节

相关文章推荐