热点资讯机器人人形机器人触觉数据对齐最佳实践

人形机器人灵巧操作专家解读：触觉数据对齐最佳实践

2026-06-06

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

在ICRA2026上，戴盟机器人王煜指出触觉数据对齐是实现机器人灵巧操作的关键，并发布含触

2026年6月5日，国际机器人与自动化会议（ICRA 2026）在奥地利维也纳落下帷幕。在最后的RoboTac研讨会上，香港科技大学机器人研究院创始院长、「戴盟机器人」联合创始人兼首席科学家王煜，带来了一场题为《Touch Physical AI》的主题演讲。

王煜教授是IEEE fellow，也是IEEE RAS管理委员会成员，在机器人操作领域深耕了近40年。他提出的“具身技能”、“技能克隆”等概念在业内颇有影响，斯坦福大学发布的“终身科学影响力排行榜”和“年度科学影响力排行榜”上，他都位列全球前1%。

在这场聚焦触觉与物理智能的演讲中，王煜教授直接点出了当前具身智能行业的痛点：“如果想让机器人实现精细操作，末端执行器必然要与物体接触。这种相互作用会带来形变——手指的形变，物体本身的形变。如果不采集这些末端信息，机器人就无法拥有像人一样的操作能力。这就是‘感知’如此重要的原因。”

演讲结束时，王煜向行业伙伴发出邀请，加入触觉操作评测基准RobOmni，呼吁生态共建，加速physical AI的演进。

RobOmni是戴盟本周发布的、面向物理交互能力的含触觉全模态评测基准。这家专注于触觉感知与物理交互的具身智能企业，昨天刚宣布完成亿元A轮融资，由汇川技术旗下产业基金汇川产投与中国电信联合投资；前一天则在ICRA上与银河通用联合发布了RobOmni，为机器人的物理交互能力提供了一把标尺。

RobOmni到底能给行业带来什么？梳理其技术脉络会发现，面向触觉感知与灵巧操作的评测框架，长期以来都是一个空白地带。

触觉究竟能为具身智能的操作能力和泛化能力带来多少可量化的提升？如何通过技术手段系统性地放大触觉的价值？更重要的是，什么样的触觉数据才是训练高性能操作模型真正需要的“黄金数据”？

当具身智能行业的重心从“跳舞”转向“干活”，触觉感知与灵巧操作正成为下一个必争的技术高地。尤其是随着physical AI的发展，机器人不仅要看见世界，更需要理解世界、与真实世界安全稳定地完成物理交互。触觉，也将成为物理世界模型的关键模态之一。

在这种趋势下，一套标准化的能力评测框架，不仅能让触觉智能的价值得到客观验证、能力边界得到清晰界定，更能加速标准收敛，避免整个行业在数据采集、模型训练和硬件研发上陷入大量的重复试错与资源浪费。

基于这一背景，AI科技评论在ICRA现场与王煜教授进行了一次对话，深入探讨了触觉智能的评测标准、触觉数据以及具身操作的技术路线。以下是不改变原意的整理：

评判机器人精细操作能力，至少有五大维度

AI科技评论：为什么戴盟机器人在今年ICRA上发布评测基准RobOmni？是因为当前行业在灵巧操作或者触觉上面缺少评测基准和基础设施吗？

王煜：最近两年，具身智能操作模型发展到了一个新的拐点。大家逐渐意识到，以前从视频数据到scaling law的路径，走起来并没有那么容易。

与此同时，关于以人为中心的操作数据对驱动和训练模型的重要性，行业也达成了新的共识：视频信息量不够丰富，不包含触觉信息；触觉信息的重要性被认可；而遥操作则面临明显的成本问题。

最近半年左右，整个行业普遍认为，要训练出具有高强性能操作能力的物理世界模型，就必须依靠以人为中心的操作数据——包括human centric数据、多视角数据、穿戴工具获取的数据，以及真实的触觉感知信息。并且，高质量数据能够缩小对数据量的需求，保证模型的可靠性和准确性。

有了这些认知之后，大家都在探索如何低成本、可控地获取这些数据，如何实现多模态信息的对齐。这是行业当前的关键需求点。

当开始获取数据、使用数据时，我们就需要知道，什么样的数据能够促进模型的训练、达到很好的效果，同时在成本和算力上可控可接受。这不仅仅是对数据量的需求，还对数据来源、数据信息本身包含的物理含量——尤其是触觉和运动协调的对齐信息等多个维度提出了要求。人能完成操作，是因为人能获得并处理这些信息；做模型，至少在框架上也要像人一样。

AI科技评论：那RobOmni是如何反映出数据是否符合需要的？

王煜：我们构建了一个从仿真评估到真机验证的完整Sim-to-Real链路，设计了一套围绕物理交互能力的评测协议。其中，仿真平台基于NVIDIA Issac Sim构建，是一个含触觉的全模态仿真平台，可以完整模拟触觉形变，提供接触力、接触状态、材质、软硬等触觉信息。

有了这个标准化框架，我们就可以对模型的物理交互能力进行统一对比，从而评估数据对模型训练的赋能效果。

RobOmni的触觉仿真底座

AI科技评论：RobOmni在任务设计方面，有没有针对手部操作的特定任务？

王煜：我们设计的测试任务主要就是围绕contact-rich manipulation，包括抓举、装配、使用工具、插销入孔等。在这些操作任务中，触觉非常关键。同时，这些任务也是现实的家庭环境、工业制造等场景中常见的操作任务。

RobOmni部分测试任务

AI科技评论：除了成功率之外，还有没有其他评判维度？

王煜：机器人精细操作的评判，可以从多个维度来看。第一是操作能力，可用成功率衡量；第二是任务的复杂性，比如使用工具、完成精细动作（如插一个物件）；第三是稳定性，能否排除周围干扰；第四是任务时长，能否完成长时序的系列任务；第五是泛化能力，能否从一个任务迁移到另一个任务。目前行业还没有建立起一套最有代表性的标准任务体系。

AI科技评论：我看到RobOmni目前主要是基于仿真环境，为什么是仿真呢？

王煜：仿真是最基础的解决方法。它既能提供规模化的验证环境，也能快速有效地生成不同场景、不同情况的数据，用于预训练。预训练需要大批量数据，仿真数据成本低，是机器人训练尤其是预训练的最基本环节。现在模型训练一般分为三个阶段：仿真数据预训练、真实数据微调、强化学习。这种方式在效率和成本上最有效。

AI科技评论：那到了什么阶段可以用真机去评测？

王煜：前期用仿真生成数据做预训练，再用真实数据进行微调。我们的数据集就是用于这一步，它能快速让模型获得很强的能力。目前行业普遍认为预训练问题不大，最关键的是微调阶段，尤其是包含触觉信息的真实数据。

微调完成后，最后一步一般用强化学习，这时候可能会用到真机操作。因此，RobOmni也部署了真机验证。英伟达提出的设想是，最后强化学习的真机数据只占1%的训练时间。如果这部分成本能降得更低，整体效率会更高。

现在操作学习的三步跳框架，借鉴了ChatGPT 3.0到5.0的大框架。大语言模型从语言文字打通了路径，我们则要在物理世界打通这条路。

AI科技评论：就是从VLM到VLA的路线吗？

王煜：VLA、VLM的路线，都是同一条思路，目前进展也很明显。同时现在也融入了世界模型，操作数据和物理量在模型中的重要性被提到了更高的位置——不再以文字和语言作为最主要的核心信息，而是以操作模型建立后的物理量为核心，包括物体的位移、速度，更重要的是力，以及操作器施加在被操作物体上的力。最终让外部物体达到预期状态。这比机器人自我表现（如翻跟斗）更难，但物理世界模型、physical AI的融入，能真正给机器人带来价值。

真实人本操作的丰富触觉信息，或许能带来涌现时刻

AI科技评论：当前具身智能行业最大的瓶颈还是在数据吗？

王煜：确实需要很多数据。因此，戴盟4月份也发布了一个含触觉的全模态物理世界具身数据集——Daimon-Infinity，并且持续向市场提供human centric的数据采集工具和系统，包括外骨骼、UMI、Ego，以及集成的触觉传感器，还有配套的数据处理软件系统。我们走开源的路子，联合企业、科研单位、学校建立生态圈，明确数据采集标准，共享整理好的数据，供大家训练模型，以此扩大数据集规模，推动生态圈发展。

AI科技评论：戴盟说今年内能达到百万小时数据，依据是什么呢？

王煜：现在我们客户的需求很大，要服务好生态内的各类客户和科研单位，就需要达到很高的量级。所以，我们构建了外发式采集网络，采集工具灵活简单。科研人员在实验室里可以参与采集，普通人在家庭、制造、物流等场景也能完成采集。最近我们还与中国移动达成合作，将依托数十万线下网点，搭建覆盖全国的数采网络。这套模式成本低，效率高，不受空间场景限制，可以带来数据量的飞速增长。

AI科技评论：为什么不同的厂商都在开发自己的数采设备？设备的重要性体现在哪里？

王煜：最重要的是明确自身目标。我们走human centric的数据路线，并且加入了多视野数据、包含接触状态和手指形变的触觉信息。

现在行业还没有彻底认识到形变的作用。刚体机械手无法适应灵巧操作的需求，这也是过去几十年手做不好的原因。将人手操作的生理学、神经学知识落地到人形机器人的灵巧手操作上，是很有价值的科学问题。

AI科技评论：就像拿杯子的时候不仅要有按压的触觉，还要有滑觉。

王煜：这些生理学和神经学领域已经研究得很清楚。操作能力是非常复杂的。

AI科技评论：在你们看来，数据和硬件绑定有多深？

王煜：数据采集硬件决定了数据是否包含操作中最重要的因素。比如，没有触觉传感器就无法获得力的信息；触觉传感器的精度、感知密度以及是否包含滑动信息，都会影响数据质量。模型需要包含所有必要的因素维度，数据也要对应包含这些信息，才能训练好模型。

同时，模型的能力需要硬件来释放。笨拙的手无法发挥灵巧手模型的能力，这需要形成闭环。现在大部分机械手不具备人手的能力，刚体手指无法释放基于人手丰富数据训练的模型能力。手的结构、控制（力、位移、形变控制）需要和模型匹配。这一点目前行业讨论得很少，但始终是戴盟最关注的问题。

AI科技评论：毕竟“触觉”是你们的强项。

王煜：我们团队从机器人操作出发，对触觉感知、机械等方面都有比较丰富的理解，同时也吸纳了大模型等领域的优秀同事，形成了自身的长处。

AI科技评论：您刚刚说人手的数据会更丰富，那UMI现在还有价值吗？

王煜：如果机器人的末端执行器是夹爪，UMI已经能提供所需的所有数据。它简单好用，可以用来训练夹爪的操作模型。很多时候五指操作状态也和两指类似，两指的数据也能训练这种模态的操作。但要进一步泛化到更精细的操作就不容易了。

AI科技评论：之前Generalist发布的Gen1，用的就是UMI的数据，已经发现有涌现的现象了。

王煜：对，这就是做模型最重视的——能不能涌现出来。

AI科技评论：那触觉数据会不会也会随着数据量越多，发现训练模型需要的数据越少？

王煜：是有可能的。目前虚拟环境中对触觉的模拟还比较浅，模型预训练阶段在触觉方面比较欠缺。我们做的仿真平台，模拟尽可能多的触觉模态，弥补触觉仿真的不足。而真实触觉数据对微调阶段很关键，真实人本操作数据中触觉信息的丰富度和全面性很高，这些真实操作的丰富触觉数据对模型建立有很大帮助。

AI科技评论：你们之前发布了一个数据集，哪些客户对它比较感兴趣？

王煜：首先我们是开源的，通过建立生态群让大家共享数据，推动生态圈发展。

其次是做模型的企业。他们有专一的需求，会找我们提出特定要求。我们会通过商业化运作或联合生态圈合作伙伴，专门采集满足其需求的数据。目前已经有海外客户在深度沟通，他们对产品的要求全面细致，这也说明我们的数据有商业价值。

AI科技评论：触觉数据在处理的时候会不会难度更大一点？比如说标注环节。

王煜：是的。因为触觉信息必须和触觉发生时的其他物理状态（如手指位置、移动、控制指令）精准对齐。如果信息错位，就会违背物理规律，导致模型训练混乱。比如还没碰到物体就有触觉信息，或者抓握时力的信息和手指位置信息不对齐，都会让模型无法学习到真实的物理状态。

ICRA，对年轻人是个好机会

AI科技评论：ICRA每年邀请您，您是以什么身份受邀？

王煜：我是IEEE fellow，同时也是IEEE RAS（IEEE机器人与自动化协会）管理委员会成员，连任两届。ICRA和下半年的IROS都是IEEE RAS主办的活动。因此，我们管理委员会的这12个人需要负责监督管理ICRA的组织与评审工作。

AI科技评论：今年ICRA上有没有您觉得比较有意思的一些成果？

王煜：ICRA有四五百篇paper。光看paper不行，还要多和人交流，以及参加企业的发布会和展示。ICRA的会议内容分不同层次：

最高层是三个plenary talks，由行业大佬做概括性、前瞻性分享。我的好朋友Ken Goldberg会做第一天的第一个分享。他认为机器人操作模型还需要10万年的数据量，以及如何解决这个问题，他的观点和我们非常像。

第二层是专题session，比如manipulation专题会有6个人做20分钟的分享，内容更深入。

第三层是5分钟一篇的短报告；最后是展会。今年的ICRA技术项目是这么多年来最丰富、最全面、覆盖最广的。

AI科技评论：很多青年学者去ICRA，你们会不会有人才招聘方面的考虑？你们目前比较需要的是哪方面的人才？

王煜：对于刚进入市场的年轻人来说，ICRA是很好的交流和获取信息的机会。

模型、数据、软件、硬件各个方面的顶尖人才我们都欢迎。欢迎熟手，也愿意培养新人。我们的队伍很扎实、团结，大家开放交流，为了共同的目标讨论问题，探索最有价值的技术方向。除了技术人才，也需要媒介、招聘等对接外部的人才。

AI科技评论：如何看待当前很多学者从学术界迈进产业界？

王煜：现在很多科创公司做的事情有很深的科研元素，在算力、资金、队伍规模上更强，推进速度更快。学校的模式是把问题研究透彻再转化落地，不太符合具身赛道现在的基本模式。

但人才都是从学校里出来的，学校始终是科研人才培育的根基，这也是产业无法替代的底座。其实产业界和学界一直都是技术进步的一体两面。人才双向流动，是这个行业积极发展的表现。

来源：互联网

上一篇 最新零基础AI写歌月入十几万？40秒全曲风生成实战评测 下一篇 AI健康助手价值排行榜：权威指南与深度评测

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

人形机器人灵巧操作专家解读：触觉数据对齐最佳实践

摘要

评判机器人精细操作能力，至少有五大维度

真实人本操作的丰富触觉信息，或许能带来涌现时刻

ICRA，对年轻人是个好机会

相关文章推荐