其他资讯

港大VR训练法：看视频即学，人形机器人行走与作业新突破

2026-05-12

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

戴上VR眼镜，你在家中完成扔垃圾、整理物品等日常动作。这些看似平凡的行为数据，正被

戴上VR眼镜，你在家中完成扔垃圾、整理物品等日常动作。这些看似平凡的行为数据，正被用于训练一台1.3米高的机器人，使其能在截然不同的环境中执行同类任务。这并非科幻情节，而是香港大学研究团队近期实现的技术突破。

这项由香港大学、上海创新研究院、北京航空航天大学及Kinetix AI共同完成的研究，其成果已发表于2026年2月，论文编号arXiv:2602.10106v1。

港大团队让机器人学会了

项目名为“EgoHumanoid”，其核心突破在于首次利用人类第一视角视频，成功训练人形机器人完成复杂的全身运动控制。这类似于婴儿通过观察学习，机器人现能通过“观看”人类视频，掌握在真实世界中行走与操作物体的能力。

传统训练的困境与人类经验的优势

传统机器人训练模式存在局限，如同将学生禁锢于教室。研究人员需在实验室借助昂贵、复杂的遥操作设备，逐帧指导机器人动作。这种方法成本高昂，且习得的技能往往局限于单一、可控的实验室环境。一旦部署于家庭、商店或户外等真实场景，机器人常因环境变化而表现笨拙。

相比之下，人类在日常各类环境中积累了海量、多样的动作经验。然而，直接迁移面临根本挑战：人机形态差异显著。人类平均身高1.6至1.8米，而实验采用的Unitree G1机器人仅高1.3米；人类拥有灵巧手指，机器人则为三指机械手；人类步态包含自然摆动，机器人则需维持机械平衡。这好比将成人服装直接套用于儿童，尺寸与比例均不匹配。

核心突破：一套精妙的“翻译系统”

研究团队的关键创新在于构建了一套“翻译系统”，能够将人类动作“转译”为机器人可理解与执行的指令。该过程包含两个核心环节：视角对齐与动作对齐。

视角对齐，如同为机器人配备“变焦眼镜”。为解决身高差异导致的视角不同，团队采用MoGe技术估算视频中每个像素的深度信息，从而将人类的高视角“压缩”至机器人的低视角。转换产生的画面空白区域，则由AI图像生成技术进行智能补全，确保机器人获得完整视觉信息。

动作对齐，则旨在创建一套“通用动作词典”。团队设计了一种人机共通的运动描述语言。对于上半身操作动作，采用相对位置变化进行描述，例如“手部前伸5厘米，左转15度”，从而规避因绝对身高差异导致的位置错配。对于下半身行走动作，则将复杂步态抽象为前进、后退、左转、右转、蹲下、站立等基础指令，其简洁性堪比游戏手柄的方向键。

数据收集：从笨重实验室到便携VR

为收集训练数据，团队开发了一套便携式VR采集系统。志愿者佩戴VR头盔与身体追踪器，头盔摄像头记录第一视角视频，追踪器捕捉全身运动。该系统轻便易携，可部署于家庭、商店、公园等多种真实环境，志愿者得以自然执行任务并自动生成数据记录。

反观传统机器人遥操作训练，则如同在实验室进行“标准化考试”。操作员需穿戴复杂设备精确控制机器人每个关节，技术要求高且受限于专业实验室环境。数据显示，采集一段人类示范视频平均仅需39.7秒，而采集等长的机器人遥操作数据则需62.1秒，人类数据采集效率提升近一倍。

实战检验：四项复杂任务

为验证系统效能，团队设计了四项需同时协调行走与操作的测试任务，以模拟人类日常多任务场景。

任务一：“枕头放置”：机器人需怀抱枕头行至床边，蹲下并将枕头精准放置于床头指定位置。此任务考验其在携带物品时的平衡行走能力，以及在柔软床面上进行精确放置的控制力。

任务二：“垃圾投放”：机器人需手持垃圾走向垃圾桶，并将垃圾从侧面准确投入桶口。这要求其具备精确的空间定位与特定的投掷技巧，而非简单的垂直丢弃。

任务三：“玩具转移”：机器人需走至台前，用双手抓取玩具，随后转身行至另一张桌子并放下玩具。该任务涉及接近、抓取、携带、放置的连续动作序列，容错率低。

任务四：“购物车收纳”：此为最复杂任务。机器人需推行购物车至货架前，单手扶车保持稳定，另一只手从货架取玩具放入车内，最后推车离开。这全面检验其多任务协调与动态平衡控制能力。

结果与启示：人类经验的价值远超想象

实验结果显著。在熟悉的实验室环境中，仅使用机器人遥操作数据训练的系统平均成功率为59%，而融入人类示范数据后，成功率提升至78%。真正的突破出现在陌生环境测试中：纯机器人训练的系统成功率骤降至31%，而结合人类数据的系统成功率高达82%，实现了51个百分点的巨大提升。

这一差距揭示，人类的日常经验为机器人注入了宝贵的“常识”，极大增强了其应对未知情况的泛化能力。如同兼具系统学习与丰富实践经验的学生，其适应力远超仅接受课堂教育者。

深入分析发现，不同技能从人类数据中获益程度不同。导航技能（如行走、转向、定位）几乎可完全从人类数据中学习，因为空间移动的基本原理具有通用性。然而，精细操作技能（如精确抓取、旋转物体）的迁移效果则较差，根源在于人类手指的灵巧度远超当前机械手。

另一关键结论是：人类数据的多样性价值高于单纯的数量。对比实验显示，在总数据量相同的情况下，于1个、2个、3个不同场景收集的人类数据，其场景越多元，机器人的泛化性能就越强。这类似于语言学习，在不同语境中接触同一词汇，比在单一语境中重复听到该词汇更能促进深度理解。

局限与未来

当然，该系统仍存在局限。首要挑战在于手部精细动作的精确转换。由于人手机械结构差异巨大，机器人难以准确复现人类意图中的精确旋转等操作。此外，该方法对数据质量要求较高，人类示范者需保持相对标准的动作，例如手部不宜被长时间遮挡，身体摆动不宜过度。

展望未来，此项技术应用前景广阔。家庭服务机器人或无需为每个新环境单独编程，仅通过观察主人的日常生活视频即可快速适应。工业机器人也可通过观看熟练工人的操作视频，迅速学习新的装配流程。随着VR/AR设备普及，普通人的日常活动本身可能成为驱动机器人学习的宝贵资源。

这项研究的深层意义在于开辟了一条全新的机器人训练范式。传统方法如同师徒手把手传授，而EgoHumanoid让机器人初步具备了通过观察进行学习的能力。尽管目前尚不完美，但它标志着机器人智能发展的重要里程碑。随着技术持续优化，我们或许正迈向一个时代：训练机器人将如同录制一段教学视频般简单直观。

Q&A

Q1：EgoHumanoid系统具体是如何让机器人学会人类动作的？

A：EgoHumanoid通过两步实现动作迁移。首先进行视角对齐，利用AI技术将人类的高视角视频转换为适配机器人的低视角。随后进行动作对齐，将人类的复杂动作编码为机器人可执行的简化指令集。这本质上是构建了一本人机通用的动作词典，使机器人能够“解读”人类的示范行为。

Q2：用VR眼镜训练机器人比传统方法有什么优势？

A：VR训练方案的核心优势在于便携性与数据采集效率。传统遥操作受限于实验室环境与复杂设备，而VR系统可在多样真实场景中轻松部署，数据采集效率提升近一倍。更重要的是，它能捕获人类在自然状态下的多样化行为，为机器人提供丰富的“经验”数据，从而大幅提升其在陌生环境中的适应与泛化能力。

Q3：这种训练方法的成功率如何？

A：在陌生环境测试中，仅使用机器人数据训练的成功率为31%，而结合人类示范数据后，成功率跃升至82%，提升幅度达51个百分点。在熟悉环境中，成功率也从59%提升至78%。这有力证明了融合人类经验数据能显著增强机器人的学习效果与场景适应力。

来源：互联网

上一篇 P-GenRM测评：阿里巴巴Qwen团队个性化大模型奖励机制深度解析 下一篇 eBay AI新突破：揭秘电商智能理解背后的核心技术解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。