纯人类视频预训练VLA灵巧操作:微调部署攻略
摘要
提出VITRA框架,从海量无标注人类活动视频中自动提取3D手部轨迹、原子动作分割并生成语
实现与人类相媲美的灵巧操作能力,一直是机器人学界一个听起来振奋人心、实践起来却异常艰巨的硬骨头挑战。
多指灵巧手的硬件水平确实在不断逼近人手,但真正让它们像人类一样灵活操作,瓶颈在于数据。高质量机器人操作数据的采集成本极高,导致目前所有视觉-语言-动作(VLA)模型的数据规模都严重不足,与大语言模型(LLM)和视觉语言模型(VLM)的体量完全不在一个级别。这从根本上制约了模型在真实复杂任务中的泛化性能。
微软亚洲研究院与清华大学联合发布了一项针对性研究成果——论文《Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos》中提出的VITRA预训练框架。

这项研究的核心思路简洁明确:能否构建一套全自动流程,将互联网上海量、零标注的真实人类活动视频,直接转化为机器人V-L-A模型可用的训练数据?
团队成功验证了这一路径。他们通过提取视频中的3D手部运动轨迹,执行原子级动作分割,并自动生成语言指令,最终打造了一个包含100万个片段、共计2600万帧的超大规模手部V-L-A数据集。
凭借这一数据基础,预训练模型在从未见过的真实环境中进行零样本(Zero-Shot)手部动作预测时,表现出了惊人的准确性。仅需极少量真实机器人遥操作数据进行微调,该模型即可在实体机器人上实现高成功率的灵巧操作,并对新物体和新场景展现出强大的泛化能力。
以下为技术细节分解。
打通人类视频到机器人数据的全自动转化链路
核心挑战在于弥合非结构化人类视频与结构化机器人数据之间的鸿沟。这需要同时提供高质量的动作标签和精准的语言指令,技术路线如何设计?
研究团队构建了一套包含三大核心技术的完整体系,实现了从原始视频到V-L-A数据的无缝转化。

△
3D运动标注:精准恢复手部与相机轨迹
从单目、未标定且相机可能移动的视频中,恢复出精确的3D手部运动,本身就是一个极具挑战的技术命题。
团队提出了一种基于前沿3D视觉技术的单目相机与手部姿态联合跟踪方法:首先通过背景光流判断相机运动状态并估算内参,随后结合深度视觉SLAM与深度估计模型追踪相机姿态,同时利用手部重建模型提取每帧的3D手部姿态(包括手腕6D位姿与全关节角度)。最终,将这些信息融合,生成世界坐标系下的3D手部运动轨迹。该方法不仅提供了高精度的动作标签,也为后续的动作分割与指令标注奠定了坚实基础。
原子级动作分割:基于速度极小值的自然切分
现有机器人V-L-A数据通常聚焦于短时的原子级任务,如何从长视频中精准切割出这些片段?研究团队发现,人类动作遵循自然节奏——在动作转换时,手部速度通常会出现波动,而速度极小值恰好对应切换点。据此,他们设计了一个简洁高效的切分算法:基于3D空间中手部移动速度的极小值进行分割。通过检测世界坐标系下3D手腕轨迹的速度极小值,即可将长视频高效切割为单一原子动作的短片段,全过程无需任何额外的人工标注或模型推理。


指令标注:结合3D轨迹的精准动作描述
为分割后的片段生成语言指令,团队巧妙地将视觉语言模型(VLM)与3D手部轨迹相结合。对于每个片段,系统均匀采样8帧图像,并将手掌的3D轨迹投影叠加至图像之上,然后将这些带有轨迹高亮的图像输入至GPT-4,提示其结合图像内容与轨迹信息,以祈使句形式描述指定手部的具体动作。实验结果证明,提供原子级视频片段并叠加3D手部轨迹,能显著提升GPT生成动作描述的准确性与可靠性。
实现强大的零样本预测与真实世界泛化
基于自动构建的超大规模人类手部V-L-A数据集,团队设计并训练了一个VLA模型,专门针对灵巧操作任务进行优化。

△
1、结合VLM与扩散动作专家的模型架构
模型由VLM骨干网络(PaliGemma-2)与一个扩散动作专家(Diffusion Transformer,DiT)联合构成。VLM负责处理视觉观察、语言指令与相机视场角(FoV),输出“认知特征”(Cognition Feature)。扩散动作专家则接收该认知特征、当前手部状态以及带有掩码的噪声动作块,通过迭代去噪预测未来的手部动作序列。值得注意的是,模型在动作去噪阶段采用了因果注意力(Causal Attention)机制,确保每个动作步骤的预测仅依赖于历史动作,有效避免了零填充带来的干扰。
2、零样本手部动作预测:在未见过环境中展现惊人能力
在完全陌生的真实生活环境中,预训练模型展现出的零样本手部动作预测能力令人印象深刻。

△
在抓取与一般动作预测的评估中,该模型显著优于仅在实验室环境数据(如EgoDex)上训练的模型,也优于直接使用原始人类标注数据训练的模型。这充分证明:利用海量、多样化的真实生活视频进行预训练,能够极大提升模型在复杂环境与未知物体上的泛化能力。
3、真实机器人灵巧操作:少量数据微调实现高效部署
为在实体机器人上实现部署,团队将人类手部的动作空间与机器人灵巧手(例如Realman机器人搭配的星动XHAND1)的动作空间进行了对齐。

△
仅需使用约1.2K条真实机器人遥操作数据对预训练模型进行微调,即可在真实世界中执行抓取、放置、倾倒、清扫等多种灵巧操作任务。实验结果清晰表明,与未经过人类VLA数据预训练的模型,或在其他数据集(如OXE、EgoDex)上预训练的模型相比,该方法在任务成功率上取得了显著提升,面对未见过的物体与环境背景时,表现出了卓越的鲁棒性。
VITRA真实世界部署的硬件核心支撑
VITRA框架为何能在真实机器人上实现惊艳的泛化能力?算法创新固然关键,但底层硬件——星动纪元自研的国内首创全直驱五指灵巧手星动XHAND1同样功不可没。二者形成了完美的“软硬协同”效应。

△
高精度URDF与人类手部动作空间的无缝对接
VITRA框架的核心突破之一在于将人类手部动作空间与机器人灵巧手的动作空间进行对齐。

星动XHAND1官方提供的URDF模型精度极高,不仅精确描述了运动学与动力学参数,还完美映射了人类手关节的空间分布。这种“数字孪生”级别的模型支持,使得VITRA在微调阶段能够将人类关节角度精准映射到星动XHAND1的对应关节上,大幅降低了从人类视频到真实硬件的现实鸿沟,确保了预训练策略在真实硬件上的高效部署。
全直驱架构与高频响应:完美执行复杂灵巧操作
在执行倾倒、清扫等复杂灵巧操作时,机器人需要极高的动态响应能力。星动XHAND1采用的全直驱(Direct-Drive)电机架构,为这一算法提供了最理想的硬件基础。全直驱设计从根本上消除了传统减速器带来的摩擦、迟滞与非线性干扰,赋予灵巧手超灵敏的动态响应能力,使其能够瞬间且精准地执行VITRA模型输出的动作指令,安全地操作各种未知物体。
丰富的传感器阵列:为未来多模态感知预留空间
尽管当前VITRA模型主要依赖视觉输入,但星动XHAND1配备的丰富传感器阵列(如高分辨率触觉阵列)已经为未来的多模态感知预留了充足空间。结合星动XHAND1强大的硬件感知能力,未来的VLA模型有望进一步融合触觉反馈,处理更精细、更复杂的“指尖步态(Finger Gaits)”任务。
数据规模的缩放定律
最后,研究团队深入探讨了预训练数据规模对模型性能的影响。

△
实验揭示了一个清晰的规律:随着预训练数据量的增加,模型在零样本手部动作预测中的误差稳步下降,在真实机器人操作中的成功率持续上升。这种明确的缩放行为(Scaling Behavior)表明,通过进一步扩大人类视频数据的规模,有望持续提升VLA模型的性能。
这项成果标志着,利用非结构化人类视频进行机器人VLA模型预训练迈出了关键一步。它提供了一套全自动的数据转化方案,大幅降低了获取高质量机器人训练数据的门槛,为多指灵巧手在更广泛的真实复杂场景中的应用铺平了道路,也为迈向真正泛化的具身智能打下了坚实基础。
论文链接:https://arxiv.org/abs/2510.21571