Qwen-VLA深度对比:阿里通义视觉语言动作模型实力评测
摘要
通义实验室推出的Qwen-VLA,为人形机器人行业开辟了一条极具潜力的技术路径——通过单一
通义实验室推出的Qwen-VLA,为人形机器人行业开辟了一条极具潜力的技术路径——通过单一模型统一处理视觉感知、语义理解与动作执行。传统视觉语言模型与机器人运动控制系统长期各自为政,更换硬件平台或任务场景都意味着从头建模。Qwen-VLA的目标是成为“通用大脑”,实现即插即用的零样本泛化能力。
具体来说,该模型以Qwen3.5-4B作为视觉语言基座,搭配1.15B参数的DiT动作解码器。核心创新在于采用统一的动作轨迹预测框架,将抓取操作、自主导航、轨迹规划三类任务整合进同一模型。更关键的是,团队设计了“本体感知提示条件化”机制——仅需修改一段结构化的文本描述,模型即可适配从WidowX到Franka Panda、从Mobile ALOHA到Galaxea R1等11种机器人平台,涵盖单臂、双臂、移动底盘等完全不同的硬件拓扑。
在多个行业基准测试中,Qwen-VLA表现超出预期,直接超越了多个专用模型。零样本动态操作成功率达到了26.6%,意味着无需针对运动场景进行专门训练,即可精准抓取移动中的物体。这一成果标志着具身智能正从“技能专家”向“通用行动者”迈进。
Qwen-VLA的核心能力
在功能层面,Qwen-VLA实现了多个关键突破:
- 跨任务执行能力:单一模型同时完成操作、导航、轨迹预测三大任务。过去需要分别为每个任务训练独立模型,现在一个框架即可覆盖。
- 跨硬件即插即用:支持WidowX、Franka Panda、Mobile ALOHA、Galaxea R1等11种机器人平台,仅需修改文本提示即可自动适配硬件配置,无需额外训练。
- 开放世界零样本泛化:即使面对从未出现过的颜色、物体、位置、背景或指令,模型仍能保持高成功率,无需为新环境收集训练数据。
- 动态目标操作:无需动态训练数据即可零样本操作运动中的物体。在DOMINO基准上取得26.6%成功率,超越专门为动态场景微调的模型。
- 长距离自主导航:引入任务自适应token分配机制,为长指令保留更丰富的历史上下文信息。在VLN-CE基准上,R2R达到57.5%,RxR达到59.6%,均超越专用导航模型。
Qwen-VLA的技术架构
Qwen-VLA是如何实现这些能力的?技术层面包含几个核心设计。
统一动作轨迹预测框架。传统方法将操作、导航、轨迹预测拆分为独立模型,导致跨任务迁移困难。但研究团队发现,这三个任务的计算逻辑完全同构——都是“观察环境+理解指令→预测动作序列”。因此,他们采用Qwen3.5-4B作为视觉语言基座,配合1.15B的DiT动作解码器,不同任务的数据在同一训练过程中协同监督,视觉定位与空间推理能力实现跨任务迁移。
本体感知提示条件化。机器人硬件差异是长期挑战。传统方案为每种硬件定制独立分支,成本高且维护复杂。Qwen-VLA的巧妙之处在于:将硬件差异编码为结构化文本提示,作为唯一的外部接口。提示包含机器人型号、臂数、关节配置、控制频率等信息,直接输入视觉语言模型。骨干网络的隐藏状态与噪声动作块拼接后,一并送入DiT解码器。推理时只需替换提示文本,即可切换至不同平台,架构本身无需修改。
文本到动作DiT预训练(T2A)。训练中的一个现实挑战是:视觉语言模型已预训练完成,但DiT解码器从零初始化。直接联合训练不仅效果不佳,还可能破坏已有的VLM成果。解决方案分两步:先冻结VLM,单独训练DiT,且不提供图像,仅输入文本。其目的是让DiT先掌握动作分布、文本与动作的语义对齐以及本体条件化能力。这一阶段的计算成本仅为多模态联合训练的十分之一。消融实验验证了该策略:20%合成数据加80%真实数据的组合最佳,达到71.1%成功率;且无图像训练优于有图像训练,2000步即可达到峰值。
Qwen-VLA的使用流程
使用层面,操作路径清晰完整:
- 环境搭建:从GitHub克隆官方代码库,安装依赖,下载预训练权重。这些常规步骤不再赘述。
- 模型推理:根据实际机器人硬件生成本体提示,将图像、指令和提示一同输入模型。输出的动作序列直接下发至机器人执行,循环迭代实现闭环控制。
- 模型训练(进阶):如需自定义训练或微调,可按照T2A → CPT → SFT → RL四阶段流程逐步推进,分别提升动作生成、视觉感知、任务适配和闭环优化能力。
- 跨平台部署:切换机器人时仅需修改提示中的硬件描述字段。若适配全新本体,采集数据后在SFT阶段微调即可,流程极为简洁。
Qwen-VLA的核心竞争力
回顾来看,Qwen-VLA的优势集中在以下几个维度:
- 通用模型超越专用方案:在5个仿真基准中,3个表现超过最佳专用模型。通用模型碾压专用方案,这正是该项目的真正突破点。
- 轻量级跨硬件适配:只需修改一段文本提示即可完成硬件切换,无需为每种机器人重新训练模型,极大降低了实际部署门槛。
- 高效预训练策略:T2A阶段的计算开销仅为多模态训练的十分之一,同时避免干扰VLM已有成果,资源利用效率极高。
- 强分布外泛化能力:真实世界平均OOD成功率达到76.9%,比π₀.₅高出35.4个百分点,比无预训练版本高出40.7个百分点,差距显著。
- 零样本动态场景突破:DOMINO基准上零样本26.6%,超过了专为动态场景微调的PUMA(17.2%),证明其通用性。
Qwen-VLA的项目入口
- 项目官网:https://qwen.ai/blog?id=qwenvla
- GitHub仓库:https://github.com/QwenLM/Qwen-VLA
- arXiv技术论文:https://arxiv.org/pdf/2605.30280
Qwen-VLA与同类方案的对比
与当前具身智能模型的竞品对比,Qwen-VLA与π₀.₅(Physical Intelligence)的差异非常鲜明:
| 维度 | Qwen-VLA | π₀.₅ (Physical Intelligence) |
|---|---|---|
| 架构基础 | Qwen3.5-4B VLM + 1.15B DiT 解码器 | 基于流匹配的 VLA 架构 |
| 任务统一性 | 操作+导航+轨迹预测三任务统一 | 专注操作任务 |
| 跨硬件方案 | 文本提示条件化,无需改架构 | 需针对不同本体单独微调 |
| 支持平台数量 | 11 种(WidowX、ALOHA、Franka 等) | 主要支持少数主流平台 |
| 预训练策略 | T2A 无视觉预训练(计算成本 1/10) | 端到端多模态联合训练 |
| 动态操作 | 零样本 26.6%(DOMINO) | 零样本 7.5% |
| 分布外泛化 | 真实世界平均 76.9% | 41.5% |
| 导航能力 | VLN-CE R2R 57.5%,超越专用导航模型 | 不支持 |
| 开源程度 | 论文+代码+权重全开源 | 部分开源 |
| 训练效率 | T2A 阶段计算成本为多模态的 1/10 | 标准多模态训练成本 |
Qwen-VLA的典型应用场景
这项技术不仅停留在学术层面,更对应着具体的产业落地场景:
- 多任务工业机器人:同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,无需为每个任务单独部署模型,现场维护和升级工作量显著下降。
- 服务机器人跨场景部署:一台家用机器人在厨房执行操作、在客厅自主导航、在走廊规划轨迹——任务类型无缝切换,背后依赖的就是这个统一模型。
- 科研教育平台:研究人员可在不同硬件上快速验证算法。更换机器人只需修改一段文本提示,无需为每个平台重新训练模型,大幅降低科研门槛。
- 动态环境操作:物流仓储中抓取传送带上的运动包裹,无需专门针对动态场景采集训练数据,零样本即可应对动态物体。
- 长时程复杂指令跟随:博物馆导览机器人执行“先去A展厅拍照,绕过人群去B展厅”这类多步骤长指令,Qwen-VLA的长时程导航能力恰好能够胜任。