产业资讯综合资讯

Qwen-VLA深度对比：阿里通义视觉语言动作模型实力评测

2026-06-03

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

通义实验室推出的Qwen-VLA，为人形机器人行业开辟了一条极具潜力的技术路径——通过单一

通义实验室推出的Qwen-VLA，为人形机器人行业开辟了一条极具潜力的技术路径——通过单一模型统一处理视觉感知、语义理解与动作执行。传统视觉语言模型与机器人运动控制系统长期各自为政，更换硬件平台或任务场景都意味着从头建模。Qwen-VLA的目标是成为“通用大脑”，实现即插即用的零样本泛化能力。

具体来说，该模型以Qwen3.5-4B作为视觉语言基座，搭配1.15B参数的DiT动作解码器。核心创新在于采用统一的动作轨迹预测框架，将抓取操作、自主导航、轨迹规划三类任务整合进同一模型。更关键的是，团队设计了“本体感知提示条件化”机制——仅需修改一段结构化的文本描述，模型即可适配从WidowX到Franka Panda、从Mobile ALOHA到Galaxea R1等11种机器人平台，涵盖单臂、双臂、移动底盘等完全不同的硬件拓扑。

在多个行业基准测试中，Qwen-VLA表现超出预期，直接超越了多个专用模型。零样本动态操作成功率达到了26.6%，意味着无需针对运动场景进行专门训练，即可精准抓取移动中的物体。这一成果标志着具身智能正从“技能专家”向“通用行动者”迈进。

Qwen-VLA的核心能力

在功能层面，Qwen-VLA实现了多个关键突破：

跨任务执行能力：单一模型同时完成操作、导航、轨迹预测三大任务。过去需要分别为每个任务训练独立模型，现在一个框架即可覆盖。
跨硬件即插即用：支持WidowX、Franka Panda、Mobile ALOHA、Galaxea R1等11种机器人平台，仅需修改文本提示即可自动适配硬件配置，无需额外训练。
开放世界零样本泛化：即使面对从未出现过的颜色、物体、位置、背景或指令，模型仍能保持高成功率，无需为新环境收集训练数据。
动态目标操作：无需动态训练数据即可零样本操作运动中的物体。在DOMINO基准上取得26.6%成功率，超越专门为动态场景微调的模型。
长距离自主导航：引入任务自适应token分配机制，为长指令保留更丰富的历史上下文信息。在VLN-CE基准上，R2R达到57.5%，RxR达到59.6%，均超越专用导航模型。

Qwen-VLA的技术架构

Qwen-VLA是如何实现这些能力的？技术层面包含几个核心设计。

统一动作轨迹预测框架。传统方法将操作、导航、轨迹预测拆分为独立模型，导致跨任务迁移困难。但研究团队发现，这三个任务的计算逻辑完全同构——都是“观察环境+理解指令→预测动作序列”。因此，他们采用Qwen3.5-4B作为视觉语言基座，配合1.15B的DiT动作解码器，不同任务的数据在同一训练过程中协同监督，视觉定位与空间推理能力实现跨任务迁移。

本体感知提示条件化。机器人硬件差异是长期挑战。传统方案为每种硬件定制独立分支，成本高且维护复杂。Qwen-VLA的巧妙之处在于：将硬件差异编码为结构化文本提示，作为唯一的外部接口。提示包含机器人型号、臂数、关节配置、控制频率等信息，直接输入视觉语言模型。骨干网络的隐藏状态与噪声动作块拼接后，一并送入DiT解码器。推理时只需替换提示文本，即可切换至不同平台，架构本身无需修改。

文本到动作DiT预训练（T2A）。训练中的一个现实挑战是：视觉语言模型已预训练完成，但DiT解码器从零初始化。直接联合训练不仅效果不佳，还可能破坏已有的VLM成果。解决方案分两步：先冻结VLM，单独训练DiT，且不提供图像，仅输入文本。其目的是让DiT先掌握动作分布、文本与动作的语义对齐以及本体条件化能力。这一阶段的计算成本仅为多模态联合训练的十分之一。消融实验验证了该策略：20%合成数据加80%真实数据的组合最佳，达到71.1%成功率；且无图像训练优于有图像训练，2000步即可达到峰值。

Qwen-VLA的使用流程

使用层面，操作路径清晰完整：

环境搭建：从GitHub克隆官方代码库，安装依赖，下载预训练权重。这些常规步骤不再赘述。
模型推理：根据实际机器人硬件生成本体提示，将图像、指令和提示一同输入模型。输出的动作序列直接下发至机器人执行，循环迭代实现闭环控制。
模型训练（进阶）：如需自定义训练或微调，可按照T2A → CPT → SFT → RL四阶段流程逐步推进，分别提升动作生成、视觉感知、任务适配和闭环优化能力。
跨平台部署：切换机器人时仅需修改提示中的硬件描述字段。若适配全新本体，采集数据后在SFT阶段微调即可，流程极为简洁。

Qwen-VLA的核心竞争力

回顾来看，Qwen-VLA的优势集中在以下几个维度：

通用模型超越专用方案：在5个仿真基准中，3个表现超过最佳专用模型。通用模型碾压专用方案，这正是该项目的真正突破点。
轻量级跨硬件适配：只需修改一段文本提示即可完成硬件切换，无需为每种机器人重新训练模型，极大降低了实际部署门槛。
高效预训练策略：T2A阶段的计算开销仅为多模态训练的十分之一，同时避免干扰VLM已有成果，资源利用效率极高。
强分布外泛化能力：真实世界平均OOD成功率达到76.9%，比π₀.₅高出35.4个百分点，比无预训练版本高出40.7个百分点，差距显著。
零样本动态场景突破：DOMINO基准上零样本26.6%，超过了专为动态场景微调的PUMA（17.2%），证明其通用性。

Qwen-VLA的项目入口

项目官网：https://qwen.ai/blog?id=qwenvla
GitHub仓库：https://github.com/QwenLM/Qwen-VLA
arXiv技术论文：https://arxiv.org/pdf/2605.30280

Qwen-VLA与同类方案的对比

与当前具身智能模型的竞品对比，Qwen-VLA与π₀.₅（Physical Intelligence）的差异非常鲜明：

维度	Qwen-VLA	π₀.₅ (Physical Intelligence)
架构基础	Qwen3.5-4B VLM + 1.15B DiT 解码器	基于流匹配的 VLA 架构
任务统一性	操作+导航+轨迹预测三任务统一	专注操作任务
跨硬件方案	文本提示条件化，无需改架构	需针对不同本体单独微调
支持平台数量	11 种（WidowX、ALOHA、Franka 等）	主要支持少数主流平台
预训练策略	T2A 无视觉预训练（计算成本 1/10）	端到端多模态联合训练
动态操作	零样本 26.6%（DOMINO）	零样本 7.5%
分布外泛化	真实世界平均 76.9%	41.5%
导航能力	VLN-CE R2R 57.5%，超越专用导航模型	不支持
开源程度	论文+代码+权重全开源	部分开源
训练效率	T2A 阶段计算成本为多模态的 1/10	标准多模态训练成本

Qwen-VLA的典型应用场景

这项技术不仅停留在学术层面，更对应着具体的产业落地场景：

多任务工业机器人：同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务，无需为每个任务单独部署模型，现场维护和升级工作量显著下降。
服务机器人跨场景部署：一台家用机器人在厨房执行操作、在客厅自主导航、在走廊规划轨迹——任务类型无缝切换，背后依赖的就是这个统一模型。
科研教育平台：研究人员可在不同硬件上快速验证算法。更换机器人只需修改一段文本提示，无需为每个平台重新训练模型，大幅降低科研门槛。
动态环境操作：物流仓储中抓取传送带上的运动包裹，无需专门针对动态场景采集训练数据，零样本即可应对动态物体。
长时程复杂指令跟随：博物馆导览机器人执行“先去A展厅拍照，绕过人群去B展厅”这类多步骤长指令，Qwen-VLA的长时程导航能力恰好能够胜任。

来源：互联网

上一篇 揭秘：欧足联为何将下赛季欧冠交给阿里AI 下一篇 全球首个全景式碳核算大模型发布碳测算突破

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。