菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > Qwen-VLA深度对比:阿里通义视觉语言动作模型实力评测
产业资讯 综合资讯

Qwen-VLA深度对比:阿里通义视觉语言动作模型实力评测

2026-06-03
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

通义实验室推出的Qwen-VLA,为人形机器人行业开辟了一条极具潜力的技术路径——通过单一

通义实验室推出的Qwen-VLA,为人形机器人行业开辟了一条极具潜力的技术路径——通过单一模型统一处理视觉感知、语义理解与动作执行。传统视觉语言模型与机器人运动控制系统长期各自为政,更换硬件平台或任务场景都意味着从头建模。Qwen-VLA的目标是成为“通用大脑”,实现即插即用的零样本泛化能力。

具体来说,该模型以Qwen3.5-4B作为视觉语言基座,搭配1.15B参数的DiT动作解码器。核心创新在于采用统一的动作轨迹预测框架,将抓取操作、自主导航、轨迹规划三类任务整合进同一模型。更关键的是,团队设计了“本体感知提示条件化”机制——仅需修改一段结构化的文本描述,模型即可适配从WidowX到Franka Panda、从Mobile ALOHA到Galaxea R1等11种机器人平台,涵盖单臂、双臂、移动底盘等完全不同的硬件拓扑。

在多个行业基准测试中,Qwen-VLA表现超出预期,直接超越了多个专用模型。零样本动态操作成功率达到了26.6%,意味着无需针对运动场景进行专门训练,即可精准抓取移动中的物体。这一成果标志着具身智能正从“技能专家”向“通用行动者”迈进。

Qwen-VLA的核心能力

在功能层面,Qwen-VLA实现了多个关键突破:

  • 跨任务执行能力:单一模型同时完成操作、导航、轨迹预测三大任务。过去需要分别为每个任务训练独立模型,现在一个框架即可覆盖。
  • 跨硬件即插即用:支持WidowX、Franka Panda、Mobile ALOHA、Galaxea R1等11种机器人平台,仅需修改文本提示即可自动适配硬件配置,无需额外训练。
  • 开放世界零样本泛化:即使面对从未出现过的颜色、物体、位置、背景或指令,模型仍能保持高成功率,无需为新环境收集训练数据。
  • 动态目标操作:无需动态训练数据即可零样本操作运动中的物体。在DOMINO基准上取得26.6%成功率,超越专门为动态场景微调的模型。
  • 长距离自主导航:引入任务自适应token分配机制,为长指令保留更丰富的历史上下文信息。在VLN-CE基准上,R2R达到57.5%,RxR达到59.6%,均超越专用导航模型。

Qwen-VLA的技术架构

Qwen-VLA是如何实现这些能力的?技术层面包含几个核心设计。

统一动作轨迹预测框架。传统方法将操作、导航、轨迹预测拆分为独立模型,导致跨任务迁移困难。但研究团队发现,这三个任务的计算逻辑完全同构——都是“观察环境+理解指令→预测动作序列”。因此,他们采用Qwen3.5-4B作为视觉语言基座,配合1.15B的DiT动作解码器,不同任务的数据在同一训练过程中协同监督,视觉定位与空间推理能力实现跨任务迁移。

本体感知提示条件化。机器人硬件差异是长期挑战。传统方案为每种硬件定制独立分支,成本高且维护复杂。Qwen-VLA的巧妙之处在于:将硬件差异编码为结构化文本提示,作为唯一的外部接口。提示包含机器人型号、臂数、关节配置、控制频率等信息,直接输入视觉语言模型。骨干网络的隐藏状态与噪声动作块拼接后,一并送入DiT解码器。推理时只需替换提示文本,即可切换至不同平台,架构本身无需修改。

文本到动作DiT预训练(T2A)。训练中的一个现实挑战是:视觉语言模型已预训练完成,但DiT解码器从零初始化。直接联合训练不仅效果不佳,还可能破坏已有的VLM成果。解决方案分两步:先冻结VLM,单独训练DiT,且不提供图像,仅输入文本。其目的是让DiT先掌握动作分布、文本与动作的语义对齐以及本体条件化能力。这一阶段的计算成本仅为多模态联合训练的十分之一。消融实验验证了该策略:20%合成数据加80%真实数据的组合最佳,达到71.1%成功率;且无图像训练优于有图像训练,2000步即可达到峰值。

Qwen-VLA的使用流程

使用层面,操作路径清晰完整:

  • 环境搭建:从GitHub克隆官方代码库,安装依赖,下载预训练权重。这些常规步骤不再赘述。
  • 模型推理:根据实际机器人硬件生成本体提示,将图像、指令和提示一同输入模型。输出的动作序列直接下发至机器人执行,循环迭代实现闭环控制。
  • 模型训练(进阶):如需自定义训练或微调,可按照T2A → CPT → SFT → RL四阶段流程逐步推进,分别提升动作生成、视觉感知、任务适配和闭环优化能力。
  • 跨平台部署:切换机器人时仅需修改提示中的硬件描述字段。若适配全新本体,采集数据后在SFT阶段微调即可,流程极为简洁。

Qwen-VLA的核心竞争力

回顾来看,Qwen-VLA的优势集中在以下几个维度:

  • 通用模型超越专用方案:在5个仿真基准中,3个表现超过最佳专用模型。通用模型碾压专用方案,这正是该项目的真正突破点。
  • 轻量级跨硬件适配:只需修改一段文本提示即可完成硬件切换,无需为每种机器人重新训练模型,极大降低了实际部署门槛。
  • 高效预训练策略:T2A阶段的计算开销仅为多模态训练的十分之一,同时避免干扰VLM已有成果,资源利用效率极高。
  • 强分布外泛化能力:真实世界平均OOD成功率达到76.9%,比π₀.₅高出35.4个百分点,比无预训练版本高出40.7个百分点,差距显著。
  • 零样本动态场景突破:DOMINO基准上零样本26.6%,超过了专为动态场景微调的PUMA(17.2%),证明其通用性。

Qwen-VLA的项目入口

  • 项目官网:https://qwen.ai/blog?id=qwenvla
  • GitHub仓库:https://github.com/QwenLM/Qwen-VLA
  • arXiv技术论文:https://arxiv.org/pdf/2605.30280

Qwen-VLA与同类方案的对比

与当前具身智能模型的竞品对比,Qwen-VLA与π₀.₅(Physical Intelligence)的差异非常鲜明:

维度 Qwen-VLA π₀.₅ (Physical Intelligence)
架构基础 Qwen3.5-4B VLM + 1.15B DiT 解码器 基于流匹配的 VLA 架构
任务统一性 操作+导航+轨迹预测三任务统一 专注操作任务
跨硬件方案 文本提示条件化,无需改架构 需针对不同本体单独微调
支持平台数量 11 种(WidowX、ALOHA、Franka 等) 主要支持少数主流平台
预训练策略 T2A 无视觉预训练(计算成本 1/10) 端到端多模态联合训练
动态操作 零样本 26.6%(DOMINO) 零样本 7.5%
分布外泛化 真实世界平均 76.9% 41.5%
导航能力 VLN-CE R2R 57.5%,超越专用导航模型 不支持
开源程度 论文+代码+权重全开源 部分开源
训练效率 T2A 阶段计算成本为多模态的 1/10 标准多模态训练成本

Qwen-VLA的典型应用场景

这项技术不仅停留在学术层面,更对应着具体的产业落地场景:

  • 多任务工业机器人:同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,无需为每个任务单独部署模型,现场维护和升级工作量显著下降。
  • 服务机器人跨场景部署:一台家用机器人在厨房执行操作、在客厅自主导航、在走廊规划轨迹——任务类型无缝切换,背后依赖的就是这个统一模型。
  • 科研教育平台:研究人员可在不同硬件上快速验证算法。更换机器人只需修改一段文本提示,无需为每个平台重新训练模型,大幅降低科研门槛。
  • 动态环境操作:物流仓储中抓取传送带上的运动包裹,无需专门针对动态场景采集训练数据,零样本即可应对动态物体。
  • 长时程复杂指令跟随:博物馆导览机器人执行“先去A展厅拍照,绕过人群去B展厅”这类多步骤长指令,Qwen-VLA的长时程导航能力恰好能够胜任。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多