模型技术通义具身智能新标杆

Qwen-VLA视觉语言模型评测：通义具身智能新标杆

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Qwen-VLA是阿里巴巴通义实验室推出的视觉-语言-动作统一模型，基于Qwen多模态骨干，可理解

先分享一个值得关注的消息——阿里巴巴通义实验室正式发布了Qwen-VLA。这是一款融合视觉、语言与动作的具身智能模型，基于Qwen多模态架构打造。核心突破在于：它不仅能解析视觉画面和语言指令，还能直接输出连续动作序列，驱动机器人完成实际操作。从工业机械臂到家用服务机器人，这套模型都能支持，并且开源发布，值得深入研究。

Qwen-VLA快速摘要

模型名称：Qwen-VLA（视觉-语言-动作统一模型）
开发公司：阿里巴巴通义实验室Qwen团队
发布时间：2026年5月29日发布
主要功能：统一建模视觉理解、语言指令解析、机器人操作控制、视觉语言导航及轨迹预测。
使用要求：基于Python推理环境或机器人控制系统部署，需输入视觉画面与机器人状态数据进行推理。
开源情况：提供论文、代码及模型权重访问入口
适用场景：工业机器人控制、家庭服务机器人、视觉导航系统、动态物体操作及具身AI研究。
技术特点：采用Qwen3.5-4B视觉语言模型与1.15B DiT动作解码器组合，通过统一动作轨迹预测框架实现跨任务学习。
价格：开源模型可本地部署使用，云端API成本取决于具体平台计费策略。

Qwen-VLA的核心优势

跨任务统一建模能力。设计思路很清晰：将操作、导航、轨迹预测统一转化为“动作序列预测”问题。借助共享的视觉语言表征，模型能在不同任务间迁移学习经验。在LIBERO、RoboCasa等基准测试中，其表现已接近甚至超越专为单一任务设计的模型。这说明统一策略路径是可行的。
跨本体适配能力。不同机器人的硬件差异巨大，比如关节数量、控制频率各不相同。Qwen-VLA引入“本体感知提示”机制，将这些参数编码为文本输入，无需调整模型结构即可适配11种机器人平台。一个模型驱动多种硬件，显著降低部署成本。
文本到动作预训练效率。一个独特的训练阶段叫T2A——仅靠文本输入训练DiT动作解码器，让模型先学习动作分布和控制模式。计算成本约为联合训练的十分之一，仅需2000步即可达到71.1%的性能峰值。性价比突出。
真实环境泛化能力。在ALOHA双臂机器人实验中，当场景中的颜色、物体、背景、位置均发生变化时，平均成功率达到76.9%。相比之下，从头训练的基线模型只有48.5%。这个差距表明Qwen-VLA具备真正的泛化能力，而非死记硬背。
动态操作零样本能力。在DOMINO动态操控基准中，未使用任何特定任务的训练数据，直接上线便取得26.6%的成功率。这一成绩已超过部分经过专用微调的模型。连续动作生成能力确实表现出色。

Qwen-VLA的核心功能

统一机器人控制：输入视觉观察与语言指令，输出连续动作序列，实现对操作、导航及轨迹预测的统一控制。
视觉语言导航：结合环境图像与路径指令生成导航动作，在VLN-CE任务中R2R指标达57.5%，支持长时程路径规划与目标定位。
跨本体机器人控制：通过robot prompt描述不同机器人结构，如单臂或双臂系统，为Franka、ALOHA等多平台提供统一控制接口。
动态物体操作：支持移动目标抓取任务，在动态场景中根据视觉变化实时调整动作轨迹，无需专门训练动态数据集。
多任务联合推理：在同一模型中处理VQA、导航与操作任务，通过共享视觉语言表示提升跨任务泛化能力。

Qwen-VLA的技术原理

统一动作轨迹建模。核心技术思路：将“观察+指令”映射为“动作序列预测”。基于Transformer结构，所有任务共享同一个视觉语言空间，参数得以复用，迁移学习自然更加高效。
视觉语言主干与DiT解耦架构。Qwen-VLA采用Qwen3.5-4B作为视觉语言编码器，负责感知与理解；另用一个1.15B的DiT解码器专门生成连续动作轨迹。感知与控制分离，分工明确，运行效率高。
本体条件化提示机制。机器人的硬件参数——自由度、控制频率、末端执行器类型——都被编码为文本输入。这样同一套网络无需改动结构，就能适配不同机器人平台。设计巧妙且实用。
文本到动作预训练（T2A）。冻结视觉语言模型，仅训练DiT解码器。在无图像输入的情况下，模型先学习动作分布，掌握语言到动作的映射关系。计算成本降至原来的十分之一左右，效率惊人。
多阶段联合优化机制。训练流程分为四步：T2A、CPT、SFT、RL。从学习语言先验，到对齐视觉信息，再到闭环控制优化，步步为营。这种渐进式训练确保策略模型稳定收敛。

Qwen-VLA与主流模型对比

维度	Qwen-VLA	Wall-OSS-0.5	π₀.₅	RT-2
开发机构	阿里巴巴通义实验室	Wall AI	Physical Intelligence	Google DeepMind
核心定位	通用视觉-语言-动作模型	开源具身基础模型	通用机器人策略模型	视觉语言机器人模型
任务覆盖	操作、导航、轨迹预测统一建模	机器人操作与控制	机器人操作任务为主	机器人操作任务
跨本体能力	支持11种机器人平台	支持多机器人迁移	需要额外适配训练	依赖训练平台
动态操作能力	DOMINO零样本26.6%	公开数据有限	约7.5%	未公开相关结果
真实环境泛化	ALOHA OOD成功率76.9%	强调开放环境泛化	约41.5%	未公布系统性OOD结果
训练框架	T2A+CPT+SFT+RL	大规模预训练+微调	端到端训练	多模态预训练
开源情况	开源代码与模型	开源	部分开放	未开源

从技术路线来看，Qwen-VLA与Wall-OSS-0.5均属于新一代具身基础模型，但Qwen-VLA的策略更为前沿——它统一了操作、导航与轨迹预测，并支持11种机器人平台。相比之下，π₀.₅更聚焦操作层面，RT-2则代表相对早期的VLA路线。根据公开数据，Qwen-VLA在ALOHA真实场景的分布外测试中达到76.9%的成功率，在DOMINO动态操作中也有26.6%的零样本表现。跨场景泛化与跨本体控制，确实是它的核心优势。

如何使用Qwen-VLA

环境部署：配置好Python推理环境和PyTorch框架，安装必要依赖库，加载Qwen3.5-4B和DiT解码器的权重。建议GPU显存16GB以上，确保流畅生成连续动作。
机器人配置输入：将机器人结构参数写成文本提示，例如“single arm, 20Hz control frequency, mobile base”。模型会根据该提示生成相应动作。
视觉与指令输入：输入RGB图像或视频帧，再配合自然语言指令，比如“move to red object and grasp it”。模型随即输出下一步的动作序列。
动作解码与执行：模型输出连续的关节角度或轨迹点，通过机器人控制接口执行，形成闭环控制系统。
系统迭代优化：结合SFT和RL阶段优化策略。在仿真环境中调整reward函数，能有效提升任务的成功率和稳定性。

Qwen-VLA相关资源

项目官网：https://qwen.ai/blog?id=qwenvla
GitHub仓库：https://github.com/QwenLM/Qwen-VLA
arXiv技术论文：https://arxiv.org/pdf/2605.30280

Qwen-VLA的局限性

长时序任务稳定性不足。在超长任务链中可能出现动作漂移——主要原因是累积误差在传播过程中逐渐放大。目前主要依赖强化学习阶段来缓解该问题。
复杂动态场景鲁棒性有限。高速运动或强遮挡场景下，成功率下降较为明显。根本原因在于训练数据中动态场景的占比仍不够高。
高计算资源需求。DiT动作解码器与视觉语言模型联合推理，对GPU显存要求较高。低算力边缘设备目前无法流畅运行。

Qwen-VLA的典型应用场景

工业机器人控制：输入“装配零件到指定位置”，模型输出机械臂的多步轨迹，可直接用于自动化生产线。
家庭服务机器人：输入“整理桌面并清理杯子”，机器人自动识别物体并执行多步操作。
物流与仓储系统：输入“抓取传送带上移动包裹”，系统实时调整轨迹，完成动态抓取。
科研机器人平台：研究人员只需修改文本提示，就能快速将模型迁移至不同机器人硬件进行实验。
导航与巡检系统：输入“从A点移动到B点并避开障碍物”，模型生成路径规划和避障动作序列。

Qwen-VLA常见问题

Qwen-VLA是什么类型的模型？

它是视觉-语言-动作统一模型，将感知、语言理解和动作生成整合为一个策略网络，专门用于机器人控制和具身智能任务。

Qwen-VLA如何实现跨机器人控制？

通过本体感知提示机制，将机器人结构参数编码为文本输入。同一套模型无需改动结构，即可适配不同机器人平台。

Qwen-VLA支持动态物体操作吗？

支持。在DOMINO基准测试中，它零样本达到26.6%的成功率。即便面对未见过的动态物体环境，也能执行抓取和跟踪任务。

Qwen-VLA与传统VLM有什么区别？

传统VLM仅处理视觉和语言理解，而Qwen-VLA则进一步扩展到连续动作生成。简单来说，它不只能“看”和“想”，还能让机器人真正“动手”。

Qwen-VLA适合哪些应用？

工业机器人、服务机器人、导航系统和动态操作任务都非常适合。尤其适用于需要跨场景迁移的具身智能应用，其优势更为显著。

来源：互联网

上一篇 自己实现Agent CLI：从零搭建到部署完整指南 下一篇 最新ControlFoley榜单:小米开源可控视频音效生成多模态V2A模型

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。