菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI创作与模型 > Qwen-VLA视觉语言模型评测:通义具身智能新标杆
模型技术 通义具身智能新标杆

Qwen-VLA视觉语言模型评测:通义具身智能新标杆

2026-06-02
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

Qwen-VLA是阿里巴巴通义实验室推出的视觉-语言-动作统一模型,基于Qwen多模态骨干,可理解

先分享一个值得关注的消息——阿里巴巴通义实验室正式发布了Qwen-VLA。这是一款融合视觉、语言与动作的具身智能模型,基于Qwen多模态架构打造。核心突破在于:它不仅能解析视觉画面和语言指令,还能直接输出连续动作序列,驱动机器人完成实际操作。从工业机械臂到家用服务机器人,这套模型都能支持,并且开源发布,值得深入研究。

Qwen-VLA快速摘要

  • 模型名称:Qwen-VLA(视觉-语言-动作统一模型)
  • 开发公司:阿里巴巴通义实验室Qwen团队
  • 发布时间:2026年5月29日发布
  • 主要功能:统一建模视觉理解、语言指令解析、机器人操作控制、视觉语言导航及轨迹预测。
  • 使用要求:基于Python推理环境或机器人控制系统部署,需输入视觉画面与机器人状态数据进行推理。
  • 开源情况:提供论文、代码及模型权重访问入口
  • 适用场景:工业机器人控制、家庭服务机器人、视觉导航系统、动态物体操作及具身AI研究。
  • 技术特点:采用Qwen3.5-4B视觉语言模型与1.15B DiT动作解码器组合,通过统一动作轨迹预测框架实现跨任务学习。
  • 价格:开源模型可本地部署使用,云端API成本取决于具体平台计费策略。
Qwen-VLA – 阿里通义推出的通用视觉语言动作具身智能模型

Qwen-VLA的核心优势

  • 跨任务统一建模能力。设计思路很清晰:将操作、导航、轨迹预测统一转化为“动作序列预测”问题。借助共享的视觉语言表征,模型能在不同任务间迁移学习经验。在LIBERO、RoboCasa等基准测试中,其表现已接近甚至超越专为单一任务设计的模型。这说明统一策略路径是可行的。
  • 跨本体适配能力。不同机器人的硬件差异巨大,比如关节数量、控制频率各不相同。Qwen-VLA引入“本体感知提示”机制,将这些参数编码为文本输入,无需调整模型结构即可适配11种机器人平台。一个模型驱动多种硬件,显著降低部署成本。
  • 文本到动作预训练效率。一个独特的训练阶段叫T2A——仅靠文本输入训练DiT动作解码器,让模型先学习动作分布和控制模式。计算成本约为联合训练的十分之一,仅需2000步即可达到71.1%的性能峰值。性价比突出。
  • 真实环境泛化能力。在ALOHA双臂机器人实验中,当场景中的颜色、物体、背景、位置均发生变化时,平均成功率达到76.9%。相比之下,从头训练的基线模型只有48.5%。这个差距表明Qwen-VLA具备真正的泛化能力,而非死记硬背。
  • 动态操作零样本能力。在DOMINO动态操控基准中,未使用任何特定任务的训练数据,直接上线便取得26.6%的成功率。这一成绩已超过部分经过专用微调的模型。连续动作生成能力确实表现出色。

Qwen-VLA的核心功能

  • 统一机器人控制:输入视觉观察与语言指令,输出连续动作序列,实现对操作、导航及轨迹预测的统一控制。
  • 视觉语言导航:结合环境图像与路径指令生成导航动作,在VLN-CE任务中R2R指标达57.5%,支持长时程路径规划与目标定位。
  • 跨本体机器人控制:通过robot prompt描述不同机器人结构,如单臂或双臂系统,为Franka、ALOHA等多平台提供统一控制接口。
  • 动态物体操作:支持移动目标抓取任务,在动态场景中根据视觉变化实时调整动作轨迹,无需专门训练动态数据集。
  • 多任务联合推理:在同一模型中处理VQA、导航与操作任务,通过共享视觉语言表示提升跨任务泛化能力。

Qwen-VLA的技术原理

  • 统一动作轨迹建模。核心技术思路:将“观察+指令”映射为“动作序列预测”。基于Transformer结构,所有任务共享同一个视觉语言空间,参数得以复用,迁移学习自然更加高效。
  • 视觉语言主干与DiT解耦架构。Qwen-VLA采用Qwen3.5-4B作为视觉语言编码器,负责感知与理解;另用一个1.15B的DiT解码器专门生成连续动作轨迹。感知与控制分离,分工明确,运行效率高。
  • 本体条件化提示机制。机器人的硬件参数——自由度、控制频率、末端执行器类型——都被编码为文本输入。这样同一套网络无需改动结构,就能适配不同机器人平台。设计巧妙且实用。
  • 文本到动作预训练(T2A)。冻结视觉语言模型,仅训练DiT解码器。在无图像输入的情况下,模型先学习动作分布,掌握语言到动作的映射关系。计算成本降至原来的十分之一左右,效率惊人。
  • 多阶段联合优化机制。训练流程分为四步:T2A、CPT、SFT、RL。从学习语言先验,到对齐视觉信息,再到闭环控制优化,步步为营。这种渐进式训练确保策略模型稳定收敛。

Qwen-VLA与主流模型对比

维度 Qwen-VLA Wall-OSS-0.5 π₀.₅ RT-2
开发机构 阿里巴巴通义实验室 Wall AI Physical Intelligence Google DeepMind
核心定位 通用视觉-语言-动作模型 开源具身基础模型 通用机器人策略模型 视觉语言机器人模型
任务覆盖 操作、导航、轨迹预测统一建模 机器人操作与控制 机器人操作任务为主 机器人操作任务
跨本体能力 支持11种机器人平台 支持多机器人迁移 需要额外适配训练 依赖训练平台
动态操作能力 DOMINO零样本26.6% 公开数据有限 约7.5% 未公开相关结果
真实环境泛化 ALOHA OOD成功率76.9% 强调开放环境泛化 约41.5% 未公布系统性OOD结果
训练框架 T2A+CPT+SFT+RL 大规模预训练+微调 端到端训练 多模态预训练
开源情况 开源代码与模型 开源 部分开放 未开源

从技术路线来看,Qwen-VLA与Wall-OSS-0.5均属于新一代具身基础模型,但Qwen-VLA的策略更为前沿——它统一了操作、导航与轨迹预测,并支持11种机器人平台。相比之下,π₀.₅更聚焦操作层面,RT-2则代表相对早期的VLA路线。根据公开数据,Qwen-VLA在ALOHA真实场景的分布外测试中达到76.9%的成功率,在DOMINO动态操作中也有26.6%的零样本表现。跨场景泛化与跨本体控制,确实是它的核心优势。

如何使用Qwen-VLA

  1. 环境部署:配置好Python推理环境和PyTorch框架,安装必要依赖库,加载Qwen3.5-4B和DiT解码器的权重。建议GPU显存16GB以上,确保流畅生成连续动作。
  2. 机器人配置输入:将机器人结构参数写成文本提示,例如“single arm, 20Hz control frequency, mobile base”。模型会根据该提示生成相应动作。
  3. 视觉与指令输入:输入RGB图像或视频帧,再配合自然语言指令,比如“move to red object and grasp it”。模型随即输出下一步的动作序列。
  4. 动作解码与执行:模型输出连续的关节角度或轨迹点,通过机器人控制接口执行,形成闭环控制系统。
  5. 系统迭代优化:结合SFT和RL阶段优化策略。在仿真环境中调整reward函数,能有效提升任务的成功率和稳定性。

Qwen-VLA相关资源

  • 项目官网:https://qwen.ai/blog?id=qwenvla
  • GitHub仓库:https://github.com/QwenLM/Qwen-VLA
  • arXiv技术论文:https://arxiv.org/pdf/2605.30280

Qwen-VLA的局限性

  • 长时序任务稳定性不足。在超长任务链中可能出现动作漂移——主要原因是累积误差在传播过程中逐渐放大。目前主要依赖强化学习阶段来缓解该问题。
  • 复杂动态场景鲁棒性有限。高速运动或强遮挡场景下,成功率下降较为明显。根本原因在于训练数据中动态场景的占比仍不够高。
  • 高计算资源需求。DiT动作解码器与视觉语言模型联合推理,对GPU显存要求较高。低算力边缘设备目前无法流畅运行。

Qwen-VLA的典型应用场景

  • 工业机器人控制:输入“装配零件到指定位置”,模型输出机械臂的多步轨迹,可直接用于自动化生产线。
  • 家庭服务机器人:输入“整理桌面并清理杯子”,机器人自动识别物体并执行多步操作。
  • 物流与仓储系统:输入“抓取传送带上移动包裹”,系统实时调整轨迹,完成动态抓取。
  • 科研机器人平台:研究人员只需修改文本提示,就能快速将模型迁移至不同机器人硬件进行实验。
  • 导航与巡检系统:输入“从A点移动到B点并避开障碍物”,模型生成路径规划和避障动作序列。

Qwen-VLA常见问题

Qwen-VLA是什么类型的模型?

它是视觉-语言-动作统一模型,将感知、语言理解和动作生成整合为一个策略网络,专门用于机器人控制和具身智能任务。

Qwen-VLA如何实现跨机器人控制?

通过本体感知提示机制,将机器人结构参数编码为文本输入。同一套模型无需改动结构,即可适配不同机器人平台。

Qwen-VLA支持动态物体操作吗?

支持。在DOMINO基准测试中,它零样本达到26.6%的成功率。即便面对未见过的动态物体环境,也能执行抓取和跟踪任务。

Qwen-VLA与传统VLM有什么区别?

传统VLM仅处理视觉和语言理解,而Qwen-VLA则进一步扩展到连续动作生成。简单来说,它不只能“看”和“想”,还能让机器人真正“动手”。

Qwen-VLA适合哪些应用?

工业机器人、服务机器人、导航系统和动态操作任务都非常适合。尤其适用于需要跨场景迁移的具身智能应用,其优势更为显著。


来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多