Wall-OSS-0.5:自变量机器人具身模型性能实测
摘要
Wall-OSS-0 5快速摘要 具身智能的核心命题——让机器人感知环境并自主操作——正在被新的
Wall-OSS-0.5快速摘要
具身智能的核心命题——让机器人感知环境并自主操作——正在被新的模型体系重新定义。X Square Robot(自变量机器人)推出的Wall-OSS-0.5,正是这一方向上的重要实践。这是一个视觉-语言-动作(VLA)模型,以Qwen2.5-VL-3B为骨干,扩展至4B参数规模。其最突出的能力是:无需针对任务微调即可在真实机器人上执行零样本操作,支持跨形态泛化,并胜任多任务操控。在技术层面,它相当于为机器人配备了一个集感知、推理与执行于一体的智能中枢。
- 模型名称:Wall-OSS-0.5
- 开发公司:X Square Robot(自变量机器人)
- 发布时间:2026年5月
- 模型规模:4B参数(3B VLM骨干+动作模块扩展)
- 核心功能:零样本机器人控制、视觉语言理解、连续动作生成
- 适用场景:真实机器人操作、家庭服务、工业分拣、柔性物体处理
- 开源情况:开放权重与代码(Wall-X生态)
- 技术特点:Gradient-Bridge协同训练+MoT混合专家架构+Flow Matching动作生成
- 性能数据:15任务微调平均60.5%,较π0.5提升17.5个百分点
- 零样本能力:17任务中4项达到≥80%任务进度
Wall-OSS-0.5的核心优势
这款模型最关键的突破在于重构了“训练”与“执行”的关系。早期多数模型遵循“视觉语言预训练→动作学习后适配”的流程,而Wall-OSS-0.5在预训练阶段就打通了视觉与动作的语义鸿沟。
- 零样本具身执行能力:通过名为Gradient-Bridge的机制,将动作token以交叉熵损失的形式直接注入VLM骨干网络。模型无需针对特定任务微调,即可在17项机器人任务中的4项实现≥80%的任务进度,其中涵盖抓取与柔性物体操作。这一结果有力验证了预训练阶段即可赋予模型基础执行能力的可行性。
- 跨形态机器人泛化:数据规模是泛化的基石。Wall-OSS-0.5覆盖20余种机器人形态,每轮训练使用超过100万条轨迹数据。单个checkpoint能够适配从双臂协作到移动平台等多种硬件,甚至在未曾见过的机器人结构上仍能保持53.6%的任务进度。换言之,其“智能核心”对不同“身体结构”具备较强的自适应能力。
- 多目标协同提升稳定性:模型巧妙地将动作token交叉熵、多模态交叉熵与Flow Matching三者联合训练。梯度桥在早期训练阶段即可稳定形成,最终在15项任务的微调测试中,平均任务进度达到60.5%。
- 具身理解能力增强:通过共享表示空间,实体定位任务的表现提升了21.8个百分点。多模态能力未出现退化,反而实现了正向的结构性迁移,视觉理解与动作控制真正进入了“协同进化”阶段。
- 优化收敛效率提升:采用Action-Space监督替代velocity space,使高噪声区域的权重提升约2倍。这一务实调整直接带来训练收敛速度翻倍,同时降低了低频轨迹的冗余计算开销,对实际部署效率提升明显。
Wall-OSS-0.5的核心功能
除了技术优势,其功能设计同样聚焦于“感知→理解→行动”的闭环链路,层次清晰。
- 视觉语言动作统一建模:将图像、文本与动作token统一视为序列。输入“将红色方块放入同色盘子”,模型即输出连续的机器人控制轨迹,实现从自然语言指令到末端运动轨迹的端到端生成。
- Flow Matching动作生成:借助连续流匹配技术,从高斯噪声逐步恢复出平滑的动作轨迹。该方法生成的控制信号平稳且连续,尤其适用于真实机器人关节的精确控制。
- 离散动作token预测:将连续动作压缩为RVQ token序列,以类似语言模型预测下一个词的方式预测动作序列。这种设计增强了动作的语义对齐能力,并提升了泛化性能。
- 多模态视觉理解:基于9000万条多模态语料训练后,模型能够根据输入图像与指令推理出完整操作路径,例如“打开抽屉→抓取物体→放入容器”这类多步骤结果。
- 机器人多任务控制:支持抓取、排序、插入、整理等结构化任务。仅需提供任务描述与当前视觉状态,模型即可输出连续动作序列,驱动机械臂执行。
Wall-OSS-0.5的技术原理
这些功能的底层由一系列架构创新支撑。以下逐一拆解关键组件。
- MoT混合专家架构:内部采用双路径设计——一个“VL专家”处理视觉语言token,另一个“Action专家”专攻动作token。两者通过共享注意力机制实现梯度跨域传播与统一表示学习,有效规避了多模态间的冲突。
- Gradient-Bridge协同训练:此机制堪称模型的核心亮点。它将动作token的交叉熵作为桥接信号,使动作梯度以“语言”形式反向传播至VLM骨干网络,与Flow Matching构成双路径监督。由此,动作学习与语言理解从“隔离”转变为“互促”。
- 视觉对齐RVQ分词器:利用残差向量量化(RVQ)将动作压缩为多层token,并引入未来帧预测约束。每个token不仅编码当前轨迹,还隐含未来视觉变化,大幅提升了语义一致性。
- Flow Matching轨迹建模:模型学习一个从高斯噪声到真实动作的连续速度场函数v(x, t)。通过对高噪声区域重点采样,模型能够更高效地学习复杂轨迹结构。
- DMuon优化器机制:通过Newton-Schulz正交化更新矩阵,在多种损失函数共存时统一Action模块与VL模块的梯度尺度,有效减少梯度冲突,提升收敛稳定性。
Wall-OSS-0.5与主流模型对比
| 维度 | Wall-OSS-0.5 | π0.5 | OpenVLA |
|---|---|---|---|
| 参数规模 | 4B(Qwen2.5-VL-3B+动作扩展) | 未公开 | 7B(LLaMA2骨干) |
| 零样本能力 | 17任务中4项≥80%进度 | 需微调后部署 | 需任务微调 |
| 微调性能 | 60.5%平均任务进度 | 43.0% | 约40%~55% |
| 动作生成方式 | Flow Matching+Token双路径 | 层级token+扩散策略 | 离散token预测 |
| 数据规模 | 100万轨迹/epoch+9000万多模态 | 跨机器人数据混合 | Open X-Embodiment 97万轨迹 |
| 架构特点 | MoT+Gradient-Bridge | 层级策略模型 | VLM+动作token |
对比结果显示,Wall-OSS-0.5最核心的差异化在于将“动作学习”嵌入预训练阶段,而非像π0.5那样依赖后训练适配,也不同于OpenVLA主要依靠离散token化动作获取基础控制能力。Gradient-Bridge机制使得动作梯度直接作用于VLM骨干,从而在预训练阶段就固化了具身控制能力。优势直观可见:零样本与跨形态泛化表现突出。当然,在极端复杂的长程任务中,稳定性仍需持续优化。但整体而言,其问世打破了“预训练仅用于初始化”的传统VLA范式。
如何使用Wall-OSS-0.5
对于动手实践的开发者,该模型的部署流程清晰,门槛并不高。
- 环境构建:创建Python 3.10环境,安装PyTorch与FlashAttention 2.7.4。执行
conda create -n wallx python=3.10即可,后续推理延迟将降低约20%。 - 依赖安装:克隆Wall-X仓库,安装LeRobot依赖。运行
pip install -e .后,机器人数据接口即构建完成,可直接加载20余种机器人形态的数据集。 - 模型加载:调用
from_pretrained加载4B模型权重。输入视觉与语言token即可输出动作logits,完成基础推理流程验证。 - 任务微调:使用LeRobot格式数据,执行
bash run.sh启动训练。在15个任务上,平均任务进度可从43%提升至60.5%,提升幅度显著。 - 真实部署:将训练好的checkpoint加载至机器人控制器,输入实时摄像头画面与指令,模型即输出连续动作控制信号,实现零样本的抓取与排序任务执行。
Wall-OSS-0.5相关资源
- 项目地址:https://x2robot.com/oss#resources
- Github仓库:https://github.com/X-Square-Robot/wall-x
- HuggingFace官网:https://huggingface.co/x-square-robot/wall-oss-0.5
- 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf
Wall-OSS-0.5的局限性
任何模型都存在短板,Wall-OSS-0.5也不例外。理解这些不足,才能更合理地运用它。
- 长程任务稳定性不足:在多阶段任务中,误差累积问题较为突出。例如在绳索收紧任务中,虽然取得了82%的进度,但存在轨迹漂移。根本原因在于Flow Matching在低噪声区域的表达能力有限,高精度控制时容易偏离目标。
- 硬件依赖较强:虽能适配20余种机器人形态,但不同自由度配置仍需参数适配。这推高了部署成本,接口标准化工作仍在推进中。
- 训练资源消耗较高:每轮100万条轨迹与9000万多模态数据的规模导致训练成本居高不下。分布式训练与DMuon优化器虽能缓解压力,但对硬件的要求依然较高。
Wall-OSS-0.5的典型应用场景
综合核心能力与局限,Wall-OSS-0.5最适用的场景已经明确。
- 家庭服务机器人:输入“整理桌面物品”,模型即可驱动机器臂执行抓取与分类,输出结构化摆放结果,适合家庭自动化清理等任务。
- 工业分拣系统:结合视觉检测结果与分类指令,控制机械臂完成高速分拣,输出标准化物料分类结果,有助于提升产线效率。
- 柔性物体操作:针对“折叠毛巾”或“整理绳索”等非刚性物体操作,Wall-OSS-0.5通过连续动作生成输出优秀的柔性控制结果,解决了传统方法的典型痛点。
- 科研机器人实验:输入复杂多步骤任务描述,模型输出可解释的动作序列,为具身智能与控制策略研究提供理想的实验平台。
- 多机器人协作系统:输入协同任务指令,输出多机械臂分工动作序列,实现协同搬运与装配等复杂任务。
Wall-OSS-0.5常见问题
Wall-OSS-0.5是否支持零样本部署?
支持。17项任务测试中,4项达到80%以上的进度表现,证明预训练已具备基础执行能力。但对特别复杂的任务,仍建议进行微调优化。
Wall-OSS-0.5和π0.5哪个好?
从15项任务微调结果看,Wall-OSS-0.5的60.5%显著高于π0.5的43.0%,性能差异主要源于Gradient-Bridge机制。不过π0.5在部分家庭任务的稳定性上仍有自身优势,具体选择需结合实际应用场景。
Wall-OSS-0.5如何计费或使用成本?
模型本身开源免费,主要成本集中在训练环节,这源于100万条轨迹/轮的数据处理与分布式训练的资源消耗。
Wall-OSS-0.5支持实时控制吗?
支持有限度的实时推理。Flow Matching用于连续动作生成,总体效果良好,但在高频控制场景下受延迟约束,更适合准实时的机器人任务。
Wall-OSS-0.5是否开源?
是的。提供了模型权重、训练代码与推理脚本。部分训练细节仍在逐步开放,目前已非常适合研究或二次开发。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。