国产具身大模型Wall-OSS-0.5开源:零样本部署实测
摘要
2026年5月,国内具身智能领域迎来了一次值得关注的技术突破。自变量机器人(X Square Robot
2026年5月,国内具身智能领域迎来了一次值得关注的技术突破。自变量机器人(X Square Robot)正式开源了其最新研发的VLA(视觉-语言-动作)模型——Wall-OSS-0.5。这个模型的核心突破在于:它直接跳过了那个让行业头疼已久的“考前微调”环节,实现了在真实机器人上的“零样本”部署。换句话说,模型不再需要针对每个具体任务进行专项训练,拿来就能用,而且效果不俗。

从“定制脚本”到“通用大脑”:行业困局如何被打破?
长期以来,具身智能领域有一个心照不宣的困境:大多数模型在发布测试成绩之前,都得针对特定任务进行一番大规模微调。这就带来一个棘手的问题——你很难判断,这个模型到底是真正具备了“通用大脑”的泛化能力,还是仅仅记住了某个特定场景的操作脚本?
Wall-OSS-0.5给出的回答很干脆:不微调,直接上。该模型在超过20种机器人形态、百万条轨迹数据以及9000万条多模态语料库上完成了预训练。之后,团队没有做任何针对性的任务微调,就把它直接部署到了真实机器人上,测试涵盖语义理解、刚性/柔性物体操作、精细化操作等17个挑战性任务。结果如何?数据说话。
数据说话:零样本部署与微调上限的双重突破
测试结果远远超出了预期。几个关键数据值得拿出来说说:
零样本部署能力:在未经微调的情况下,400k预训练步数的模型版本,在17个零样本任务中,有4个任务得分超过了80分(满分100)。尤其让人意外的是,在“绳子收紧”这个从未在预训练中间出现过的柔性物体任务上,它竟然拿下了82分。这意味着模型并非死记硬背,而是具备了某种物理直觉的迁移能力。
微调上限显著提升:即便是需要针对性微调的场景,Wall-OSS-0.5也展现了惊人的学习效率。和行业标杆π0.5做个对比:在同等数据预算下,Wall-OSS-0.5的平均任务进度领先了17.5分。而在精细化操作任务(比如精密插入)中,它的成功率提升几乎是数量级的——这个差距,已经不是一个量级那么简单了。
“能力重塑”而非退化:一个有趣的发现是,模型在高强度动作训练后,其多模态感知能力不仅没有受损,反而在视觉定位和推理能力上获得了“重塑式”进化。这打破了传统认知——以往人们总担心“学动作会忘掉看和说”,但这里恰恰相反。
四项关键技术,撑起这场技术跃迁
Wall-OSS-0.5的出色表现,并非偶然。团队在底层技术上做了四件实实在在的事情:
梯度桥接(Gradient Bridging):核心思路是把动作监督信号直接强行注入预训练主干,让模型在底层表征上真正实现“看、说、动”的统一。这就像打通了视觉、语言和动作之间的“任督二脉”,不再是各说各话。
视觉对齐Tokenizer:确保每一个动作Token都承载了明确的视觉语义。换句话说,模型不再只是“看到”一个物体,而是能够理解这个物体的物理属性,并基于此推演出合理的动作。
动作空间监督:把训练重心从琐碎的高频细节,转向轨迹的整体结构。这好比教练教运动员,不再纠结于每一个小动作的精准度,而是关注整套动作的流畅性和有效性。结果是收敛效率大幅提升。
DMuon分布式优化:这是底层系统优化的功夫。研发团队将异构计算开销降低了100倍,使得上述复杂的训练方法,在大规模集群上真正具备了落地的可能性。否则,再好的算法也跑不起来。
一个里程碑,而非一次更新
目前,自变量机器人已经将Wall-OSS-0.5的相关模型权重、训练代码及数据集接口进行了全栈开源。从行业视角来看,这不仅仅是一个新模型的发布,而是对具身智能开发范式的一次重新定义——从单纯追求“单项任务的成功率”,转向了“通用物理直觉的迁移”。
对于广大的研究者和开发者而言,这意味着具身智能的基座模型,终于进入了“可复现、可验证、可挑战”的新阶段。通用机器人在复杂真实环境中的落地步伐,或许会因此大大加快。这确实值得期待。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。