阿里千问布局具身智能:三大关键信号解读
摘要
回看过去这两年,AI的形态变化之快,简直让人有点跟不上节奏。从能写诗写代码的文本模
回看过去这两年,AI的形态变化之快,简直让人有点跟不上节奏。从能写诗写代码的文本模型,到会生图P图的图像模型,再到能生成以假乱真视频的视觉模型,AI认识世界的能力,确实已经开始逼近人类了。
智能体时代的到来,让大家慢慢意识到,AI不能只是网页里那个回答问题的对话框,它得能操控电脑、完成任务。而到了今天,各家AI公司内部其实已经形成了一个隐秘又庞大的共识:AI的终极形态,不能只困在屏幕里,它必须走向物理世界。
于是,具身智能(Embodied AI)这个词,去年还很少被普通人听到,但到了今年——2026年,已经被炒成了“具身智能的元年”。
阿里通义千问团队显然不想掉队。为了尽早抢占生态位,也为了不被竞争对手甩开身位,他们交出了在具身智能领域的第一份正式答卷:Qwen-VLA。

这是阿里延续其“重视生态+全面覆盖”策略的一次明确表态。VLA,全称是Vision-Language-Action。这不仅标志千问正式跨入具身智能赛道,还向整个行业释放了一个强烈信号:阿里要做的,不是针对某一款机器人的“打补丁”式优化,而是要打造一个能统领全场景的基座模型。
01 机器人行业正在呼唤“秦始皇”
在深入技术细节之前,得先看清它试图解决的商业痛点。
说白了,现在的机器人行业,碎片化问题极其严重。发布会上,企业总会被问到一个问题:“具身智能会在哪个领域优先落地?”答案可能是家用,也可能是制造业。但说实话,这些答案都太宽泛了。真到演示环节,我们看到的往往是家用机器人表演叠衣服,工业机器人表演物品分类。
换句话说,叠衣服的机器人不会扫地和切菜,而分拣物品的机器人,也不会去拧螺丝。如果你想让它多干几件事,对不起,得针对不同品牌、不同型号单独定制算法。
这不仅在技术上背离了通用人工智能(AGI)的理念,商业上更是难以跑通。这种“专机专用”的模式,带来的是极高的研发和交付成本,完全没法享受大模型时代的规模化优势。边际成本降不下来,机器人走进千家万户就只能是一句空话。
而Qwen-VLA的野心,恰恰就在这里。它要做具身智能领域的“秦始皇”——没错,就是要实现“车同轨,书同文”。
仔细想想,这和千问做大语言模型的思路几乎一模一样:旗舰模型未必能追上国外顶尖水平,但不同规模的开源模型,却成了全球最主流的基座。甚至有传闻说,Anthropic新推出的Opus 4.8,都可能蒸馏了Qwen系列。
回到具身智能领域,在Qwen-VLA的架构里,桌面机械臂抓取、双臂协同、视觉语言导航——这些截然不同的环节,被统一抽象成了同一个底层数学问题:在特定的视觉观察、语言指令和机器人形态条件下,预测下一步应该执行的连续动作轨迹。
这意味着,用一个通用的策略模型,就能横跨多种不同形态的硬件。一旦这种“通用大一统”的路径跑通,机器人软件的复用率会指数级上升。这才是阿里千问在具身智能领域实现商业落地的真正破局点。
02 “大脑+小脑”的技术路线
搞清楚了商业逻辑,再深入到技术层面就容易理解了。
具身智能是比大语言模型和智能体更高级的AI形态。它必须能与物理世界交互,这就意味着,让模型在仿真环境中学习,是跳不过去的一环。
目前主流的世界生成路径有两条:一条靠视频生成重建世界,比如OpenAI的Sora和Google的Genie;另一条靠3D空间生成进行显式建模,比如李飞飞的World Labs。
但Qwen-VLA没有简单地跟着这些路线走,它选了一条很有意思的融合路径——“VLA大一统策略模型+扩散动作生成+仿真强化学习”。
这三个词,每个都不算新,但把它们组合成一条完整路径的,还是头一回。现有的VLA模型,核心大多是“预测下一帧画面长什么样”。而Qwen-VLA明确提出:比起视觉预测,我更关心的是生成可以直接执行的动作信号。换句话说,它不预测未来画面长什么样,而是直接输出关节角度、底盘方向这些物理参数。
在架构上,Qwen-VLA借鉴了仿生学思路,设计了一套类似人类“大脑+小脑”的协同框架:
大脑负责认知和理解。它基于Qwen3.5多模态模型,要能看懂环境、理解人类复杂的语言指令,甚至能准确判断空间位置关系——比如demo里“把红色方块放到蓝色杯子旁边”这种指令。
小脑负责精细动作控制。Qwen团队没有用传统的输出头,而是接入了一个拥有11.5亿参数、基于扩散模型的动作解码器。这确实是目前行业内最前沿的做法之一。原因很简单:机械臂的动作必须是平滑、连续、高频率的,而扩散模型在生成这种细粒度连续轨迹上,天然就有优势。
确定了架构,问题就来到了训练环节。VLA多模态模型的训练难度,和大语言模型根本不是一个量级。为此,Qwen团队设计了一套教科书级的四阶段训练法:

1. T2A
首先是T2A阶段。从文本到动作预训练,简单理解,就是把动作当作语言的一种“解压缩”。这个阶段,模型甚至不需要看图像,纯粹靠阅读“拿起杯子”这样的语言指令,在小脑里建立起一连串动作轨迹的“肌肉记忆”——也就是动作先验。
2. CPT
接下来是CPT阶段。持续多模态预训练。等模型有了“肌肉记忆”,才能让它“睁眼”。因为模型不光得严格遵循指令,还得看懂眼前真实的画面。这个阶段,认知大模型和动作解码器正式连通,刚才闭着眼学会的“拿起杯子”,现在要和眼前杯子具体的位置、形状、颜色对应起来——也就是视觉对齐。
3. SFT
第三步SFT。监督微调。模型已经能“拿起杯子”了,说明它具备了干活的基本能力。但接下来要让它学会的,是怎么像人类一样干活。研究人员会精选出最标准、最高质量的人类操作录像,让模型一帧一帧跟着学。叠衣服、收拾碗筷……这种模仿学习,目标就是让模型学会最规范的动作。
4. RL
最后是RL阶段。强化学习。光靠看录像模仿,解决不了一个真实存在且非常致命的问题——模型容易“死记硬背”。杯子放歪了一点,或者手滑了一下,结果可能就是满地碎玻璃。模型这时候不知道怎么纠错,往往就直接宕机。所以它必须进入虚拟仿真环境里训练。规则很简单:动作标不标准不重要,完成目标就给奖励。只有在这种反复试错中,模型才能真正学会自我纠错。
03 贫瘠的数据养料
莫拉维克悖论告诉我们:对人类来说,走路、抓取这种再简单不过的物理动作,到了AI这里,简直难如登天。原因已经被广泛讨论过:数据极度匮乏。
互联网上有数以万亿计的文本数据,但真实世界中的物理动作参数,却几乎为零。
规模化法则在具身智能领域同样适用。为了喂饱Qwen-VLA,阿里千问展现了强大的财力和工程能力,搭建了一个极其复杂又庞大的数据源:
其中,74.2%是真机遥操作数据,占绝对大头。除了开源的全球机器人数据集,阿里内部还收集了超过1000小时的真实机器人遥操作数据——说白了,就是人戴上设备操控机器人干活,留下的轨迹数据。这些转换出来的物理参数,是最宝贵、最真实的。
同时,千问也没有放弃视频生成这条路。人类第一视角视频数据占了6%。这部分数据相对容易获得,人戴着摄像头干活,记录下稳定的视频就行。虽然没有直接的物理参数,但模型仍然能从中学习人类双手的动作逻辑。
上述两大数据源质量高、有效性好,但离不开人类操作,成本自然居高不下。
为了解决这个问题,大规模合成仿真(3.7%)成了首选。这种方式既能降低成本,又能大幅提升数据积累速度。Qwen团队用仿真引擎,已经自动生成了超过800万条物理碰撞轨迹,覆盖了多种罕见的长尾场景。
最后,还有通用的图文数据(8.5%)。目的是让模型在实际场景中,不至于忘掉最基本的常识和认知。
04 分布外泛化能力
评估一个具身智能模型强不强,标准和大语言模型、智能体截然不同。在实验室那种可控环境里表现再好,遇到从没见过的东西,也可能说宕就宕。
这也正是Qwen-VLA最亮眼的地方。它不仅追平甚至碾压了ABot-M0、StarVLA这些仿真专用模型,还在真实双臂机器人上展现了极强的分布外泛化能力,以及动态场景下的零样本能力。
简单说就是:完全没见过的物体,照样能抓。训练时模型可能只见过木块和杯子,但测试时换成玩具鸭和墨镜,只要用户给出准确指令,视觉大脑就能准确定位,小脑迅速规划动作并完成抓取。
同时,真实世界的光线和背景随时随地都在变,但模型并不会因此慌神。哪怕把背景换成训练中从未见过的颜色,或者极亮、极暗的环境,模型依然能完成非常精细的动作,完全不受背景噪音干扰。
真正难的,还得是动态移动的物体。在DOMINO动态操控评测里,物体始终处于运动状态。Qwen-VLA不需要任何特殊微调,就能实时调整轨迹、精准拦截并完成操作,效果直接碾压了一大批专为动态场景优化的传统模型。
05 距离真正的AGI还有多远?
不过,兴奋之余,咱们也得冷静下来重新审视一下。所有人都得认清一个事实:这最多只能算是一次早期探索,具身智能离真正的落地还差得很远。
所谓的“具身智能元年”,说到底,更多是一次商业上的营销。Qwen团队在论文中坦诚指出了模型的几大局限性,而这些问题,恰恰是全球具身智能企业都要面对的共性难题:
第一,动作数据量级依然太小。和动辄以TB计的文本预训练数据相比,目前的物理动作数据在规模和多样性上都差得太远。面对那些极其复杂的接触式交互,模型还是缺乏健壮性。
第二,“既要又要”的优化妥协。在现有技术路径离AGI还遥遥无期的背景下,VLA确实是一个值得肯定的探索方向。但强行把视觉、语言、导航和动作生成放到一起训练,就必须面对“左右互搏”的优化矛盾。有些纯视觉的能力,一旦加入动作训练,反而可能出现性能倒退。
第三,缺少触觉反馈,简直就是“无实物表演”。具身智能的落地离不开物理接触,但现在的输入仍然严重依赖视觉。缺乏力反馈、触觉和本体感觉的深度融合。不解决多模态传感器的融合问题,机器人永远没法像人一样“用双手”干活。
第四,长程任务依然是痛点。现有的评测大多是十几秒的短任务。怎么让机器人在长达数小时的任务里自主规划、分解步骤,甚至从失败中自动恢复,现在还是一个开放的难题。智能体的经验,恐怕不能直接拿来用。
总而言之,从“察言观色”到“下场干活”,这本质上是两种不同的能力,跨越绝非一朝一夕之功。
但阿里Qwen-VLA的发布,至少证明了一点:“用统一的大模型基座去收敛碎片化的物理控制”,这条路是能走通的。
当算法真的开始感受到重力、摩擦力和空间阻隔,人工智能的潮水,才算真正拍上了物理世界的海岸。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。