其他资讯人工智能阿里千问布局具身智能

阿里千问布局具身智能：三大关键信号解读

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

回看过去这两年，AI的形态变化之快，简直让人有点跟不上节奏。从能写诗写代码的文本模

回看过去这两年，AI的形态变化之快，简直让人有点跟不上节奏。从能写诗写代码的文本模型，到会生图P图的图像模型，再到能生成以假乱真视频的视觉模型，AI认识世界的能力，确实已经开始逼近人类了。

智能体时代的到来，让大家慢慢意识到，AI不能只是网页里那个回答问题的对话框，它得能操控电脑、完成任务。而到了今天，各家AI公司内部其实已经形成了一个隐秘又庞大的共识：AI的终极形态，不能只困在屏幕里，它必须走向物理世界。

于是，具身智能（Embodied AI）这个词，去年还很少被普通人听到，但到了今年——2026年，已经被炒成了“具身智能的元年”。

阿里通义千问团队显然不想掉队。为了尽早抢占生态位，也为了不被竞争对手甩开身位，他们交出了在具身智能领域的第一份正式答卷：Qwen-VLA。

这是阿里延续其“重视生态+全面覆盖”策略的一次明确表态。VLA，全称是Vision-Language-Action。这不仅标志千问正式跨入具身智能赛道，还向整个行业释放了一个强烈信号：阿里要做的，不是针对某一款机器人的“打补丁”式优化，而是要打造一个能统领全场景的基座模型。

01 机器人行业正在呼唤“秦始皇”

在深入技术细节之前，得先看清它试图解决的商业痛点。

说白了，现在的机器人行业，碎片化问题极其严重。发布会上，企业总会被问到一个问题：“具身智能会在哪个领域优先落地？”答案可能是家用，也可能是制造业。但说实话，这些答案都太宽泛了。真到演示环节，我们看到的往往是家用机器人表演叠衣服，工业机器人表演物品分类。

换句话说，叠衣服的机器人不会扫地和切菜，而分拣物品的机器人，也不会去拧螺丝。如果你想让它多干几件事，对不起，得针对不同品牌、不同型号单独定制算法。

这不仅在技术上背离了通用人工智能（AGI）的理念，商业上更是难以跑通。这种“专机专用”的模式，带来的是极高的研发和交付成本，完全没法享受大模型时代的规模化优势。边际成本降不下来，机器人走进千家万户就只能是一句空话。

而Qwen-VLA的野心，恰恰就在这里。它要做具身智能领域的“秦始皇”——没错，就是要实现“车同轨，书同文”。

仔细想想，这和千问做大语言模型的思路几乎一模一样：旗舰模型未必能追上国外顶尖水平，但不同规模的开源模型，却成了全球最主流的基座。甚至有传闻说，Anthropic新推出的Opus 4.8，都可能蒸馏了Qwen系列。

回到具身智能领域，在Qwen-VLA的架构里，桌面机械臂抓取、双臂协同、视觉语言导航——这些截然不同的环节，被统一抽象成了同一个底层数学问题：在特定的视觉观察、语言指令和机器人形态条件下，预测下一步应该执行的连续动作轨迹。

这意味着，用一个通用的策略模型，就能横跨多种不同形态的硬件。一旦这种“通用大一统”的路径跑通，机器人软件的复用率会指数级上升。这才是阿里千问在具身智能领域实现商业落地的真正破局点。

02 “大脑+小脑”的技术路线

搞清楚了商业逻辑，再深入到技术层面就容易理解了。

具身智能是比大语言模型和智能体更高级的AI形态。它必须能与物理世界交互，这就意味着，让模型在仿真环境中学习，是跳不过去的一环。

目前主流的世界生成路径有两条：一条靠视频生成重建世界，比如OpenAI的Sora和Google的Genie；另一条靠3D空间生成进行显式建模，比如李飞飞的World Labs。

但Qwen-VLA没有简单地跟着这些路线走，它选了一条很有意思的融合路径——“VLA大一统策略模型+扩散动作生成+仿真强化学习”。

这三个词，每个都不算新，但把它们组合成一条完整路径的，还是头一回。现有的VLA模型，核心大多是“预测下一帧画面长什么样”。而Qwen-VLA明确提出：比起视觉预测，我更关心的是生成可以直接执行的动作信号。换句话说，它不预测未来画面长什么样，而是直接输出关节角度、底盘方向这些物理参数。

在架构上，Qwen-VLA借鉴了仿生学思路，设计了一套类似人类“大脑+小脑”的协同框架：

大脑负责认知和理解。它基于Qwen3.5多模态模型，要能看懂环境、理解人类复杂的语言指令，甚至能准确判断空间位置关系——比如demo里“把红色方块放到蓝色杯子旁边”这种指令。

小脑负责精细动作控制。Qwen团队没有用传统的输出头，而是接入了一个拥有11.5亿参数、基于扩散模型的动作解码器。这确实是目前行业内最前沿的做法之一。原因很简单：机械臂的动作必须是平滑、连续、高频率的，而扩散模型在生成这种细粒度连续轨迹上，天然就有优势。

确定了架构，问题就来到了训练环节。VLA多模态模型的训练难度，和大语言模型根本不是一个量级。为此，Qwen团队设计了一套教科书级的四阶段训练法：

1. T2A

首先是T2A阶段。从文本到动作预训练，简单理解，就是把动作当作语言的一种“解压缩”。这个阶段，模型甚至不需要看图像，纯粹靠阅读“拿起杯子”这样的语言指令，在小脑里建立起一连串动作轨迹的“肌肉记忆”——也就是动作先验。

2. CPT

接下来是CPT阶段。持续多模态预训练。等模型有了“肌肉记忆”，才能让它“睁眼”。因为模型不光得严格遵循指令，还得看懂眼前真实的画面。这个阶段，认知大模型和动作解码器正式连通，刚才闭着眼学会的“拿起杯子”，现在要和眼前杯子具体的位置、形状、颜色对应起来——也就是视觉对齐。

3. SFT

第三步SFT。监督微调。模型已经能“拿起杯子”了，说明它具备了干活的基本能力。但接下来要让它学会的，是怎么像人类一样干活。研究人员会精选出最标准、最高质量的人类操作录像，让模型一帧一帧跟着学。叠衣服、收拾碗筷……这种模仿学习，目标就是让模型学会最规范的动作。

4. RL

最后是RL阶段。强化学习。光靠看录像模仿，解决不了一个真实存在且非常致命的问题——模型容易“死记硬背”。杯子放歪了一点，或者手滑了一下，结果可能就是满地碎玻璃。模型这时候不知道怎么纠错，往往就直接宕机。所以它必须进入虚拟仿真环境里训练。规则很简单：动作标不标准不重要，完成目标就给奖励。只有在这种反复试错中，模型才能真正学会自我纠错。

03 贫瘠的数据养料

莫拉维克悖论告诉我们：对人类来说，走路、抓取这种再简单不过的物理动作，到了AI这里，简直难如登天。原因已经被广泛讨论过：数据极度匮乏。

互联网上有数以万亿计的文本数据，但真实世界中的物理动作参数，却几乎为零。

规模化法则在具身智能领域同样适用。为了喂饱Qwen-VLA，阿里千问展现了强大的财力和工程能力，搭建了一个极其复杂又庞大的数据源：

其中，74.2%是真机遥操作数据，占绝对大头。除了开源的全球机器人数据集，阿里内部还收集了超过1000小时的真实机器人遥操作数据——说白了，就是人戴上设备操控机器人干活，留下的轨迹数据。这些转换出来的物理参数，是最宝贵、最真实的。

同时，千问也没有放弃视频生成这条路。人类第一视角视频数据占了6%。这部分数据相对容易获得，人戴着摄像头干活，记录下稳定的视频就行。虽然没有直接的物理参数，但模型仍然能从中学习人类双手的动作逻辑。

上述两大数据源质量高、有效性好，但离不开人类操作，成本自然居高不下。

为了解决这个问题，大规模合成仿真（3.7%）成了首选。这种方式既能降低成本，又能大幅提升数据积累速度。Qwen团队用仿真引擎，已经自动生成了超过800万条物理碰撞轨迹，覆盖了多种罕见的长尾场景。

最后，还有通用的图文数据（8.5%）。目的是让模型在实际场景中，不至于忘掉最基本的常识和认知。

04 分布外泛化能力

评估一个具身智能模型强不强，标准和大语言模型、智能体截然不同。在实验室那种可控环境里表现再好，遇到从没见过的东西，也可能说宕就宕。

这也正是Qwen-VLA最亮眼的地方。它不仅追平甚至碾压了ABot-M0、StarVLA这些仿真专用模型，还在真实双臂机器人上展现了极强的分布外泛化能力，以及动态场景下的零样本能力。

简单说就是：完全没见过的物体，照样能抓。训练时模型可能只见过木块和杯子，但测试时换成玩具鸭和墨镜，只要用户给出准确指令，视觉大脑就能准确定位，小脑迅速规划动作并完成抓取。

同时，真实世界的光线和背景随时随地都在变，但模型并不会因此慌神。哪怕把背景换成训练中从未见过的颜色，或者极亮、极暗的环境，模型依然能完成非常精细的动作，完全不受背景噪音干扰。

真正难的，还得是动态移动的物体。在DOMINO动态操控评测里，物体始终处于运动状态。Qwen-VLA不需要任何特殊微调，就能实时调整轨迹、精准拦截并完成操作，效果直接碾压了一大批专为动态场景优化的传统模型。

05 距离真正的AGI还有多远？

不过，兴奋之余，咱们也得冷静下来重新审视一下。所有人都得认清一个事实：这最多只能算是一次早期探索，具身智能离真正的落地还差得很远。

所谓的“具身智能元年”，说到底，更多是一次商业上的营销。Qwen团队在论文中坦诚指出了模型的几大局限性，而这些问题，恰恰是全球具身智能企业都要面对的共性难题：

第一，动作数据量级依然太小。和动辄以TB计的文本预训练数据相比，目前的物理动作数据在规模和多样性上都差得太远。面对那些极其复杂的接触式交互，模型还是缺乏健壮性。

第二，“既要又要”的优化妥协。在现有技术路径离AGI还遥遥无期的背景下，VLA确实是一个值得肯定的探索方向。但强行把视觉、语言、导航和动作生成放到一起训练，就必须面对“左右互搏”的优化矛盾。有些纯视觉的能力，一旦加入动作训练，反而可能出现性能倒退。

第三，缺少触觉反馈，简直就是“无实物表演”。具身智能的落地离不开物理接触，但现在的输入仍然严重依赖视觉。缺乏力反馈、触觉和本体感觉的深度融合。不解决多模态传感器的融合问题，机器人永远没法像人一样“用双手”干活。

第四，长程任务依然是痛点。现有的评测大多是十几秒的短任务。怎么让机器人在长达数小时的任务里自主规划、分解步骤，甚至从失败中自动恢复，现在还是一个开放的难题。智能体的经验，恐怕不能直接拿来用。

总而言之，从“察言观色”到“下场干活”，这本质上是两种不同的能力，跨越绝非一朝一夕之功。

但阿里Qwen-VLA的发布，至少证明了一点：“用统一的大模型基座去收敛碎片化的物理控制”，这条路是能走通的。

当算法真的开始感受到重力、摩擦力和空间阻隔，人工智能的潮水，才算真正拍上了物理世界的海岸。

来源：互联网

上一篇 我国玻璃硬盘小规模量产：单片360TB近乎永久保存，微软前首席研究员加盟 下一篇 迈威尔科技夜盘飙升12% 黄仁勋预测：下一个万亿美元公司诞生

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。