中大郭裕兰团队:多智能体数据充足却训练失败丨CVPR 2026
摘要
许多人已经悄然体验到多智能体协作带来的变革。 电商大促期间,仓库内并非单台机器人
许多人已经悄然体验到多智能体协作带来的变革。
电商大促期间,仓库内并非单台机器人孤军奋战,而是一整组机器人同步执行分拣、运输、避让与交接。自动驾驶的真正难点,也不只是让一辆车学会行驶,而是让众多车辆在同一条道路上彼此协同。现实世界中的复杂任务,本质上很难由单个智能体独立完成,智能系统同样面临这一挑战。
然而,真实场景绝不给系统留下过多试错空间。仓库机器人撞翻一次货架,工业机械臂装错一个零件,都会产生实质性代价。正因如此,越来越多的研究开始转向离线强化学习——即利用已有数据训练策略,而非依赖实时试错。
但从单智能体走向多智能体,难度会急剧攀升,因为系统不仅要学会决策,还必须在反馈极为有限的条件下掌握协作能力。
这正是当前行业面临的实际瓶颈。许多方法在仿真环境中表现尚可,一旦进入离线多智能体场景,短板便会迅速暴露。
一方面,真实任务的奖励信号通常极其稀疏,模型难以辨别哪一步操作才是正确的。另一方面,多智能体协作还会引发责任分配问题——最终目标达成了,却很难判断究竟是哪个智能体发挥了关键作用。结果便是,系统虽拥有海量历史数据,却依然无法稳定协作,更谈不上面对新任务时具备泛化能力。
在此背景下,中山大学郭裕兰团队提出了MangoBench,并在研究《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中,尝试重新解答一个核心问题:当多个智能体无法随意试错时,如何才能真正学会协作。
研究团队没有沿用传统的奖励驱动范式,而是将问题重构为目标驱动,让模型聚焦于“应该到达什么状态”来学习,从而为离线多智能体强化学习开辟了一条更清晰的路径。

论文地址:https://wendyeewang.github.io/MangoBench/
性能分化的关键拐点
在难度适中的导航任务里,不同方法的性能差距已十分显著。中山大学团队提出的IHIQL成功率可达80%至95%,说明其绝大多数情况下能稳定完成任务。相比之下,ICRL仅达到40%至60%,GCMBC为20%至40%,而GCOMIGA与GCOMAR基本趋近于0%,几乎等于未学会任何有效策略。
换言之,面对同样的离线数据,部分方法已能相对稳健地找到路径,另一些方法却连基本方向都难以把握。这说明在奖励稀疏、反馈羸弱的条件下,传统离线多智能体方法极易失效,而分层强化学习方法更易取得实效。
当任务难度进一步加大时,这种分化会被急剧放大。所有方法的表现均会下滑,但下滑幅度迥异。IHIQL虽降至30%至40%,但仍保留了一部分完成任务的能力。
ICRL与GCMBC跌至10%至20%左右,其余方法则几乎完全丧失能力。可以将此理解为:初始阶段如同考试,题目简单时还能分出高下,一旦题目变难,许多方法直接交白卷,只有少数方法还能继续作答。IHIQL的优势正体现在,面对更复杂的环境时它并未瞬间崩塌。
研究人员还专门考察了另一个因素:将同一任务分配给多个智能体时,不同的分工方式是否会影响结果。例如,有的设置是每个智能体负责4个子区域,有的则是每个智能体只负责2个子区域。
结果显示,无论是2×4还是4×2的配置,IHIQL在中等难度任务中均能稳定在约90%的成功率。这意味着它并非只适应某一种固定分工,而是抓住了任务本身的完成逻辑,因此即便换一种分工模式,它依然表现出色。
到了机械臂任务,这一差异更加直观。在需要同步协作的抬栏杆任务中,IHIQL成功率达80%以上,GCMBC约60%,ICRL约50%,模仿学习方法约40%。若将各方法比作不同水平的工人,IHIQL这一组不仅完成任务的概率更高,而且训练时间仅为模仿学习方法的约5%。
这说明它不只是做得更好,而且学得更快、效率更高。简言之,它既更擅长做事,也更快进入状态。

到了更复杂的异步协作任务,情况发生变化——原本领先的方法未必能继续保持优势。以“放置食物”任务为例,这类任务要求智能体不是同时发力,而是需要先完成前序动作,后续智能体再接续操作,因此更考验先后衔接。
在此场景下,ICRL表现最佳,成功率约30%至40%,明显高于IHIQL与GCMBC,而模仿学习方法甚至不足10%。这表明当任务强调步骤间的顺序关系时,对比学习方法更容易捕捉到这种逻辑。更关键的是,ICRL不仅学得更好,训练时间还比模仿学习少了约93%——也就是说,它既更会学,也学得更快。
多目标与单目标的对比,揭示了另一个容易被忽视的问题:测试方式本身会影响对模型的判断。如果只用单目标测试,同一任务中IHIQL为78%,GCMBC为22%,ICRL为37%。但换用多目标评估后,三者分别提升至82%、47%和56%。
这意味着许多方法并不像最初以为的那样差,只是单目标测试窄化了它们的能力。换句话说,这些方法学到的并非某一固定动作,而是面对不同目标时仍能进行调节的能力——这更接近真正的泛化。

在训练方式的对比中,研究人员发现,并非获取更多全局信息就一定能带来更好的效果。分布式方法IHIQL在中等任务中成功率约95%,任务规模扩大后仍维持约85%,即便到了超大规模任务也还有约50%。
相比之下,集中训练方法HIQL-CTDE在中等任务中尚有约70%,但任务一变得复杂,很快掉至44%,再往上甚至仅剩1%,几乎等同于训练失败。
这一结果可理解为:分布式方法更像是将问题拆解,每个智能体先管理好自己的部分,因此任务变难时仍能稳住阵脚。集中训练方法虽然看起来掌握的信息更多,但正因需要同时处理大量全局信息,一旦任务复杂就容易顾此失彼,最终导致训练越来越不稳定。
换句话说,在多智能体任务中,信息更多并不一定等于更优,关键在于系统能否将复杂问题处理得足够清晰。

综合所有实验结果,可以得出几个明确的判断。首先,许多方法一到复杂任务就失效,最根本的原因并非模型能力弱,而是奖励信号太少。
因为在稀疏奖励条件下,系统大部分时间得不到明确反馈,难以判断哪一步正确,训练极易陷入混乱。一旦将奖励变得密集,性能便会明显回升,这说明问题关键不在模型本身,而在于学习信号不足。
其次,目前表现最稳健的仍是分层方法。以IHIQL为代表的方法之所以更有效,在于它并非要求模型一次性解决整个复杂任务,而是将大任务拆分为多个更小的子步骤来学习。
这样做的好处是,模型在中间过程中更容易获取反馈,也更不容易在任务变复杂时全面崩溃。因此从实验结果看,分层策略更像是一种让系统先学会“一步一步完成任务”的方法,而非要求其一开始就掌握全部。
最后,这项研究还表明,多智能体系统最难的部分,不只是学会执行动作,而是学会彼此配合。在简单任务中,多智能体有时甚至能比单智能体做得更好,因为分工后效率提升。
但一旦任务变复杂,需要更精细的协作与衔接时,问题便会立刻暴露。也就是说,真正卡住多智能体系统的,不只是学习能力,更是协同能力——这也是为何协作会成为整个系统性能提升的最大瓶颈。

从奖励驱动到目标驱动
在实验设计上,研究团队首先做了件非常关键的事:将原有的离线数据重新整理。原始数据仅包含状态与动作,记录了系统当时看到了什么、做了什么。
研究人员在此基础上增加了目标与奖励,即将原始数据改造为“状态、动作、目标、奖励”的形式。具体而言,他们会从已有轨迹中随机挑选一个状态作为目标,再判断当前行为是否朝该目标靠近,并自动生成对应奖励。
这样一来,同一批历史数据不再只能用于学习单一任务,而是可以围绕不同目标反复使用,相当于放大了原有数据的价值。
其意义在于,它改变了传统学习思路。传统强化学习更像是让模型边做边等反馈,但问题是反馈往往很少,模型大多时候不知道自己做得对不对。
引入目标后,情况截然不同。模型不再被动等待奖励,而是始终围绕一个明确目标行动,判断自己是否在一步步接近它。原本模糊、稀疏的反馈,被转化成了更直接、更易理解的学习信号,因此模型更容易学出有效策略。
为了确保结果可靠,研究团队在实验设置上也很严谨。运动任务共训练100万步,测试时更换5个不同目标,并用5个随机种子反复验证——不只观察单次结果,而是看它在不同条件下是否稳定。
操作任务同样如此,训练步数分别为1.5万和3.88万,测试时采用100个随机种子。这样做的目的很明确:避免某次训练恰好表现好,确保最终结论是稳定而非偶然的。
在任务安排上,研究人员并非随意选几个场景,而是有意逐步增加难度。运动任务从较简单的迷宫开始,逐步过渡到更复杂的迷宫,最后加入随机传送等极高难度设置。
操作任务则从需要同时配合的同步任务,发展到讲究先后顺序的异步任务。这样设计,是为了系统观察模型在不同复杂度下的表现——不只考察它能否完成任务,更想看在任务越来越难时,它是否仍具备泛化能力、长期规划能力与协作能力。
换句话说,研究团队测试的不是模型会不会做一道题,而是题目变难后,它还能不能继续做下去。

研究人员还专门分析了,为何CTDE这种看似信息更多的方法,反而表现不佳。按直觉,既然它在训练时能看到更多全局信息,效果应该更好,但问题恰恰出在这里。
因为它看到的东西太多——全局状态本质上是将所有智能体的状态拼在一起,这会让问题规模急剧膨胀,模型需要同时处理的内容迅速增加。
除此之外,CTDE在训练时和执行时并不完全一致。训练阶段,模型利用全局信息学习;但到了真正决策时,每个智能体只能根据自身局部信息行动。这就导致训练时学到的内容,在实际执行时不一定能用上,优化过程因此变得更加困难。
还有一个更隐蔽的问题:目标本身。CTDE一方面要处理整体任务的全局目标,另一方面又要每个智能体根据自身局部目标行动。两套目标之间容易产生冲突,模型的一部分在学习整体方向,另一部分在学习局部细节,最终很难协调一致。
所以CTDE的问题并非信息不够,而是信息太多、结构太复杂,最终导致训练不稳定。表面上看,它似乎帮助模型看到了更完整的全局;但实际上,正是这种额外复杂性,让它在任务变难时更容易失效。
从方法到问题本质
从实验意义来看,研究团队最重要的贡献不在于提出一套新方法,而在于更清晰地揭示了Offline MARL一直难以做好的根本原因。
研究结果说明,问题核心并非模型能力强弱,而是训练过程中存在两个更根本的障碍。第一个障碍是学习信号太弱——奖励极度稀疏,模型在大多数时候得不到明确反馈,Q函数难以稳定收敛,因此很多方法即使训练很久,效果依然很差。
第二个障碍是责任分配问题——在多智能体协作中,很难判断究竟是哪个智能体对最终成功起了关键作用。一旦贡献关系模糊不清,梯度更新就容易出错,最终导致协作失败。这项研究的价值,正在于它明确指出了多智能体离线强化学习最深层的困难点。
研究团队还阐明了goal-conditioned真正有效的原因。它的作用不只是给模型多加一个目标输入,而是改变了整个学习方式。原来模型主要依赖奖励来判断行为好坏,这种信号稀少且不稳定。
加入目标后,每个状态都能与某个目标建立联系,学习信号明显增多,模型也更容易知道自己该往哪个方向调整。
这样一来,强化学习不再只是盲目追逐奖励,而是更像学习如何从当前位置到达目标位置。这种形式比单纯依赖奖励更稳定,也更容易训练。
更重要的是,同一个模型可以面对不同目标完成不同任务,说明模型学到的不是死记硬背的固定动作,而是具备一定泛化能力的行为策略。
研究人员进一步解释了为何分层方法更有效。原因在于,分层方法同时解决了两个难题。一方面,通过设置中间目标缓解了稀疏奖励问题,让模型在任务尚未最终完成时就能获得阶段性反馈。
另一方面,它将原本很长、很复杂的任务拆解成多个更短、更易处理的小任务,从而减轻了长时间依赖带来的学习难度。换句话说,分层方法之所以有效,是因为它把一个很难直接学会的大问题,拆分成了多个更容易逐步解决的小问题。
这一点对多智能体任务尤为重要,因为多智能体系统本就比单智能体更难协调,若缺乏这种结构化拆分,训练会更加不稳定。
这项研究对普通人的影响也十分实际。现实生活中很多场景不允许系统反复试错,例如自动驾驶、仓储物流、工厂机械臂、医院辅助机器人等。这些系统一旦出错,代价很高,因此大多只能依赖已收集的历史数据进行离线学习。
研究团队所做的工作,本质上是探索如何让多个智能体在不能随意试错的情况下,依然学会稳定协作。这一方向若持续发展,未来普通人可能直接受益于更安全的自动驾驶系统、更高效的物流配送机器人、更稳定的工业自动化设备,以及更可靠的医疗与家庭辅助机器人。
MangoBench 背后的科研工作者
汪怡,中山大学在读一年级博士生,主要研究方向为三维视觉与强化学习,师从郭裕兰教授,于深圳河套学院实习,完成此论文时就读于中山大学本科。在CVPR等CCF A类会议发表多篇论文,参与中国图学学会“奋发图强”博士生workshop,参与China3DV墙报展示,曾获中山大学研究生校长奖学金等。
钟柠泽,完成此论文时就读于中山大学本科,与郭裕兰教授合作,主要研究方向为机器人、三维视觉与强化学习。在CVPR/ICLR/ACM MM等CCF A类会议发表论文,担任CVPR/NeurIPS/ECCV审稿人,论文在China3DV/ChinaGraph大会等展示,现于美国宾夕法尼亚大学GRASP Lab攻读研究生,与Vijay Kumar院长合作。
符智恒,西澳大学博士,香港理工大学博士后,主要研究方向为三维重建与生成。发表论文共20余篇(包括CVPR、ICCV、TIP、ECCV、IJCAI等),出版英文著作一部《Point Cloud Intelligence》。
王龙光,中山大学博士后,主要研究方向为底层视觉与三维视觉。以第一作者身份发表CCF A类论文共11篇,Google Scholar总引用数达7100余次。入选中国科协青年人才托举工程,连续三年入选全球前2%顶尖科学家榜单;主持国家及省部级项目9项。
张晔,中山大学副研究员,主要研究方向为空间智能与三维视觉。发表学术论文30余篇,主持国家级与省部级项目3项,曾担任首届中国空间智能大会本地主席。
郭裕兰,中山大学教授,主要研究空间智能与三维视觉。主持国家自然科学基金联合重点项目等10余项,发表学术论文200余篇,Google Scholar引用超2万次,入选Clarivate全球高被引科学家。担任中国图象图形学学会三维视觉专委会副主任,IEEE TIP高级领域编辑(SAE)。曾担任首届中国空间智能大会主席,历届中国三维视觉大会组委会主席。
原创文章,未经授权禁止转载。详情见转载须知。

来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。