首页 > 资讯 > 中大郭裕兰团队：多智能体数据充足却训练失败丨CVPR 2026

其他资讯智能体中大郭裕兰团队

中大郭裕兰团队：多智能体数据充足却训练失败丨CVPR 2026

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

许多人已经悄然体验到多智能体协作带来的变革。电商大促期间，仓库内并非单台机器人

许多人已经悄然体验到多智能体协作带来的变革。

电商大促期间，仓库内并非单台机器人孤军奋战，而是一整组机器人同步执行分拣、运输、避让与交接。自动驾驶的真正难点，也不只是让一辆车学会行驶，而是让众多车辆在同一条道路上彼此协同。现实世界中的复杂任务，本质上很难由单个智能体独立完成，智能系统同样面临这一挑战。

然而，真实场景绝不给系统留下过多试错空间。仓库机器人撞翻一次货架，工业机械臂装错一个零件，都会产生实质性代价。正因如此，越来越多的研究开始转向离线强化学习——即利用已有数据训练策略，而非依赖实时试错。

但从单智能体走向多智能体，难度会急剧攀升，因为系统不仅要学会决策，还必须在反馈极为有限的条件下掌握协作能力。

这正是当前行业面临的实际瓶颈。许多方法在仿真环境中表现尚可，一旦进入离线多智能体场景，短板便会迅速暴露。

一方面，真实任务的奖励信号通常极其稀疏，模型难以辨别哪一步操作才是正确的。另一方面，多智能体协作还会引发责任分配问题——最终目标达成了，却很难判断究竟是哪个智能体发挥了关键作用。结果便是，系统虽拥有海量历史数据，却依然无法稳定协作，更谈不上面对新任务时具备泛化能力。

在此背景下，中山大学郭裕兰团队提出了MangoBench，并在研究《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中，尝试重新解答一个核心问题：当多个智能体无法随意试错时，如何才能真正学会协作。

研究团队没有沿用传统的奖励驱动范式，而是将问题重构为目标驱动，让模型聚焦于“应该到达什么状态”来学习，从而为离线多智能体强化学习开辟了一条更清晰的路径。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

论文地址：https://wendyeewang.github.io/MangoBench/

性能分化的关键拐点

在难度适中的导航任务里，不同方法的性能差距已十分显著。中山大学团队提出的IHIQL成功率可达80%至95%，说明其绝大多数情况下能稳定完成任务。相比之下，ICRL仅达到40%至60%，GCMBC为20%至40%，而GCOMIGA与GCOMAR基本趋近于0%，几乎等于未学会任何有效策略。

换言之，面对同样的离线数据，部分方法已能相对稳健地找到路径，另一些方法却连基本方向都难以把握。这说明在奖励稀疏、反馈羸弱的条件下，传统离线多智能体方法极易失效，而分层强化学习方法更易取得实效。

当任务难度进一步加大时，这种分化会被急剧放大。所有方法的表现均会下滑，但下滑幅度迥异。IHIQL虽降至30%至40%，但仍保留了一部分完成任务的能力。

ICRL与GCMBC跌至10%至20%左右，其余方法则几乎完全丧失能力。可以将此理解为：初始阶段如同考试，题目简单时还能分出高下，一旦题目变难，许多方法直接交白卷，只有少数方法还能继续作答。IHIQL的优势正体现在，面对更复杂的环境时它并未瞬间崩塌。

研究人员还专门考察了另一个因素：将同一任务分配给多个智能体时，不同的分工方式是否会影响结果。例如，有的设置是每个智能体负责4个子区域，有的则是每个智能体只负责2个子区域。

结果显示，无论是2×4还是4×2的配置，IHIQL在中等难度任务中均能稳定在约90%的成功率。这意味着它并非只适应某一种固定分工，而是抓住了任务本身的完成逻辑，因此即便换一种分工模式，它依然表现出色。

到了机械臂任务，这一差异更加直观。在需要同步协作的抬栏杆任务中，IHIQL成功率达80%以上，GCMBC约60%，ICRL约50%，模仿学习方法约40%。若将各方法比作不同水平的工人，IHIQL这一组不仅完成任务的概率更高，而且训练时间仅为模仿学习方法的约5%。

这说明它不只是做得更好，而且学得更快、效率更高。简言之，它既更擅长做事，也更快进入状态。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

到了更复杂的异步协作任务，情况发生变化——原本领先的方法未必能继续保持优势。以“放置食物”任务为例，这类任务要求智能体不是同时发力，而是需要先完成前序动作，后续智能体再接续操作，因此更考验先后衔接。

在此场景下，ICRL表现最佳，成功率约30%至40%，明显高于IHIQL与GCMBC，而模仿学习方法甚至不足10%。这表明当任务强调步骤间的顺序关系时，对比学习方法更容易捕捉到这种逻辑。更关键的是，ICRL不仅学得更好，训练时间还比模仿学习少了约93%——也就是说，它既更会学，也学得更快。

多目标与单目标的对比，揭示了另一个容易被忽视的问题：测试方式本身会影响对模型的判断。如果只用单目标测试，同一任务中IHIQL为78%，GCMBC为22%，ICRL为37%。但换用多目标评估后，三者分别提升至82%、47%和56%。

这意味着许多方法并不像最初以为的那样差，只是单目标测试窄化了它们的能力。换句话说，这些方法学到的并非某一固定动作，而是面对不同目标时仍能进行调节的能力——这更接近真正的泛化。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

在训练方式的对比中，研究人员发现，并非获取更多全局信息就一定能带来更好的效果。分布式方法IHIQL在中等任务中成功率约95%，任务规模扩大后仍维持约85%，即便到了超大规模任务也还有约50%。

相比之下，集中训练方法HIQL-CTDE在中等任务中尚有约70%，但任务一变得复杂，很快掉至44%，再往上甚至仅剩1%，几乎等同于训练失败。

这一结果可理解为：分布式方法更像是将问题拆解，每个智能体先管理好自己的部分，因此任务变难时仍能稳住阵脚。集中训练方法虽然看起来掌握的信息更多，但正因需要同时处理大量全局信息，一旦任务复杂就容易顾此失彼，最终导致训练越来越不稳定。

换句话说，在多智能体任务中，信息更多并不一定等于更优，关键在于系统能否将复杂问题处理得足够清晰。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

综合所有实验结果，可以得出几个明确的判断。首先，许多方法一到复杂任务就失效，最根本的原因并非模型能力弱，而是奖励信号太少。

因为在稀疏奖励条件下，系统大部分时间得不到明确反馈，难以判断哪一步正确，训练极易陷入混乱。一旦将奖励变得密集，性能便会明显回升，这说明问题关键不在模型本身，而在于学习信号不足。

其次，目前表现最稳健的仍是分层方法。以IHIQL为代表的方法之所以更有效，在于它并非要求模型一次性解决整个复杂任务，而是将大任务拆分为多个更小的子步骤来学习。

这样做的好处是，模型在中间过程中更容易获取反馈，也更不容易在任务变复杂时全面崩溃。因此从实验结果看，分层策略更像是一种让系统先学会“一步一步完成任务”的方法，而非要求其一开始就掌握全部。

最后，这项研究还表明，多智能体系统最难的部分，不只是学会执行动作，而是学会彼此配合。在简单任务中，多智能体有时甚至能比单智能体做得更好，因为分工后效率提升。

但一旦任务变复杂，需要更精细的协作与衔接时，问题便会立刻暴露。也就是说，真正卡住多智能体系统的，不只是学习能力，更是协同能力——这也是为何协作会成为整个系统性能提升的最大瓶颈。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

从奖励驱动到目标驱动

在实验设计上，研究团队首先做了件非常关键的事：将原有的离线数据重新整理。原始数据仅包含状态与动作，记录了系统当时看到了什么、做了什么。

研究人员在此基础上增加了目标与奖励，即将原始数据改造为“状态、动作、目标、奖励”的形式。具体而言，他们会从已有轨迹中随机挑选一个状态作为目标，再判断当前行为是否朝该目标靠近，并自动生成对应奖励。

这样一来，同一批历史数据不再只能用于学习单一任务，而是可以围绕不同目标反复使用，相当于放大了原有数据的价值。

其意义在于，它改变了传统学习思路。传统强化学习更像是让模型边做边等反馈，但问题是反馈往往很少，模型大多时候不知道自己做得对不对。

引入目标后，情况截然不同。模型不再被动等待奖励，而是始终围绕一个明确目标行动，判断自己是否在一步步接近它。原本模糊、稀疏的反馈，被转化成了更直接、更易理解的学习信号，因此模型更容易学出有效策略。

为了确保结果可靠，研究团队在实验设置上也很严谨。运动任务共训练100万步，测试时更换5个不同目标，并用5个随机种子反复验证——不只观察单次结果，而是看它在不同条件下是否稳定。

操作任务同样如此，训练步数分别为1.5万和3.88万，测试时采用100个随机种子。这样做的目的很明确：避免某次训练恰好表现好，确保最终结论是稳定而非偶然的。

在任务安排上，研究人员并非随意选几个场景，而是有意逐步增加难度。运动任务从较简单的迷宫开始，逐步过渡到更复杂的迷宫，最后加入随机传送等极高难度设置。

操作任务则从需要同时配合的同步任务，发展到讲究先后顺序的异步任务。这样设计，是为了系统观察模型在不同复杂度下的表现——不只考察它能否完成任务，更想看在任务越来越难时，它是否仍具备泛化能力、长期规划能力与协作能力。

换句话说，研究团队测试的不是模型会不会做一道题，而是题目变难后，它还能不能继续做下去。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

研究人员还专门分析了，为何CTDE这种看似信息更多的方法，反而表现不佳。按直觉，既然它在训练时能看到更多全局信息，效果应该更好，但问题恰恰出在这里。

因为它看到的东西太多——全局状态本质上是将所有智能体的状态拼在一起，这会让问题规模急剧膨胀，模型需要同时处理的内容迅速增加。

除此之外，CTDE在训练时和执行时并不完全一致。训练阶段，模型利用全局信息学习；但到了真正决策时，每个智能体只能根据自身局部信息行动。这就导致训练时学到的内容，在实际执行时不一定能用上，优化过程因此变得更加困难。

还有一个更隐蔽的问题：目标本身。CTDE一方面要处理整体任务的全局目标，另一方面又要每个智能体根据自身局部目标行动。两套目标之间容易产生冲突，模型的一部分在学习整体方向，另一部分在学习局部细节，最终很难协调一致。

所以CTDE的问题并非信息不够，而是信息太多、结构太复杂，最终导致训练不稳定。表面上看，它似乎帮助模型看到了更完整的全局；但实际上，正是这种额外复杂性，让它在任务变难时更容易失效。

从方法到问题本质

从实验意义来看，研究团队最重要的贡献不在于提出一套新方法，而在于更清晰地揭示了Offline MARL一直难以做好的根本原因。

研究结果说明，问题核心并非模型能力强弱，而是训练过程中存在两个更根本的障碍。第一个障碍是学习信号太弱——奖励极度稀疏，模型在大多数时候得不到明确反馈，Q函数难以稳定收敛，因此很多方法即使训练很久，效果依然很差。

第二个障碍是责任分配问题——在多智能体协作中，很难判断究竟是哪个智能体对最终成功起了关键作用。一旦贡献关系模糊不清，梯度更新就容易出错，最终导致协作失败。这项研究的价值，正在于它明确指出了多智能体离线强化学习最深层的困难点。

研究团队还阐明了goal-conditioned真正有效的原因。它的作用不只是给模型多加一个目标输入，而是改变了整个学习方式。原来模型主要依赖奖励来判断行为好坏，这种信号稀少且不稳定。

加入目标后，每个状态都能与某个目标建立联系，学习信号明显增多，模型也更容易知道自己该往哪个方向调整。

这样一来，强化学习不再只是盲目追逐奖励，而是更像学习如何从当前位置到达目标位置。这种形式比单纯依赖奖励更稳定，也更容易训练。

更重要的是，同一个模型可以面对不同目标完成不同任务，说明模型学到的不是死记硬背的固定动作，而是具备一定泛化能力的行为策略。

研究人员进一步解释了为何分层方法更有效。原因在于，分层方法同时解决了两个难题。一方面，通过设置中间目标缓解了稀疏奖励问题，让模型在任务尚未最终完成时就能获得阶段性反馈。

另一方面，它将原本很长、很复杂的任务拆解成多个更短、更易处理的小任务，从而减轻了长时间依赖带来的学习难度。换句话说，分层方法之所以有效，是因为它把一个很难直接学会的大问题，拆分成了多个更容易逐步解决的小问题。

这一点对多智能体任务尤为重要，因为多智能体系统本就比单智能体更难协调，若缺乏这种结构化拆分，训练会更加不稳定。

这项研究对普通人的影响也十分实际。现实生活中很多场景不允许系统反复试错，例如自动驾驶、仓储物流、工厂机械臂、医院辅助机器人等。这些系统一旦出错，代价很高，因此大多只能依赖已收集的历史数据进行离线学习。

研究团队所做的工作，本质上是探索如何让多个智能体在不能随意试错的情况下，依然学会稳定协作。这一方向若持续发展，未来普通人可能直接受益于更安全的自动驾驶系统、更高效的物流配送机器人、更稳定的工业自动化设备，以及更可靠的医疗与家庭辅助机器人。

MangoBench 背后的科研工作者

汪怡，中山大学在读一年级博士生，主要研究方向为三维视觉与强化学习，师从郭裕兰教授，于深圳河套学院实习，完成此论文时就读于中山大学本科。在CVPR等CCF A类会议发表多篇论文，参与中国图学学会“奋发图强”博士生workshop，参与China3DV墙报展示，曾获中山大学研究生校长奖学金等。

钟柠泽，完成此论文时就读于中山大学本科，与郭裕兰教授合作，主要研究方向为机器人、三维视觉与强化学习。在CVPR/ICLR/ACM MM等CCF A类会议发表论文，担任CVPR/NeurIPS/ECCV审稿人，论文在China3DV/ChinaGraph大会等展示，现于美国宾夕法尼亚大学GRASP Lab攻读研究生，与Vijay Kumar院长合作。

符智恒，西澳大学博士，香港理工大学博士后，主要研究方向为三维重建与生成。发表论文共20余篇（包括CVPR、ICCV、TIP、ECCV、IJCAI等），出版英文著作一部《Point Cloud Intelligence》。

王龙光，中山大学博士后，主要研究方向为底层视觉与三维视觉。以第一作者身份发表CCF A类论文共11篇，Google Scholar总引用数达7100余次。入选中国科协青年人才托举工程，连续三年入选全球前2%顶尖科学家榜单；主持国家及省部级项目9项。

张晔，中山大学副研究员，主要研究方向为空间智能与三维视觉。发表学术论文30余篇，主持国家级与省部级项目3项，曾担任首届中国空间智能大会本地主席。

郭裕兰，中山大学教授，主要研究空间智能与三维视觉。主持国家自然科学基金联合重点项目等10余项，发表学术论文200余篇，Google Scholar引用超2万次，入选Clarivate全球高被引科学家。担任中国图象图形学学会三维视觉专委会副主任，IEEE TIP高级领域编辑（SAE）。曾担任首届中国空间智能大会主席，历届中国三维视觉大会组委会主席。

原创文章，未经授权禁止转载。详情见转载须知。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

来源：互联网

上一篇 智谱清言文章拆分技巧：提示词融入真实场景 下一篇 CVPR 2026论文解读：东南大学耿新团队揭秘模型能力被挤掉深层机制

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

中大郭裕兰团队：多智能体数据充足却训练失败丨CVPR 2026

摘要

性能分化的关键拐点

从奖励驱动到目标驱动

从方法到问题本质

MangoBench 背后的科研工作者

相关文章推荐