技术资讯

条件扩散模型策略生成：Make-An-Agent方法深度解析

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

将策略网络参数生成视为条件去噪扩散过程，先训练自动编码器压缩参数，再通过对比学习

先给出几个核心判断。机器人策略学习领域，传统方法主要依赖轨迹采样或行为演示来学习状态到动作的映射——本质上是从过往经验中归纳模式。但局限很明显：这种学习方式覆盖的数据分布相当窄。如何用低维演示有效引导高维策略网络参数，始终是个棘手问题。

扩散模型的崛起彻底改变了这一局面。尤其在文本到图像等生成任务中，扩散模型已经充分证明了自身能力。顺着这条思路，能否将其迁移到策略生成？这便是今天要拆解的工作——来自马里兰大学、清华大学等机构的研究团队提出 Make-An-Agent 方法，核心思路是将策略网络参数生成视为一个条件去噪扩散过程。噪声逐层剥离，策略网络的参数就这样被“雕刻”出来。

基于条件扩散模型的策略生成：Make-An-Agent 方法

论文介绍

要理解 Make-An-Agent，得先回顾已有的工作。该领域现有研究大致沿两条线展开：一条是参数生成，例如 Hypernetworks 及其衍生研究。Hypertransformer 是典型代表，它根据任务样本为卷积网络每层生成权重，采用监督或半监督学习方式。另一条是学习如何学习，即元学习（meta-RL），目标是开发能够适应新任务的通用策略。但无论哪条线，都受限于一个共同瓶颈——策略调整和适应过程通常需要依赖真实的奖励信号来回调优。

而 Make-An-Agent 的做法开辟了一条新路径。研究团队设计了一个巧妙方案：先训练一个自动编码器，将策略网络按层压缩为低维潜在表示；接着用对比学习捕捉长期轨迹与结果状态之间的关联；然后，在这个学习到的行为嵌入上，用一个高效的扩散模型生成策略参数；最后通过预训练的解码器恢复为可用的策略网络。

更通俗地讲：你只需提供一段来自部分训练的强化学习智能体的轨迹数据，模型就能“脑补”出一套完整的策略网络。那么，这样生成的策略到底靠不靠谱？

为验证这一点，团队在三个连续控制域上做了测试，涵盖桌面操作任务和现实世界运动控制。结果显示，Make-An-Agent 生成的策略在多任务设置中表现出色；在面对全新任务和抵抗环境随机性时，也明显优于传统的多任务学习、元学习以及基于超网络的方法。即使输入的轨迹数据本身带有噪声，它依然能生成高性能策略——这种鲁棒性确实够硬。

更有说服力的是“walk-these-ways”现实场景测试。研究团队在 IsaacGym 上完成训练后，用 Make-An-Agent 从轨迹和预训练适应模块中生成 Actor 网络，然后直接部署到与模拟环境完全不同的真实机器人上。每个现实世界的运动策略包含近 5.1 万个参数；MetaWorld 和 Robosuite 每个任务也收集了 1500 个策略网络——这些网络均从 SAC 训练时的检查点中提取，在测试成功率达到 1 之后每 5000 步保存一次。

当然，任何方法都有边界。这篇工作坦诚指出了当前的两个主要制约：其一，策略网络本身的参数规模巨大，限制了更多样化的架构探索；其二，参数扩散生成器的能力直接受限于参数自动编码器的表现。未来研究完全可以朝更灵活的参数生成方向再迈一步——这扇门已经推开了一条缝。

来源：互联网

上一篇 可灵AI视频生成大模型深度评测：效果与速度对比实测 下一篇 搞大模型等于洗数据？LLM数据工程深度解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

条件扩散模型策略生成：Make-An-Agent方法深度解析

摘要

论文介绍

相关文章推荐