菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 条件扩散模型策略生成:Make-An-Agent方法深度解析
技术资讯

条件扩散模型策略生成:Make-An-Agent方法深度解析

2026-05-30
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

将策略网络参数生成视为条件去噪扩散过程,先训练自动编码器压缩参数,再通过对比学习

先给出几个核心判断。机器人策略学习领域,传统方法主要依赖轨迹采样或行为演示来学习状态到动作的映射——本质上是从过往经验中归纳模式。但局限很明显:这种学习方式覆盖的数据分布相当窄。如何用低维演示有效引导高维策略网络参数,始终是个棘手问题。

扩散模型的崛起彻底改变了这一局面。尤其在文本到图像等生成任务中,扩散模型已经充分证明了自身能力。顺着这条思路,能否将其迁移到策略生成?这便是今天要拆解的工作——来自马里兰大学、清华大学等机构的研究团队提出 Make-An-Agent 方法,核心思路是将策略网络参数生成视为一个条件去噪扩散过程。噪声逐层剥离,策略网络的参数就这样被“雕刻”出来。

基于条件扩散模型的策略生成:Make-An-Agent 方法

论文介绍

要理解 Make-An-Agent,得先回顾已有的工作。该领域现有研究大致沿两条线展开:一条是参数生成,例如 Hypernetworks 及其衍生研究。Hypertransformer 是典型代表,它根据任务样本为卷积网络每层生成权重,采用监督或半监督学习方式。另一条是学习如何学习,即元学习(meta-RL),目标是开发能够适应新任务的通用策略。但无论哪条线,都受限于一个共同瓶颈——策略调整和适应过程通常需要依赖真实的奖励信号来回调优。

而 Make-An-Agent 的做法开辟了一条新路径。研究团队设计了一个巧妙方案:先训练一个自动编码器,将策略网络按层压缩为低维潜在表示;接着用对比学习捕捉长期轨迹与结果状态之间的关联;然后,在这个学习到的行为嵌入上,用一个高效的扩散模型生成策略参数;最后通过预训练的解码器恢复为可用的策略网络。

更通俗地讲:你只需提供一段来自部分训练的强化学习智能体的轨迹数据,模型就能“脑补”出一套完整的策略网络。那么,这样生成的策略到底靠不靠谱?

为验证这一点,团队在三个连续控制域上做了测试,涵盖桌面操作任务和现实世界运动控制。结果显示,Make-An-Agent 生成的策略在多任务设置中表现出色;在面对全新任务和抵抗环境随机性时,也明显优于传统的多任务学习、元学习以及基于超网络的方法。即使输入的轨迹数据本身带有噪声,它依然能生成高性能策略——这种鲁棒性确实够硬。

更有说服力的是“walk-these-ways”现实场景测试。研究团队在 IsaacGym 上完成训练后,用 Make-An-Agent 从轨迹和预训练适应模块中生成 Actor 网络,然后直接部署到与模拟环境完全不同的真实机器人上。每个现实世界的运动策略包含近 5.1 万个参数;MetaWorld 和 Robosuite 每个任务也收集了 1500 个策略网络——这些网络均从 SAC 训练时的检查点中提取,在测试成功率达到 1 之后每 5000 步保存一次。

当然,任何方法都有边界。这篇工作坦诚指出了当前的两个主要制约:其一,策略网络本身的参数规模巨大,限制了更多样化的架构探索;其二,参数扩散生成器的能力直接受限于参数自动编码器的表现。未来研究完全可以朝更灵活的参数生成方向再迈一步——这扇门已经推开了一条缝。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多