菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > Agent自进化新范式OpenSkill:多项基准SOTA刷新榜
产业资讯 综合资讯

Agent自进化新范式OpenSkill:多项基准SOTA刷新榜

2026-06-09
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

孙立超团队提出OpenSkill框架,使自进化Agent无需监督信号即可获取可执行、可迁移技能。在S

自进化Agent的持续学习通常依赖成功轨迹、预存技能或明确反馈。但在实际部署中,这些条件难以同时具备,导致Agent陷入停滞,无法积累经验或迭代性能。

面对这一瓶颈,里海大学孙立超团队与合作者提出了OpenSkill框架。与依赖人工标注、大模型生成或监督信号的传统自进化方法不同,其核心在于:即便没有目标任务的监督信号,Agent也能自主获取可执行且可迁移的技能

实验表明,OpenSkill在多个基准测试中取得了SOTA级别的自动化性能,并且所学技能可直接迁移至能力较弱的模型,效果显著。

图|自进化Agent技能范式的演变。

OpenSkill 的设计架构解析

简言之,OpenSkill是一个面向开放世界的Agent技能框架。它以任务指令、执行环境、基础模型、工具访问权限及开放世界资源为输入,将流程分解为三个步骤:开放世界知识获取无泄漏技能进化零样本目标评估

图|OpenSkill框架的整体架构。

开放世界知识获取:团队首先从开放世界中收集两类信息。第一类是“任务知识”,包括背景概念、API文档、最佳实践、代码示例等,用于辅助技能规划;第二类是“验证知识”,涵盖参考值、统计不变量、交叉验证流程以及已知输入输出样例,专门用于支撑后续的虚拟测试。

无泄漏技能进化:获取任务知识和验证知识后,OpenSkill首先生成候选技能,随后通过自动构建的虚拟任务反复测试、筛选与优化这些技能。整个过程中,目标任务的标准答案完全未泄露,真实测试集也未提前介入技能构建阶段。

零样本目标评估:技能进化完成后,以显式文件形式部署至目标Agent。只有隐藏的真实测试集在此阶段用于最终评估,完全不参与之前的技能构建与迭代。简言之,训练与测试严格分离,互不干扰。

实验结果与性能分析

为验证OpenSkill的实际效果,团队从基准测试表现技能迁移能力消融实验三个维度进行了评估,结果如下:

1. 基准测试:OpenSkill整体性能领先

OpenSkill在三个基准测试、两个目标Agent上均取得了最佳自动化性能。在SkillsBench中,Opus 4.6和GPT 5.2的总体通过率分别提升至43.6%和42.1%,相较最强基线高出8.9和8.8个百分点,距离人类参考上限仅差1至3个百分点。值得注意的是,在Opus 4.6上,11个领域中有8个达到了最佳或并列最佳表现。

图|SkillsBench在11个领域的关键结果:两个目标Agent在各领域的平均奖励值。

类似优势也出现在另外两个基准测试中。在SocialMaze上,OpenSkill使Opus 4.6和GPT 5.2的通过率分别达到82.7%和70.7%;在ScienceWorld上,这两个数值为90.0%和85.3%。团队指出,在所有四组设置中,OpenSkill是自动化方法中的最优选择,毫无争议。

图|两个目标Agent在SocialMaze与ScienceWorld上的平均奖励。

2. 技能迁移:无需额外适配即可迁移至弱模型

技能迁移实验中,团队将Opus 4.6生成的技能直接移植至Haiku 4.5、Qwen 3Coder、DeepSeek V3、Mistral Large 3四个较弱模型,未做任何额外适配。结果明确显示:这些技能在四个目标模型上均带来了显著增益,相比无技能基线提升了5.5至14.8个百分点。这表明所学技能具有泛化能力,并非针对特定模型定制。

图|Opus 4.6生成的技能迁移至其他模型后,在SkillsBench上的平均奖励。

3. 消融实验:三轮迭代达到最优

在SocialMaze上,OpenSkill在3轮迭代时达到最高82.7%,而增至5轮和10轮后性能反而下降。消融结果还表明,开放世界检索与虚拟验证器各自单独使用时均能提升表现,但组合效果最佳。团队进一步发现,虚拟验证器与真实评测结果具有高度一致性,可覆盖88.9%的真实测试意图,并额外补充格式、类型、边界条件等检查,相当于为真实评测增加了一层实用保障。

图|SocialMaze上的消融实验结果。

当前局限与未来展望

团队也坦诚指出了当前局限。开放世界知识源可能存在噪声、过时甚至相互矛盾的信息,虚拟任务也难以完全复现真实任务的复杂度。尤其在深层语义验证与反作弊元验证等环节,当前覆盖范围仍有限。

另一个关键挑战是成本高昂、耗时较长。在SkillsBench的84个任务中,端到端API总成本约1800美元,单任务消耗约1.14M tokens,耗时约131分钟。但优点是技能仅需创建一次,后续迁移至其他模型无需重复构建。

展望未来,团队确立了三个主要方向:提升知识源的可信度、增强虚拟任务对真实任务的覆盖能力、以及降低整体成本与时延。成本控制是实现落地应用的关键因素。

更多技术细节可参阅原论文。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多