产业资讯综合资讯

Agent自进化新范式OpenSkill：多项基准SOTA刷新榜

2026-06-09

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

孙立超团队提出OpenSkill框架，使自进化Agent无需监督信号即可获取可执行、可迁移技能。在S

自进化Agent的持续学习通常依赖成功轨迹、预存技能或明确反馈。但在实际部署中，这些条件难以同时具备，导致Agent陷入停滞，无法积累经验或迭代性能。

面对这一瓶颈，里海大学孙立超团队与合作者提出了OpenSkill框架。与依赖人工标注、大模型生成或监督信号的传统自进化方法不同，其核心在于：即便没有目标任务的监督信号，Agent也能自主获取可执行且可迁移的技能。

实验表明，OpenSkill在多个基准测试中取得了SOTA级别的自动化性能，并且所学技能可直接迁移至能力较弱的模型，效果显著。

图｜自进化Agent技能范式的演变。

OpenSkill 的设计架构解析

简言之，OpenSkill是一个面向开放世界的Agent技能框架。它以任务指令、执行环境、基础模型、工具访问权限及开放世界资源为输入，将流程分解为三个步骤：开放世界知识获取、无泄漏技能进化和零样本目标评估。

图｜OpenSkill框架的整体架构。

开放世界知识获取：团队首先从开放世界中收集两类信息。第一类是“任务知识”，包括背景概念、API文档、最佳实践、代码示例等，用于辅助技能规划；第二类是“验证知识”，涵盖参考值、统计不变量、交叉验证流程以及已知输入输出样例，专门用于支撑后续的虚拟测试。

无泄漏技能进化：获取任务知识和验证知识后，OpenSkill首先生成候选技能，随后通过自动构建的虚拟任务反复测试、筛选与优化这些技能。整个过程中，目标任务的标准答案完全未泄露，真实测试集也未提前介入技能构建阶段。

零样本目标评估：技能进化完成后，以显式文件形式部署至目标Agent。只有隐藏的真实测试集在此阶段用于最终评估，完全不参与之前的技能构建与迭代。简言之，训练与测试严格分离，互不干扰。

实验结果与性能分析

为验证OpenSkill的实际效果，团队从基准测试表现、技能迁移能力和消融实验三个维度进行了评估，结果如下：

1. 基准测试：OpenSkill整体性能领先

OpenSkill在三个基准测试、两个目标Agent上均取得了最佳自动化性能。在SkillsBench中，Opus 4.6和GPT 5.2的总体通过率分别提升至43.6%和42.1%，相较最强基线高出8.9和8.8个百分点，距离人类参考上限仅差1至3个百分点。值得注意的是，在Opus 4.6上，11个领域中有8个达到了最佳或并列最佳表现。

图｜SkillsBench在11个领域的关键结果：两个目标Agent在各领域的平均奖励值。

类似优势也出现在另外两个基准测试中。在SocialMaze上，OpenSkill使Opus 4.6和GPT 5.2的通过率分别达到82.7%和70.7%；在ScienceWorld上，这两个数值为90.0%和85.3%。团队指出，在所有四组设置中，OpenSkill是自动化方法中的最优选择，毫无争议。

图｜两个目标Agent在SocialMaze与ScienceWorld上的平均奖励。

2. 技能迁移：无需额外适配即可迁移至弱模型

技能迁移实验中，团队将Opus 4.6生成的技能直接移植至Haiku 4.5、Qwen 3Coder、DeepSeek V3、Mistral Large 3四个较弱模型，未做任何额外适配。结果明确显示：这些技能在四个目标模型上均带来了显著增益，相比无技能基线提升了5.5至14.8个百分点。这表明所学技能具有泛化能力，并非针对特定模型定制。

图｜Opus 4.6生成的技能迁移至其他模型后，在SkillsBench上的平均奖励。

3. 消融实验：三轮迭代达到最优

在SocialMaze上，OpenSkill在3轮迭代时达到最高82.7%，而增至5轮和10轮后性能反而下降。消融结果还表明，开放世界检索与虚拟验证器各自单独使用时均能提升表现，但组合效果最佳。团队进一步发现，虚拟验证器与真实评测结果具有高度一致性，可覆盖88.9%的真实测试意图，并额外补充格式、类型、边界条件等检查，相当于为真实评测增加了一层实用保障。

图｜SocialMaze上的消融实验结果。

当前局限与未来展望

团队也坦诚指出了当前局限。开放世界知识源可能存在噪声、过时甚至相互矛盾的信息，虚拟任务也难以完全复现真实任务的复杂度。尤其在深层语义验证与反作弊元验证等环节，当前覆盖范围仍有限。

另一个关键挑战是成本高昂、耗时较长。在SkillsBench的84个任务中，端到端API总成本约1800美元，单任务消耗约1.14M tokens，耗时约131分钟。但优点是技能仅需创建一次，后续迁移至其他模型无需重复构建。

展望未来，团队确立了三个主要方向：提升知识源的可信度、增强虚拟任务对真实任务的覆盖能力、以及降低整体成本与时延。成本控制是实现落地应用的关键因素。

更多技术细节可参阅原论文。

来源：互联网

上一篇 vivo和荣耀两大手机巨头接连入场，具身智能AI叙事遭遇市场重创 下一篇 Anthropic AI写代码占比80% 人类能及时刹车吗

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Agent自进化新范式OpenSkill：多项基准SOTA刷新榜

摘要

OpenSkill 的设计架构解析

实验结果与性能分析

当前局限与未来展望

相关文章推荐