复旦自进化Harness工程:GPT-5.4性能提升7%的深度测评与权威解析
摘要
复旦大学等机构提出AgenticHarnessEngineering方法,通过构建可观测体系将Harness拆解为独立组件

2026年,一个关键的技术范式正在成型:从OpenAI、Anthropic到LangChain,行业领导者们不约而同地将目光投向“Harness Engineering”。OpenClaw、Hermes Agent等项目的成功,更是将这一概念推向了实践前沿。核心共识已然明确:大模型的全部潜力,正日益依赖于一套精心设计的外部工程框架来解锁。
然而,构建与优化Harness本身就是一个复杂的系统工程。它必须深度结合模型的内在能力与外部任务环境的动态需求。当前的核心矛盾在于:模型能力以月为单位快速迭代,任务场景持续向长尾化延伸,而Harness的改进却严重依赖人工经验与反复试错。这引出了一个根本性问题:在Harness工程的迭代闭环中,哪些环节可以实现自动化?我们能否让Harness具备从经验中自主学习并持续优化的能力?
近期,复旦大学、北京大学与上海奇绩智峰的研究团队提出了一项突破性方案:Agentic Harness Engineering (AHE)。该方法以“可观测性”为核心,构建了一套端到端的Harness自动化优化体系,旨在系统性释放模型在复杂任务中的自主性与工程效能。

实验数据极具说服力。基于GPT-5.4模型,AHE方法将智能体在Terminal-Bench 2基准测试上的得分从69.7分持续优化至77.0分。更具前瞻性的是,当GPT-5.5发布后,AHE能够快速迭代出与之匹配的新版Harness,并在相关全球排行榜中取得了第三名的成绩。

这套自动化迭代产生的Harness还展现了卓越的泛化性能——它不仅能够适配不同的底层模型,也能迁移到不同的任务集合。这强有力地证明,其性能提升源于通用工程原则的习得,而非对特定评测集的过拟合。
构建可观测体系的核心逻辑
Harness Engineering 的三大维度

理解AHE的价值,需先厘清Harness的本质。从系统架构看,模型与Harness共同构成一个与环境交互的智能体。模型处于概率空间的核心,而Harness则是包裹其外的确定性工程层,涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆及日志观测等组件。在应对复杂、长周期的生产级任务时,Harness是确保智能体行为稳定、可控、可预测的关键基础设施。
从功能目的看,Harness的核心职责之一是管理模型与环境间的“上下文流”。它需要在精确的时机,将任务指令、用户意图、环境状态及外部信息传递给模型;同时,必须忠实记录、校验模型生成的动作,并确保其在环境中正确执行。
传统上,这项工作高度依赖人工:开发者手动编写提示词、复制终端输出、整理文档,并凭经验决定上下文构成。因此,Harness设计的一个明确目标,是实现上下文流动的精准化与自动化。
那么,Harness Engineering的方法论究竟是什么?最基础的层面是组件优化,即提升Agent基础设施中每个独立模块的代码质量。开发者社区已贡献了大量优秀组件,涉及记忆管理、上下文处理、沙盒环境、轨迹追踪等。这依赖于扎实的工程实践,确保每个部分都高效、安全、稳定。
但更深一层,针对特定环境寻找最优Harness,则演变为一个“模型 x Harness x 环境”的组合优化问题。它没有固定规则,也无法依靠人类先验知识一蹴而就,必须进入“开发-观测-迭代”的循环,依据模型运行轨迹与评测反馈进行动态调整。
人类的注意力是稀缺资源。一个自然的演进方向由此产生:让智能体自身参与Harness的优化过程。只要将优化目标、动作空间与状态空间以智能体可理解的方式呈现,就能引入自主优化机制。这正是AHE设计其可观测体系的根本出发点。
可观测体系的三层架构:组件、经验与决策
Harness的开发通常遵循“编写组件-运行测试-收集反馈”的迭代周期。要让智能体接管这一过程,必须使周期内产生的所有“上下文”变得可观测,并进行结构化、层次化处理。
关键在于,不限制智能体的自主决策空间,仅依赖评测结果及分层信息,辅助其进行精准修改与正确归因。
AHE体系由三个角色构成:执行测试的Coding Agent、整理轨迹的Agent Debugger,以及负责修改Harness以实现进化的Evolve Agent。相应的可观测体系也分为三层:

(1)组件可观测性:基于“声明式Harness”的解耦设计
Coding Agent基于NexAU框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件均为独立文件,拥有明确挂载点,彼此结构解耦。
这种设计的优势在于,它使得“失败模式”与“特定组件”之间的映射关系变得极其清晰。所有修改均通过Git进行版本管理,每一次变更都是一次可追溯、可审计、可回滚的提交。
作为优化起点的Coding Agent,被刻意设定为“零先验”的极简形态:仅具备运行shell命令的基础工具,不含任何中间件、技能或子智能体。此举旨在确保后续每一次组件新增或提示词修改,都能被清晰归因。
(2)经验可观测性:Agent Debugger将原始轨迹转化为可消费资产
单次完整评测产生的原始轨迹可达数千万Token,若直接交付给Evolve Agent,其上下文窗口将瞬间过载,无法进行有效分析。
为此,AHE构建了一套名为Agent Debugger的分层提炼流水线:底层完整记录所有原始轨迹;中层由清理器去除冗余的工具输出;上层则通过一个问答子智能体,针对每道题目的多次运行结果,采用动态提问策略进行分析。最终,所有单题分析被汇总成一份约1万Token的概览报告,供Evolve Agent使用。
这本质是一种“渐进式披露”的设计哲学。Evolve Agent默认只需阅读概览报告,但在需要深入核实时,可随时调阅单题细节乃至原始轨迹。数千万Token的庞大数据,由此转化为可并发处理、高效消费、全程审计的经验资产。
(3)决策可观测性:Evolve Agent的“证据驱动修改”机制

Evolve Agent的设计遵循高度克制原则,核心目标是实现稳定进化:
其修改权限被严格限定在工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词均为只读,彻底杜绝任何可能的评测规避行为。每次修改都必须附带一份详细的“变更清单”,内容包括:失败证据(具体任务)、推断的根本原因、针对性修改方案,以及自我声明的性能预测(预计修复及可能影响的任务)。每一轮修改后,由后续评测充当验证者:预测正确的修改得以保留,预测错误的则由系统自主决定回滚。
由此,每一次Harness的变动都不再是工程师的直觉或抽象经验,而是一条可被下一轮实验证伪的“科学假说”。Harness的进化,从而从依赖经验的“艺术”,迈向了遵循证据的“工程科学”。
实验结果:超越人工调优,实现跨模型泛化

在主实验中,AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2上的pass@1分数从初始的69.7%提升至77.0%,绝对提升7.3个百分点,相对提升10.5%。这一成绩不仅超越了同样使用GPT-5.4的OpenAI最新Codex-CLI(71.9%),也显著优于ACE、Training Free-GRPO等主流基线方法。
其泛化能力更为突出。
跨任务泛化: 将在Terminal-Bench 2上演化得到的Harness冻结后,直接迁移至SWE-Bench Verified基准,AHE以更低的Token消耗,实现了比ACE和TF-GRPO更高的任务成功率。这表明演化习得的是可迁移的通用工程经验,而非针对特定题库的解题技巧。

跨模型泛化: 将同一份由GPT-5.4演化得到的Harness,直接配置给Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4使用,不做任何再训练直接评测。结果显示,三种模型均获得了5.1到10.1个百分点的显著提升,且模型基础能力越弱,提升幅度越大。这证明该Harness学习到的是普适的结构性原则,而非针对特定模型的定制化策略。

价值沉淀:从策略灌输到事实学习
事实性知识比策略性指导更具迁移性
研究过程中不乏深刻洞见。为追求迭代速度,团队最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复波动,呈现“修复一个,破坏另一个”的局面。分析最终Harness发现,Evolve Agent针对特定题目编写了高度定制化的“技巧”,例如Golden Gate的splice-offset检测、Caffe的完整工作流模板等。这表明,过小的题目集会放大单题信号,诱发智能体的“投机”倾向。
随后,团队将题目集扩展至89题的全集,并在Evolve Agent的系统提示词中加入了显式的方法论指导,如“安全/创意/通用性”原则及“中间件 > 工具描述 > 技能 > 提示词”的约束层级。过拟合问题虽有所缓解,但训练曲线在75.3%便过早收敛,且78%的修改集中在中间件层。人为引入的行为先验,反而成为了进化僵化的根源。
最终版本做出了两项关键调整:一是在评测中每题运行两次,通过对比部分通过的差异来定位最精准的诊断信号;二是删除了所有行为指导,仅保留证据驱动的过程要求与回滚规则。
结果上,分数稳步提升至77.0%,且修改分布更为均衡:中间件37% + 工具48% + 提示词10%,没有任何单一层级占据主导,不同阶段得以灵活调整。

一个来自社区的常见惯性思维是“优先调整提示词”。然而,当将AHE演化得到的四类组件(记忆、工具、中间件、系统提示词)逐一放回初始Harness进行消融实验时,结果出乎意料:仅记忆组件单独就能恢复全局性能增幅的95%以上,工具组件对中等难度题目提升显著,而单独迁移系统提示词反而导致了性能下降。
一个合理的解释是:提示词的语义是策略性的(指导“应该如何做”),而记忆和工具的语义是事实性的(提供“可复用的具体信息”)。事实性知识比策略性指导具有更好的迁移性,它们保留了具体上下文,同时维持了泛化能力。这也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败:开发者习惯于教授策略,而模型更擅长从具体事实与反馈中自主学习。
结论:可观测的进化循环将加速AGI进程
AHE带来的核心启示在于:当模型能力足够强大时,构建一个结构化、可观测的演化环境,比直接开发Harness本身更为关键。搭建好观测体系——让Evolve Agent能够访问组件、轨迹与反馈——然后在全量数据上运行测试,便足以演化出具备竞争力的Harness。无需为智能体预设任何方法论,只需提供清晰的工作区、明确的修改接口与高质量的反馈信号,Evolve Agent的行为便会自动向资深工程师的最佳实践收敛。
是时候迈出这一步,让Harness自身也进入自主进化的新阶段。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。