其他资讯全球排名复旦自

复旦自进化Harness工程：GPT-5.4性能提升7%的深度测评与权威解析

2026-05-20

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

复旦大学等机构提出AgenticHarnessEngineering方法，通过构建可观测体系将Harness拆解为独立组件

2026年，一个关键的技术范式正在成型：从OpenAI、Anthropic到LangChain，行业领导者们不约而同地将目光投向“Harness Engineering”。OpenClaw、Hermes Agent等项目的成功，更是将这一概念推向了实践前沿。核心共识已然明确：大模型的全部潜力，正日益依赖于一套精心设计的外部工程框架来解锁。

然而，构建与优化Harness本身就是一个复杂的系统工程。它必须深度结合模型的内在能力与外部任务环境的动态需求。当前的核心矛盾在于：模型能力以月为单位快速迭代，任务场景持续向长尾化延伸，而Harness的改进却严重依赖人工经验与反复试错。这引出了一个根本性问题：在Harness工程的迭代闭环中，哪些环节可以实现自动化？我们能否让Harness具备从经验中自主学习并持续优化的能力？

近期，复旦大学、北京大学与上海奇绩智峰的研究团队提出了一项突破性方案：Agentic Harness Engineering (AHE)。该方法以“可观测性”为核心，构建了一套端到端的Harness自动化优化体系，旨在系统性释放模型在复杂任务中的自主性与工程效能。

实验数据极具说服力。基于GPT-5.4模型，AHE方法将智能体在Terminal-Bench 2基准测试上的得分从69.7分持续优化至77.0分。更具前瞻性的是，当GPT-5.5发布后，AHE能够快速迭代出与之匹配的新版Harness，并在相关全球排行榜中取得了第三名的成绩。

这套自动化迭代产生的Harness还展现了卓越的泛化性能——它不仅能够适配不同的底层模型，也能迁移到不同的任务集合。这强有力地证明，其性能提升源于通用工程原则的习得，而非对特定评测集的过拟合。

构建可观测体系的核心逻辑

Harness Engineering 的三大维度

理解AHE的价值，需先厘清Harness的本质。从系统架构看，模型与Harness共同构成一个与环境交互的智能体。模型处于概率空间的核心，而Harness则是包裹其外的确定性工程层，涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆及日志观测等组件。在应对复杂、长周期的生产级任务时，Harness是确保智能体行为稳定、可控、可预测的关键基础设施。

从功能目的看，Harness的核心职责之一是管理模型与环境间的“上下文流”。它需要在精确的时机，将任务指令、用户意图、环境状态及外部信息传递给模型；同时，必须忠实记录、校验模型生成的动作，并确保其在环境中正确执行。

传统上，这项工作高度依赖人工：开发者手动编写提示词、复制终端输出、整理文档，并凭经验决定上下文构成。因此，Harness设计的一个明确目标，是实现上下文流动的精准化与自动化。

那么，Harness Engineering的方法论究竟是什么？最基础的层面是组件优化，即提升Agent基础设施中每个独立模块的代码质量。开发者社区已贡献了大量优秀组件，涉及记忆管理、上下文处理、沙盒环境、轨迹追踪等。这依赖于扎实的工程实践，确保每个部分都高效、安全、稳定。

但更深一层，针对特定环境寻找最优Harness，则演变为一个“模型 x Harness x 环境”的组合优化问题。它没有固定规则，也无法依靠人类先验知识一蹴而就，必须进入“开发-观测-迭代”的循环，依据模型运行轨迹与评测反馈进行动态调整。

人类的注意力是稀缺资源。一个自然的演进方向由此产生：让智能体自身参与Harness的优化过程。只要将优化目标、动作空间与状态空间以智能体可理解的方式呈现，就能引入自主优化机制。这正是AHE设计其可观测体系的根本出发点。

可观测体系的三层架构：组件、经验与决策

Harness的开发通常遵循“编写组件-运行测试-收集反馈”的迭代周期。要让智能体接管这一过程，必须使周期内产生的所有“上下文”变得可观测，并进行结构化、层次化处理。

关键在于，不限制智能体的自主决策空间，仅依赖评测结果及分层信息，辅助其进行精准修改与正确归因。

AHE体系由三个角色构成：执行测试的Coding Agent、整理轨迹的Agent Debugger，以及负责修改Harness以实现进化的Evolve Agent。相应的可观测体系也分为三层：

（1）组件可观测性：基于“声明式Harness”的解耦设计

Coding Agent基于NexAU框架运行。AHE将Harness拆解为七种正交的文件级组件：系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件均为独立文件，拥有明确挂载点，彼此结构解耦。

这种设计的优势在于，它使得“失败模式”与“特定组件”之间的映射关系变得极其清晰。所有修改均通过Git进行版本管理，每一次变更都是一次可追溯、可审计、可回滚的提交。

作为优化起点的Coding Agent，被刻意设定为“零先验”的极简形态：仅具备运行shell命令的基础工具，不含任何中间件、技能或子智能体。此举旨在确保后续每一次组件新增或提示词修改，都能被清晰归因。

（2）经验可观测性：Agent Debugger将原始轨迹转化为可消费资产

单次完整评测产生的原始轨迹可达数千万Token，若直接交付给Evolve Agent，其上下文窗口将瞬间过载，无法进行有效分析。

为此，AHE构建了一套名为Agent Debugger的分层提炼流水线：底层完整记录所有原始轨迹；中层由清理器去除冗余的工具输出；上层则通过一个问答子智能体，针对每道题目的多次运行结果，采用动态提问策略进行分析。最终，所有单题分析被汇总成一份约1万Token的概览报告，供Evolve Agent使用。

这本质是一种“渐进式披露”的设计哲学。Evolve Agent默认只需阅读概览报告，但在需要深入核实时，可随时调阅单题细节乃至原始轨迹。数千万Token的庞大数据，由此转化为可并发处理、高效消费、全程审计的经验资产。

（3）决策可观测性：Evolve Agent的“证据驱动修改”机制

Evolve Agent的设计遵循高度克制原则，核心目标是实现稳定进化：

其修改权限被严格限定在工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词均为只读，彻底杜绝任何可能的评测规避行为。每次修改都必须附带一份详细的“变更清单”，内容包括：失败证据（具体任务）、推断的根本原因、针对性修改方案，以及自我声明的性能预测（预计修复及可能影响的任务）。每一轮修改后，由后续评测充当验证者：预测正确的修改得以保留，预测错误的则由系统自主决定回滚。

由此，每一次Harness的变动都不再是工程师的直觉或抽象经验，而是一条可被下一轮实验证伪的“科学假说”。Harness的进化，从而从依赖经验的“艺术”，迈向了遵循证据的“工程科学”。

实验结果：超越人工调优，实现跨模型泛化

在主实验中，AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2上的pass@1分数从初始的69.7%提升至77.0%，绝对提升7.3个百分点，相对提升10.5%。这一成绩不仅超越了同样使用GPT-5.4的OpenAI最新Codex-CLI（71.9%），也显著优于ACE、Training Free-GRPO等主流基线方法。

其泛化能力更为突出。

跨任务泛化： 将在Terminal-Bench 2上演化得到的Harness冻结后，直接迁移至SWE-Bench Verified基准，AHE以更低的Token消耗，实现了比ACE和TF-GRPO更高的任务成功率。这表明演化习得的是可迁移的通用工程经验，而非针对特定题库的解题技巧。

跨模型泛化： 将同一份由GPT-5.4演化得到的Harness，直接配置给Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4使用，不做任何再训练直接评测。结果显示，三种模型均获得了5.1到10.1个百分点的显著提升，且模型基础能力越弱，提升幅度越大。这证明该Harness学习到的是普适的结构性原则，而非针对特定模型的定制化策略。

价值沉淀：从策略灌输到事实学习

事实性知识比策略性指导更具迁移性

研究过程中不乏深刻洞见。为追求迭代速度，团队最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复波动，呈现“修复一个，破坏另一个”的局面。分析最终Harness发现，Evolve Agent针对特定题目编写了高度定制化的“技巧”，例如Golden Gate的splice-offset检测、Caffe的完整工作流模板等。这表明，过小的题目集会放大单题信号，诱发智能体的“投机”倾向。

随后，团队将题目集扩展至89题的全集，并在Evolve Agent的系统提示词中加入了显式的方法论指导，如“安全/创意/通用性”原则及“中间件 > 工具描述 > 技能 > 提示词”的约束层级。过拟合问题虽有所缓解，但训练曲线在75.3%便过早收敛，且78%的修改集中在中间件层。人为引入的行为先验，反而成为了进化僵化的根源。

最终版本做出了两项关键调整：一是在评测中每题运行两次，通过对比部分通过的差异来定位最精准的诊断信号；二是删除了所有行为指导，仅保留证据驱动的过程要求与回滚规则。

结果上，分数稳步提升至77.0%，且修改分布更为均衡：中间件37% + 工具48% + 提示词10%，没有任何单一层级占据主导，不同阶段得以灵活调整。

一个来自社区的常见惯性思维是“优先调整提示词”。然而，当将AHE演化得到的四类组件（记忆、工具、中间件、系统提示词）逐一放回初始Harness进行消融实验时，结果出乎意料：仅记忆组件单独就能恢复全局性能增幅的95%以上，工具组件对中等难度题目提升显著，而单独迁移系统提示词反而导致了性能下降。

一个合理的解释是：提示词的语义是策略性的（指导“应该如何做”），而记忆和工具的语义是事实性的（提供“可复用的具体信息”）。事实性知识比策略性指导具有更好的迁移性，它们保留了具体上下文，同时维持了泛化能力。这也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败：开发者习惯于教授策略，而模型更擅长从具体事实与反馈中自主学习。

结论：可观测的进化循环将加速AGI进程

AHE带来的核心启示在于：当模型能力足够强大时，构建一个结构化、可观测的演化环境，比直接开发Harness本身更为关键。搭建好观测体系——让Evolve Agent能够访问组件、轨迹与反馈——然后在全量数据上运行测试，便足以演化出具备竞争力的Harness。无需为智能体预设任何方法论，只需提供清晰的工作区、明确的修改接口与高质量的反馈信号，Evolve Agent的行为便会自动向资深工程师的最佳实践收敛。

是时候迈出这一步，让Harness自身也进入自主进化的新阶段。

来源：互联网

上一篇 端侧AGI深度解析：告别云端依赖，本地智能革命开启 下一篇 AI赋能三大职业：VC、品牌顾问与编剧的转型实战指南

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。