其他资讯全球排名复旦自

复旦自进化Harness工程实战：GPT‑5.4性能提升7%的深度解析

2026-05-21

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年，AI领域的一个核心共识日益清晰：大模型潜能的充分释放，越来越依赖于一套精密的

2026年，AI领域的一个核心共识日益清晰：大模型潜能的充分释放，越来越依赖于一套精密的工程框架。从OpenAI、Anthropic的技术分享到LangChain、OpenClaw等项目的实践，都指向一个关键工程范式——Harness Engineering（缰绳工程）。

其逻辑在于：模型能力迭代以月计，任务场景却日趋复杂与长尾，而框架的优化高度依赖人工经验积累。这催生了一个核心挑战：在Harness的迭代循环中，哪些环节可以实现自动化？如何让框架具备从经验中自主学习与进化的能力？

近期，复旦大学、北京大学与上海奇绩智峰的联合研究团队提出了一项突破性方案：Agentic Harness Engineering (AHE)。该方法以可观测性为核心驱动力，构建了一套端到端的Harness自动化优化体系，旨在最大化激发模型的自主能力。

实验数据验证了其有效性。在GPT-5.4模型上，AHE将Terminal-Bench 2的评测分数从69.7%迭代提升至77.0%。更具说服力的是，当GPT-5.5发布后，AHE能迅速适配并演化出新框架，在相关榜单中位列全球第三。这证明了其自动化迭代出的框架具备优秀的跨模型与跨任务泛化能力，而非针对特定评测的“应试技巧”。

该研究的论文在社交平台X上已获得超过10万次浏览与讨论，引发了行业深度关注。

为何必须构建可观测体系？

理解AHE，需先透视Harness Engineering的本质。我们可以从三个维度剖析其核心。

从系统形态看，模型与Harness共同构成与环境交互的主体。模型是概率空间中的智能与不确定性来源；Harness则是包裹其外的确定性组件，涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排及长期记忆等。在应对复杂、长程的生产力任务时，Harness是确保智能体行为稳定、一致、可控的工程基石。

从设计目的看，Harness的核心职能之一是管理模型与环境间的双向上下文流：一方面在适当时机将任务、用户意图及环境状态传递给模型，另一方面则将模型动作准确记录、校验后交付环境执行。传统开发依赖人工拼凑上下文，而Harness的目标是实现这一流程的精准化与自动化。

那么，Harness Engineering的方法论是什么？基础层面是独立优化各组件代码，这依赖于扎实的工程实现，以提升每个模块的效率与安全性。

更进一步，针对特定环境寻找最优Harness，则演变为模型、框架、环境三者的组合优化问题。这无法依赖人类先验知识一步到位，必须通过开发、观测、迭代的循环，依据模型运行轨迹与评测反馈进行持续调整。

问题的关键在于人类注意力的稀缺性。因此，一个自然的演进方向是：让智能体自身参与框架的优化过程。只要将优化目标、动作空间与状态空间以智能体可读的方式呈现，即可引入智能体进行自主优化。这正是AHE设计其可观测体系的根本逻辑。

可观测体系：组件、经验与决策

Harness开发通常遵循编写组件、运行智能体、收集反馈的迭代循环。要让智能体接管此过程，必须使循环中产生的所有上下文变得可观测，并实现结构化与层次化。

AHE方法由三个核心角色构成：执行测试的Coding Agent、负责轨迹整理的Agent Debugger，以及修改框架实现进化的Evolve Agent。其可观测体系也相应划分为三部分：

1. 组件可观测性：解耦的“声明式Harness”
Coding Agent基于名为NexAU的框架运行。AHE将Harness拆解为七种正交的文件级组件：系统提示词、工具描述、工具实现、中间件、技能、子智能体配置、长期记忆。每个组件均为独立文件，拥有明确挂载点，彼此结构解耦。

这种设计的优势在于，它使得“失败模式”与“单一组件”的映射关系极为清晰。所有修改通过Git进行版本管理，确保每次变更可追溯、可审计、可回滚。作为优化起点的Coding Agent，从一个“零先验”的极简形态开始，确保后续每一次组件新增或提示词修改，都能被清晰归因。

2. 经验可观测性：将海量轨迹转化为可消费资产
一次完整评测产生的原始轨迹可达数千万Token，直接输入Evolve Agent会淹没其上下文窗口。为此，AHE构建了一套名为Agent Debugger的分层提炼流水线：底层完整记录原始轨迹；中层由Cleaner去除重复工具输出；上层则通过一个QA子智能体，对每道题的多次运行结果进行策略分析。最终，所有分析汇聚成一份约1万Token的概览报告，供Evolve Agent高效消费。

这本质上是渐进式披露设计。Evolve Agent默认只需阅读概览，但在需要核实时，可随时回溯查看单题细节乃至原始轨迹，从而将海量数据转化为可并发处理、可审计的经验资产。

3. 决策可观测性：证据驱动的修改机制

Evolve Agent的设计原则极为克制，以确保进化稳定性：它仅能修改工作区内的Harness组件文件，评测框架、LLM配置等均为只读，杜绝任何取巧行为。每次修改必须附带一份详细的“变更清单”，包括失败证据、根因推断、修改方案及自我声明的性能预测。下一轮评测则充当验证者：预测正确的修改保留，预测错误的则自主决定回滚。

由此，每一次Harness的变动，都不再是工程师的直觉或抽象经验，而是一条可被下一轮实验证伪的“科学假说”。框架的进化，从而从一门艺术走向工程，从依赖经验走向遵循科学。

实验结果：超越人类专家，展现卓越泛化能力

在主实验中，AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2上的pass@1分数从69.7%提升至77.0%，绝对提升达7.3个百分点。这一成绩超越了使用同版本模型的其他主流方案。

更值得关注的是其展现的泛化能力：

跨任务泛化： 将在Terminal-Bench 2上演化得到的Harness，直接迁移至SWE-Bench Verified任务，AHE以更少的Token消耗实现了比对比基线更高的成功率。这表明演化学到的是可迁移的通用工程经验，而非针对特定评测的“过拟合”知识。

跨模型泛化： 将同一份由GPT-5.4演化得到的Harness，直接配置于Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4模型，不做任何调整。结果显示，三种模型均获得显著提升（+5.1到+10.1个百分点），且模型基础能力越弱，提升幅度越大。这证明演化出的Harness蕴含了普适的结构性原则，而非为特定模型定制。

价值沉淀：事实比策略更具可迁移性

探索过程中，团队也曾经历失败。早期仅在30道高难度题目上演化，导致智能体学会了针对特定题目的“黑客技巧”，性能在局部震荡，无法持续提升。将题集扩展至89题全集并加入人工方法论指导后，过拟合虽缓解，但演化很快陷入瓶颈，75.3%即触顶，且78%的修改集中在中间件层——人工引入的行为先验，反而成了进化僵化的源头。

最终版本的突破源于两个关键改动：一是在评测时每题运行两次，通过差异对比定位更精准的诊断信号；二是删除所有行为指导，仅保留证据驱动的过程要求与回滚规则。结果，性能稳步提升至77.0%，且修改分布变得健康均衡。

一个反直觉的发现来自消融实验。当将AHE演化得到的四类组件（记忆、工具、中间件、系统提示词）逐一放回初始框架测试时，结果出人意料：记忆（Memory）组件单独即可恢复全局性能增幅的95%以上，工具组件对中等难度题目提升显著，而单独迁移系统提示词反而导致性能下降。

这或许揭示了一个深层逻辑：提示词的语义往往是策略性的（“你应该这样做”），而记忆和工具的语义是事实性的（“这里有一段可复用代码”或“这是一个可用功能”）。事实比策略具备更优的可迁移性，它们在保留有效信息的同时，维持了更强的泛化能力。这也解释了为何人类试图用方法论指导演化智能体会失败——开发者习惯于教授策略，而模型更擅长从事实中学习。

结语：可观测的进化循环将加速AGI进程

AHE带来的核心启示在于：当模型足够强大时，构建一个结构化、高度可观测的演化环境，比直接开发某个具体Harness更为关键。建立好观测体系，让演化智能体能够清晰访问组件、轨迹与反馈，然后在全量数据上运行测试，便足以演化出具备竞争力的框架。

无需替智能体构思任何具体方法论，只需提供清晰的工作区、明确的修改接口与高质量的反馈信号，演化智能体的行为便会自动向优秀工程师的实践收敛。这标志着框架工程迈入新阶段：是时候让Harness自身也开始进化了。

来源：互联网

上一篇 JSON/CSV/XML格式互转指南：Duck.ai数据转换操作详解 下一篇 夸克AI移动端独家功能详解：手机场景高效应用指南

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。