Agent评测新趋势:为何动态基准成为2026年专业测评的关键指标?
摘要
现代AI智能体正日益成为高效的数字员工,能够熟练调用API、查询数据库、撰写邮件、修改

现代AI智能体正日益成为高效的数字员工,能够熟练调用API、查询数据库、撰写邮件、修改代码、管理日程并生成报表。然而,其能力评估面临的核心挑战已不再是“能否生成回答”,而在于两个更实际的层面:智能体是否真正完成了任务?以及,我们用于评估的任务集是否仍能代表当前真实世界中最核心的工作流程?
这正是Claw-Eval与Claw-Eval-Live试图解答的问题。前者聚焦于“如何验证智能体确实执行了任务”,后者则挑战“如何让评测基准的任务库持续跟上现实需求的演变”。这标志着智能体评测进入了新的阶段:竞争焦点从“答题能力”转向了“对真实世界的拟合度”。


你确定Agent真的做了?
在Claw-Eval出现之前,主流的智能体评测方法相当直接:给定任务,仅依据最终输出判断对错。文件是否创建?测试是否通过?答案是否匹配?若答案为是,则判定通过。
这种方法看似合理,但对智能体评测而言存在两个根本性缺陷。
第一,它只评估结果,忽略执行过程。模型可能生成一份完美的报告,但它是否查询了正确的数据源?是否调用了预期的API?还是仅仅“虚构”了一个看似正确的答案?近期研究表明,前沿模型会主动寻找评测捷径,绕过预期的执行路径直接满足最终检查项。仅看结果的评测方式,恰恰为这种行为提供了便利。
第二,它难以反映真实部署的要求。一个可投入生产的智能体,不仅要能完成任务,还需在过程中避免不当操作,并在API超时、服务异常等不稳定环境中保持稳健运行。换言之,评测需兼顾“能否完成”、“是否安全完成”以及“是否稳健完成”。Claw-Eval将多模态与多轮对话纳入统一评测框架,但其最关键的价值在于将智能体评测从“答案导向”推进至“行动验证”。
Claw-Eval:将执行过程转化为可审计证据
Claw-Eval包含300项经人工验证的任务,覆盖通用服务编排、多模态感知与生成、多轮专业对话三大类别,共定义了2,159个可独立验证的评分细则。

其核心方法论可概括为:将智能体的执行过程转化为可审计的证据链。每次评测均在隔离环境中进行,分为准备、执行、评判三个阶段;智能体运行时无法访问评分脚本与参考答案。最终评分依据三条独立的证据链:执行轨迹、服务端审计日志,以及执行后的环境快照。
在此基础上,Claw-Eval将任务完成度、操作安全性、系统鲁棒性及跨模态任务统一纳入同一评测框架。
Claw-Eval揭示了一个关键发现:若忽略过程,智能体评测会系统性“放水”。
团队进行了严格的对照实验:让一个标准的LLM评判者获取完整的对话记录和评分脚本源码,但缺少服务端审计日志与环境快照。结果,它仍漏检了44%的安全违规和13%的鲁棒性问题。这表明,对于智能体而言,“只看结果”的评测方式不仅不够精确,更会系统性高估模型的实际能力。
当然,Claw-Eval还揭示了更多细节,例如错误注入会显著降低可靠性(Pass^3指标最大跌幅达24个百分点)、多模态与多轮对话能力不存在统一的领先者。但就本文而言,最重要的结论是:智能体评测基准必须评估行动,而非仅看答案。
然而,当“如何评估”的问题被厘清后,另一个更现实的挑战随之浮现:即使评测方法足够可信,若基准测试所评估的工作流本身已逐渐偏离现实需求,那么评测得再精确,也可能指向错误的方向。
这正是Claw-Eval-Live旨在解决的下一层问题。
“评得准”还不够,基准也会过时
至此,问题的核心从“如何评”转向了“评什么”。这也是Claw-Eval-Live的切入点。
Claw-Eval解决了“评分可信度”问题。但它与几乎所有现有基准测试一样,存在一个更根本的局限:其任务集合是静态的。
300项任务在发布之日便已固定。无论外部工具生态如何演进、企业工作流重心如何迁移、用户对智能体自动化的需求从日报撰写转向跨系统对账——基准测试中的任务分布都不会随之调整。
在传统的NLP评测中,这或许问题不大,因为“翻译一段文本”、“回答一个问题”这类任务形态相对稳定。但在智能体评测领域,这一问题被急剧放大。智能体面对的不是抽象的语言任务,而是具体的工作流。而工作流始终在动态变化——工具栈持续迭代,企业痛点不断迁移,某些自动化场景从无到有,另一些则从核心变为边缘。
一个基准测试可以在技术上保持完全可复现,但其测试的任务组合,可能正悄然偏离用户当下最希望智能体完成的事项。这种偏移并非源于某项具体任务“过时”,而是源于任务混合比例本身。半年前最热门的自动化需求与今天最迫切的需求,很可能已不相同。
这就是Claw-Eval-Live要应对的挑战。
“活的”基准到底长什么样?
提及“动态基准”,许多人的第一反应是:那岂不是每天都在变,根本无法进行模型比较?
Claw-Eval-Live的解决方案并非“让基准持续变动”,而是:让每一次版本发布,都成为捕捉当下真实世界需求的一张切片。

其核心是两层分离的设计架构:
信号层——每次构建新版本时,并非由团队内部头脑风暴“应该测试什么”,而是基于ClawHub Top-500热门技能等公开的工作流需求信号,识别当前哪些工作流更值得关注。需明确,这些信号并非自动出题器,也不是对真实需求的精确测量。它们只是一个公开、可核查的需求先验,用于指导基准测试决定当前版本应更侧重哪些工作流。
发布层——最终公开发布的基准测试仍是固定的、带时间戳的快照。任务定义、执行环境、数据夹具、评分脚本全部锁定。模型之间可进行稳定比较,学术上完全可复现。

两层之间通过一条五阶段流水线连接:
- 信号采集:抓取ClawHub Top-500的时间戳快照,每条信号均附带来源与元数据。
- 模式聚类:将碎片化的技能名称聚合为稳定的工作流模式——区分依据不再是技能的表面名称,而是其背后的用户目标、操作对象与执行环境。
- 家族加权:根据上游信号强度确定各任务家族的目标权重,信号越强的工作流在发布版本中占比越高。
- 种子扩展与筛选:将加权后的模式展开为可执行的任务候选,经试跑筛选后,仅保留可运行、可复现且能产生有效分数差异的候选——从178个生成候选筛选至157个。
- 区分度优化选取:使用混合整数线性规划从157个候选中选出105道公开任务,同时优化三个约束:发布规模、家族覆盖度以及榜单区分度。
此处的MILP并非机械追求“多样性”,而是将三件事显式化:公开版本应有多大、每个家族至少需被覆盖多少、以及这套题目要能真正拉开模型间的差距。将这些原本模糊的策展判断转化为可审计的约束,是Claw-Eval-Live使版本构建过程本身也变得透明的方式。
当前公开版本的规模为:105项任务,22个任务家族,13个前沿模型。任务分为两大执行环境——87项服务驱动的业务工作流(涉及CRM、邮件、日历、财务、工单等18个受控服务)和18项本地工作空间修复任务(终端操作、环境修复、配置调试)。
每项任务不只是一个提示词,而是一个完整的可执行评测单元:包含任务定义、工具接口、数据夹具以及专属评分脚本,缺一不可。评分沿用Claw-Eval的证据锚定原则——在整个发布版本中,最常见的三类确定性证据包括:数据检索、数据准确性、行动验证。仅当这些确定性检查无法覆盖的语义维度时,才引入结构化的LLM评判者。
因此,从项目演进来看,这两项工作一脉相承:
- Claw-Eval解决“评分可信度”——让我们看清智能体究竟执行了哪些操作。
- Claw-Eval-Live解决“题库与现实同步”——让基准测试不再固守于一套静态题目,而是持续对准当下最值得测试的工作流。
当基准真正贴近现实,我们看到了什么?
13个前沿模型在当前版本上的结果直接而明确。
整体天花板依然很低


没有任何模型突破70%的通过率。榜首与末位差距达22.9个百分点。真实工作流的自动化,远未达到“可可靠部署”的阶段。
值得注意的是,通过率相近的模型,其任务完成度可能相差甚远。MiMo V2 Pro、Kimi K2.5、Gemini 3.1 Pro三个模型均取得53.3%的通过率,但总体完成度从76.9%到74.0%不等。这表明某些模型并非完全不会做,而是经常“差一点完成”——问题不在于语言能力,而在于执行闭环。
真正有冲击力的发现:难点与直觉相悖

仅凭直觉,许多人会认为最困难的当属终端操作、环境修复这类需要硬核技术能力的任务。
Claw-Eval-Live给出的结果恰恰相反。
从分组热力图来看,开发/终端任务对强模型已接近天花板:Claude Opus 4.6、GPT-5.4和Claude Sonnet 4.6在此类任务上均达到100%,最弱的模型也超过72.2%。真正的难点在于HR/人事、管理/运营以及跨系统工作流这类业务任务。在HR/人事组别中,没有模型超过22.2%,且多个模型得分为0。
进一步观察细粒度家族,结论更为尖锐。HR任务的平均通过率仅为6.8%;管理任务在公开的通过规则下全军覆没;工作流任务的平均通过率也只有12.8%。相反,看似“更技术”的工作空间修复任务反而相对容易。整个基准测试分为两种执行环境后,这一差异更加明显:工作空间侧,所有模型至少达到72.2%;而服务支持的工作流侧,没有模型超过59.8%。
这意味着,当前智能体的主要瓶颈已不再是“是否会使用终端”,而是“能否在多个系统间持续收集证据、正确关联记录,并完成必需的写入操作”。
论文中最能说明此问题的,是几个高区分度任务的表现模式。例如电商月度对账、客服首次响应时间审计和多文档合并,它们的共同特征是:必须从多个来源精确提取数据,任何工具调用的遗漏或实体链接的错误都会导致大幅扣分。
以论文附录中展示的代表性子任务为例,多个模型都能生成体面的入职文档,但均未达到公开的通过阈值。问题不在于文档是否通顺,而在于模型未能真正将员工信息、必需的工具调用和任务证据形成闭环。这更像是在“描述”一件事,而非“完成”一件事。
这是Claw-Eval-Live最具价值的发现:当今智能体最困难之处,并非“修复一个损坏的组件”,而是“在多个系统之间,真正完成一项具体的业务”。
“说得好”不等于“做得到”
Claw-Eval-Live的排名与常见的聊天/写作基准测试排名并不一致,这恰恰体现了其价值。
它不奖励“最终回答的流畅度”,而是奖励跨系统证据收集、正确的记录关联、行动闭环以及执行后状态的完整性。一个模型可以生成极其流畅的总结,但如果它遗漏了必需的工具调用、忽略了关键证据、或工作空间状态不正确——在此基准上同样无法得分。这正是“会说”与“会做”的核心区别。
部署视角:成本同样关键
若从部署角度审视榜单,估算的API成本差异同样显著。需强调此为“估算”:论文依据记录的输入输出token用量及发布时的供应商标价计算,不等于实际账单。
Claude Opus 4.6准确率最高,但完成全部105项任务的估算API成本约为31.6美元;GPT-5.4以约6.3美元的成本位列第二,通过率仅低2.9个百分点;GLM-5以约2.5美元达到与Claude Sonnet 4.6相同的61.9%通过率,估算成本约为Opus的7.8%。
对于实际部署智能体的团队而言,总榜仅是起点,更实际的决策维度是“特定工作流家族上的准确率 × 成本”。
从Claw-Eval到Claw-Eval-Live,到底推进了什么?

Claw-Eval将智能体评测从“只看结果”推进到“审视过程”。其最关键贡献在于证明:若无执行轨迹、审计日志和环境快照,智能体基准测试会系统性高估模型能力。
Claw-Eval-Live则将智能体评测从“静态题库”推进到“与真实需求共同演化的任务快照”。它揭示出:当基准测试真正对齐现实工作流后,最优模型也只能通过约三分之二的任务;直觉上困难的终端修复已接近解决,真正的瓶颈在于跨系统的业务编排;HR、管理及工作流类任务依然显著偏难。
这两步缺一不可。
没有第一步,你可能会被一个“看似能干”的智能体所误导——它的报告撰写完美,却从未真正查询过数据。
没有第二步,你可能会使用一套逐渐脱离现实的任务集合,得出一个看似精确却已无关紧要的结论——你的榜单很稳定,但它回答的是一个无人再问的问题。
若智能体真要走向部署,基准测试就不能仅产出一张榜单。它还应回答两个问题:这个智能体是否真正完成了任务?以及,我们究竟在用什么样的任务来定义“会干活”。
Claw-Eval回答的是前一个问题:我们如何确认智能体确实执行了任务。Claw-Eval-Live回答的则是后一个问题:我们究竟在用何种任务定义“会干活”。前者为智能体评测奠定了可信基础;后者则将基准测试从一套静态题库,推进至与真实世界同步演化的任务快照。
对当下的智能体而言,这一步尤为关键。因为当能力开始接近部署边界时,真正重要的不再只是“是否会解题”,而是基准测试所评估的,是否仍是现实世界中最值得自动化的工作流。
如果说过去的大模型竞争更像能力展示的上半场,那么面向真实工作流的评测、验证与部署,才是智能体基准测试下半场真正开始的标志。
先夯实智能体评测的可信度,再让基准测试跟上真实世界的步伐。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。