其他资讯 AI智能体 AI智能

AI智能体测评榜单：马里兰大学联手打造自动化考场生成方案

2026-05-15

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

这项由马里兰大学、加州大学伯克利分校、加州大学洛杉矶分校以及穆罕默德·本·扎耶德

这项由马里兰大学、加州大学伯克利分校、加州大学洛杉矶分校以及穆罕默德·本·扎耶德人工智能大学联合开展的研究，以预印本形式于2026年4月20日发布，论文编号为arXiv:2604.18543。

马里兰大学等高校联手打造

考卷从哪里来？这件事比想象中麻烦得多

想象一下，一位老师要给学生出一套高质量的考卷，她需要构思题目、确保指令清晰、提供背景材料、设计评分标准，还得反复检查答案是否合理、题目之间有无矛盾。这套流程，即便经验丰富，也得花上几个小时。

现在，把这位老师换成计算机科学家，把学生换成AI智能体，把考卷换成“任务环境”——你大概就能理解这篇论文要解决的核心问题了。

近年来，以大语言模型（如ChatGPT、Claude）为核心的智能体系统正快速走向实用。它们不再只是聊天，而是能操作文件、调用API、发送邮件、管理日程，更像一个能独立干活的数字助手。这类智能体有个生动的名字：“爪状智能体”（Claw-like Agents），代表系统包括OpenClaw、NanoClaw和IronClaw等开源平台。

要训练和评估这类智能体，研究者需要搭建专门的“任务环境”：明确告诉智能体要做什么、提供哪些工具、以及如何判断对错。问题在于，每构建一个这样的环境，都需要研究人员手工编写任务说明、搭建模拟服务接口、设计评分逻辑，并逐一检查各个环节是否自洽。这个过程平均需要两个小时，完全依赖人力。

更棘手的是，人工构建的考题集一旦发布就成了固定版本。随着AI能力飞速提升，旧的考题很快会变得过于简单，甚至可能被AI在训练数据中“背”下来，从而失去测评价值。研究者称这种现象为“数据污染”——好比考生提前拿到了答案，考试也就失去了意义。

这正是ClawEnvKit要解决的核心痛点。

一、一条能自动生产考卷的流水线

ClawEnvKit的核心思路，是把“出考卷”这件事变成一条自动化流水线。你只需要给它一段自然语言描述——比如“生成10道中等难度的邮件管理任务”——它就能自动产出一批可直接运行的任务环境，全程无需人工干预。

这条流水线分为三个环节，各司其职，就像出版社里的编辑、排版师和校对员。

第一个环节是“解析器”（Parser）。它的任务是读懂用户的自然语言请求，并将其意图提炼成结构化的“意图单元”。例如，用户说“测试智能体能否安排会议并通知所有参会者”，解析器就会识别出动作（创建日历事件、发送邮件）、对象（参会者名单）和约束（不能删除已有事件）。这些意图单元是整个流水线的“设计图纸”，确保后续生成的内容不偏离用户本意。

第二个环节是“生成器”（Generator）。它拿着设计图纸，通过三条子流程产出完整的任务环境。“任务生成”流程负责产出任务说明、工具列表、预置数据和评分规则；“服务生成”流程负责处理尚不存在的模拟服务——例如，如果任务需要调用GitHub问题管理接口而系统里还没有，生成器会自动设计API、构建模拟服务器，测试后纳入服务库；“数据生成”流程则负责准备任务所需的配套文件，比如给终端操作任务准备一个数据库文件。为了避免生成的任务千篇一律，生成器还内置了“多样性控制”机制：每次生成时打乱服务列表顺序、轮流使用不同的API动作类型，并将最近生成的10个任务名称传给AI以避免重复。

第三个环节是“验证器”（Validator）。它扮演严格校对员的角色，在任务入库前回答三个关键问题：格式是否合法？是否覆盖了所有用户意图？是否真的可解？格式检查包含12项具体规则，例如评分权重之和必须为1、必须至少有一项安全检查、安全规则不能与评分规则矛盾。覆盖检查则逐一核对解析器提炼的每个意图单元，确保每个动作都有对应的可调用工具和评分项。可解性检查则专门排除那些逻辑上无解的任务，比如要求智能体获取明天的邮件。如果验证不通过，系统会触发重新生成，最多重试三次。

这三个环节协同工作，将一段自然语言描述转化为一个经过严格验证的任务环境，整个过程平均耗时以分钟计，而非以小时计。

二、考场如何运转：从题目到成绩单

有了任务环境，还需要一套运行机制让智能体真正“上场考试”并记录表现。ClawEnvKit的执行框架分为四步，模拟了一场考试从发卷到收卷的完整流程。

首先是“沙盒初始化”。每道题都在一个完全隔离的容器中运行，没有外网权限，题目之间互不干扰，就像考生坐在独立隔间里。模拟服务在容器启动时加载预置数据，并且会随机在25%的API调用中注入错误（如“429请求过多”或“500服务内部错误”），专门测试智能体遇到网络故障时的恢复能力。多道题可以并行运行，互不冲突。

接下来是“智能体接入”。ClawEnvKit支持三种接入方式，适配不同类型的智能体框架。第一种是原生插件方式，针对OpenClaw等有专属插件接口的智能体。第二种是MCP服务器方式，适配Claude Code、Codex、Cursor、NanoClaw等支持MCP协议的智能体。第三种是SKILL.md方式，系统会生成一份包含所有接口curl调用示例的说明文档，附加在任务提示词末尾，适用于CoPaw、NemoClaw、Hermes等依靠文本提示与工具交互的智能体。无论哪种方式，所有工具调用最终都到达同一套模拟服务，并产生相同格式的审计日志。

然后是“智能体执行”。智能体在其原生的多轮对话循环中运行——思考、调用工具、观察结果、再思考——直到产出最终答案或达到超时限制（默认300秒）。

最后是“轨迹收集”。系统收集两份材料：一份是服务端审计日志，完整记录了每一次API调用的参数和结果；另一份是智能体的最终文本输出。选择从服务端日志而非智能体自述来判断行为，是为了防止智能体“说一套做一套”的情况蒙混过关。

三、成绩如何打分：三维度评价体系

收卷后的评分工作由一个名为“评分引擎”的模块负责，它从三个维度对智能体的行为进行打分，就像评价一份工作汇报时，同时考察“有无出错”、“完成多少”以及“遇到困难如何处理”。

第一个维度是安全性。这是整个评分体系的“一票否决”项。评分引擎首先检查智能体是否调用了被禁止的工具，或输出了被禁止的关键词。一旦触发安全违规，安全分直接归零，整体得分也随之清零，无论任务完成得多好都不例外。

第二个维度是完成度。这是主要得分项，权重占总分的80%。评分引擎会对照任务的评分规则，逐项检验智能体的行为是否达标。评分规则由15种检验类型构成。其中“审计日志类”检验完全基于事实行为，比如检查是否调用了特定API、参数是否正确、调用次数和顺序是否符合要求——这类检验是100%确定性的。“输出内容类”检验关注智能体的文字回答，比如是否提及必要关键词、是否避开禁用词、是否符合最低长度要求。“文件系统类”检验则确认智能体是否在容器中创建了预期文件、文件哈希值是否匹配。还有一类叫做“LLM评判”的检验，由另一个AI（Claude Haiku）对智能体的输出质量进行主观评分。为保证客观性，LLM评判的权重上限被锁定在55%（文件类任务为65%），确保大多数分数来自确定性规则，而非另一个AI的主观判断。

第三个维度是鲁棒性，权重占总分的20%。它衡量智能体在遇到注入的API错误后能否顺利恢复——判定标准是：在触发错误后的接下来五条审计日志记录内，智能体是否重试了同一操作并成功。如果一次运行中未触发任何注入错误，鲁棒性得分默认为满分。

最终综合得分的计算公式是：安全性得分 × (0.8 × 完成度得分 + 0.2 × 鲁棒性得分)。

四、Auto-ClawEval：第一个大规模爪状智能体基准测试集

基于ClawEnvKit，研究团队构建了两个基准测试集，就像用同一台机器批量生产出标准化的考卷。

规模较大的Auto-ClawEval共包含1040个任务环境，覆盖24个语义类别，使用15种模拟服务。整个生成过程仅消耗约80美元的API调用费用（使用claude-sonnet-4.6模型），耗时约18小时。相比之下，人工构建同等规模的基准集，按每题两小时估算需要约2080小时人力。

规模较小的Auto-ClawEval-Mini是一个精简版，共104个任务。它与另一个人工精心构建的基准测试集Claw-Eval（同样104题）形成一对一对比，专门用于回答“机器生成的考题质量能否与人工媲美”这个问题。

24个类别的任务分布相当多样。规模最大的类别是金融分析（140题）和运营监控（110题），其次是文档问答（100题）、通讯协作（80题）、生产力管理和跨服务工作流（各70题）、图像文字识别（70题），以及安全关键任务（50题）和终端操作（50题）等。按任务类型划分，约36%是单服务API任务，34%是跨服务协调任务，26%是依赖文件的任务，还有5%是使用真实网络的任务。

五、生成质量经得起对比吗？

研究团队从三个维度对比了Auto-ClawEval-Mini和人工构建的Claw-Eval的质量。

第一个维度是有效性：两者都达到了100%，即所有任务都通过了结构化验证，可以正常运行。

第二个维度是连贯性，衡量任务说明、工具接口和评分标准三者之间是否存在逻辑矛盾。Auto-ClawEval-Mini得到0.59分，Claw-Eval得到0.51分。自动生成版本得分更高的原因在于，ClawEnvKit生成的任务格式明确列出了工具列表和评分组件，三者对应关系对AI评判者来说一目了然；而人工构建的Claw-Eval将评分逻辑嵌入了任务专属的程序代码中，AI评判者无法直接审视。

第三个维度是清晰度，在1到5分的量表上衡量任务说明是否足够明确、可操作。Auto-ClawEval-Mini得到3.54分，Claw-Eval得到3.38分。AI生成的提示词在表达一致性和可操作性上略胜一筹。

时间成本对比则更为悬殊：人工构建104题需要约208小时，而Auto-ClawEval-Mini仅需1.8小时，效率提升了约13800倍。

六、实验结果揭示了哪些真相

研究团队使用Auto-ClawEval对4个模型家族的8种智能体框架进行了系统评测，得出了六条有实质意义的发现。

关于框架工程的重要性：所有结构化智能体框架都比基础的ReAct智能体循环框架表现更好，最高提升幅度达到15.7个百分点——NemoClaw以69.0分位居第一，而基础框架只有53.3分。从分数分布图来看，基础框架的得分集中在0.4到0.6之间，分布平坦；结构化框架则把更多任务推向接近满分，分布曲线向右移动并在高分区形成更尖锐的峰值。这说明更好的框架不只是让平均分高一点，而是让更多任务被“真正完成”。

关于主要分化维度：在所有模型和框架上，安全性和鲁棒性普遍接近满分（均高于83%），而完成度的范围则从34%到76%不等，差异悬殊。这意味着当前的难点在于“把任务做完”，而不是“不造成危害”或“从错误中恢复”，也证明Auto-ClawEval还远未被现有模型饱和。

关于大版本和精简版的一致性：在所有模型和框架上，两个版本的得分差距均在2%以内。这验证了AutoClawEval-Mini可以作为完整版的可靠低成本替代品，也说明ClawEnvKit的生成机制在扩大规模时不会引入系统性偏差。

关于框架层级与性能的关系：第三层框架（SKILL.md+curl方式）中，NemoClaw（69.0分）、Hermes（66.9分）的表现反而优于部分第二层MCP框架（如ZeroClaw的57.1分）。这表明框架接入的技术层级并不直接决定性能高低，具体实现方式更为关键。

关于任务类别难度的多样性：不同类别的难度差异显著。类别C16对所有框架来说都是高难度区（得分范围10%到71%），而类别C21和C32则被多数框架轻松解决（超过85%）。虽然不同框架的总体平均分相近，但各自的错误模式差异明显，说明框架之间存在真实的能力差异，而非整体水平相当。

关于工具调用次数与性能的关系：工具调用越多并不意味着性能越好。从效率-性能散点图上看，Claude Code和OpenClaw在调用次数相对较少的情况下达到了较高的得分，处于帕累托前沿——这说明高效、精准的工具使用比暴力调用更重要。在模型维度，GPT-5.4表现最为出色，而GPT-5-nano则提供了性价比更高的选择。

七、评测变成活水：按需生成的考场

ClawEnvKit最具前瞻性的特性，是它将“静态考场”变成了“活水考场”。

以往的基准测试集一旦发布就成了固定版本：题目不变，AI系统可能随着训练数据的积累逐渐“背”出答案，评测的区分力随之下降。更麻烦的是，如果用户想测试一个现有基准未覆盖的场景，唯一的办法是等待研究者花费数百小时手工构建新版本。

ClawEnvKit提供了另一种可能：用户用自然语言描述自己关心的场景，系统就能即时生成一批验证过的任务环境。例如，用户说“我每天的工作是处理GitHub上的新问题：按标签分配优先级、指派合适的团队成员、关闭重复的问题”，ClawEnvKit会提议需要哪些服务端点。如果发现“关闭问题”的接口还不存在，它会主动与用户确认，获得同意后就创建这个新服务并纳入服务库，整个过程无需用户编写任何代码。

这种能力带来了两个实质性的变化。在评测侧，测评从“定期发布的固定版本”变成了“持续刷新的活体流程”，可以跟上AI能力提升的节奏，也能响应新兴任务类型和长尾需求。在训练侧，同样的机制可以用来按需生成训练数据，让训练集的任务分布能够针对智能体当前的薄弱环节动态调整，而不是受限于现有用户日志中偶然记录的操作类型。

说到底，ClawEnvKit所做的工作，很像把“人工出题”这个瓶颈从AI研究的关键路径上移开了。每一个人工构建的基准集都像是一张精心制作但数量有限的地图，而ClawEnvKit更像是一台能按你需求随时打印地图的机器——质量不比手工版差，速度快了数千倍，还能根据你的目的地实时更新。

这对普通人意味着什么？直接影响或许不易察觉，但间接影响却相当深远。AI智能体正越来越多地进入日常工具——邮件助手、日程管理、代码补全、客服机器人。这些系统能否在真实场景下稳定可靠地运作，很大程度上取决于训练和测评的质量。当构建“练兵场”的成本从几百小时降到几十分钟，研究者就能更快速地发现智能体的盲区、更及时地修复问题，最终流向用户手中的产品也会更可靠。

当然，研究团队也坦承这项工作存在明显局限。模拟服务终究不是真实的生产API，它不会有订阅限制引起的速率上限，不会有OAuth认证流程，也不会因为上游服务的更新而悄悄改变响应格式。在模拟环境里表现优秀的智能体，遇到真实API时仍然可能出岔子。此外，当前系统设计的任务都能在20轮工具调用内完成，而真实世界里有些工作流程需要跨越数小时乃至数天，中间还涉及人工审批节点——这类“长周期任务”目前还不在系统的处理范围之内。还有语音交互、图形界面操作、多智能体协作，以及法律、医疗、金融等专业领域的特殊工作流，都是未来需要扩展覆盖的方向。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.18543查阅完整论文，里面包含了解析器和生成器的完整提示词模板、验证器的12条结构化检验规则、15种评分检验类型的详细说明，以及三个典型任务环境的完整示例。

Q&A

Q1：ClawEnvKit和普通的AI基准测试集有什么区别？

A：普通的AI基准测试集是人工构建的固定题库，制作耗时、发布后不再更新，AI系统可能随着训练数据积累而“背”出答案，导致评测失效。ClawEnvKit是一条自动化流水线，输入一段自然语言描述就能即时生成经过验证的任务环境，生成速度比人工快约13800倍，质量经实验验证与人工构建持平甚至更优，并且可以随时按需生成新题，不存在“题库过期”的问题。

Q2：Auto-ClawEval测出来的分数代表什么，得分高说明AI什么能力强？

A：Auto-ClawEval的综合得分由三部分构成：安全性、完成度和鲁棒性。目前实验显示，大部分AI系统在安全性和鲁棒性上都接近满分，真正拉开差距的是完成度，范围从34%到76%不等。完成度反映的是智能体在多步骤任务中能否调用正确的工具、传入正确的参数、按正确的顺序完成操作，本质上考察的是“真正把事情做完”的能力，而不只是“说得头头是道”。

Q3：ClawEnvKit生成的模拟服务和真实API有多大差距？

A：ClawEnvKit的模拟服务暴露与真实API完全相同的接口路径、参数格式和响应结构，并且注入了25%的随机错误来模拟网络不稳定。研究团队对1040个任务中高投入低得分的52个案例逐一核查，发现0个是因为评分系统误判导致的“假失分”，全部都是真实的智能体操作错误。主要差距在于模拟服务不涉及OAuth认证流程、实时变化的真实数据，以及因订阅级别不同而变化的速率限制，这些因素不影响对核心工具调用能力的评估。

来源：互联网

上一篇 科研进化机器人测评：AI自主实验与反思能力深度解析 下一篇 AI多模态模型为何偏爱图像？中科院深度解析视觉主导原因

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。