菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > AI智能体测评榜单:马里兰大学联手打造自动化考场生成方案
其他资讯 AI智能体 AI智能

AI智能体测评榜单:马里兰大学联手打造自动化考场生成方案

2026-05-15
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

这项由马里兰大学、加州大学伯克利分校、加州大学洛杉矶分校以及穆罕默德·本·扎耶德

这项由马里兰大学、加州大学伯克利分校、加州大学洛杉矶分校以及穆罕默德·本·扎耶德人工智能大学联合开展的研究,以预印本形式于2026年4月20日发布,论文编号为arXiv:2604.18543。

马里兰大学等高校联手打造

考卷从哪里来?这件事比想象中麻烦得多

想象一下,一位老师要给学生出一套高质量的考卷,她需要构思题目、确保指令清晰、提供背景材料、设计评分标准,还得反复检查答案是否合理、题目之间有无矛盾。这套流程,即便经验丰富,也得花上几个小时。

现在,把这位老师换成计算机科学家,把学生换成AI智能体,把考卷换成“任务环境”——你大概就能理解这篇论文要解决的核心问题了。

近年来,以大语言模型(如ChatGPT、Claude)为核心的智能体系统正快速走向实用。它们不再只是聊天,而是能操作文件、调用API、发送邮件、管理日程,更像一个能独立干活的数字助手。这类智能体有个生动的名字:“爪状智能体”(Claw-like Agents),代表系统包括OpenClaw、NanoClaw和IronClaw等开源平台。

要训练和评估这类智能体,研究者需要搭建专门的“任务环境”:明确告诉智能体要做什么、提供哪些工具、以及如何判断对错。问题在于,每构建一个这样的环境,都需要研究人员手工编写任务说明、搭建模拟服务接口、设计评分逻辑,并逐一检查各个环节是否自洽。这个过程平均需要两个小时,完全依赖人力。

更棘手的是,人工构建的考题集一旦发布就成了固定版本。随着AI能力飞速提升,旧的考题很快会变得过于简单,甚至可能被AI在训练数据中“背”下来,从而失去测评价值。研究者称这种现象为“数据污染”——好比考生提前拿到了答案,考试也就失去了意义。

这正是ClawEnvKit要解决的核心痛点。

一、一条能自动生产考卷的流水线

ClawEnvKit的核心思路,是把“出考卷”这件事变成一条自动化流水线。你只需要给它一段自然语言描述——比如“生成10道中等难度的邮件管理任务”——它就能自动产出一批可直接运行的任务环境,全程无需人工干预。

这条流水线分为三个环节,各司其职,就像出版社里的编辑、排版师和校对员。

第一个环节是“解析器”(Parser)。它的任务是读懂用户的自然语言请求,并将其意图提炼成结构化的“意图单元”。例如,用户说“测试智能体能否安排会议并通知所有参会者”,解析器就会识别出动作(创建日历事件、发送邮件)、对象(参会者名单)和约束(不能删除已有事件)。这些意图单元是整个流水线的“设计图纸”,确保后续生成的内容不偏离用户本意。

第二个环节是“生成器”(Generator)。它拿着设计图纸,通过三条子流程产出完整的任务环境。“任务生成”流程负责产出任务说明、工具列表、预置数据和评分规则;“服务生成”流程负责处理尚不存在的模拟服务——例如,如果任务需要调用GitHub问题管理接口而系统里还没有,生成器会自动设计API、构建模拟服务器,测试后纳入服务库;“数据生成”流程则负责准备任务所需的配套文件,比如给终端操作任务准备一个数据库文件。为了避免生成的任务千篇一律,生成器还内置了“多样性控制”机制:每次生成时打乱服务列表顺序、轮流使用不同的API动作类型,并将最近生成的10个任务名称传给AI以避免重复。

第三个环节是“验证器”(Validator)。它扮演严格校对员的角色,在任务入库前回答三个关键问题:格式是否合法?是否覆盖了所有用户意图?是否真的可解?格式检查包含12项具体规则,例如评分权重之和必须为1、必须至少有一项安全检查、安全规则不能与评分规则矛盾。覆盖检查则逐一核对解析器提炼的每个意图单元,确保每个动作都有对应的可调用工具和评分项。可解性检查则专门排除那些逻辑上无解的任务,比如要求智能体获取明天的邮件。如果验证不通过,系统会触发重新生成,最多重试三次。

这三个环节协同工作,将一段自然语言描述转化为一个经过严格验证的任务环境,整个过程平均耗时以分钟计,而非以小时计。

二、考场如何运转:从题目到成绩单

有了任务环境,还需要一套运行机制让智能体真正“上场考试”并记录表现。ClawEnvKit的执行框架分为四步,模拟了一场考试从发卷到收卷的完整流程。

首先是“沙盒初始化”。每道题都在一个完全隔离的容器中运行,没有外网权限,题目之间互不干扰,就像考生坐在独立隔间里。模拟服务在容器启动时加载预置数据,并且会随机在25%的API调用中注入错误(如“429请求过多”或“500服务内部错误”),专门测试智能体遇到网络故障时的恢复能力。多道题可以并行运行,互不冲突。

接下来是“智能体接入”。ClawEnvKit支持三种接入方式,适配不同类型的智能体框架。第一种是原生插件方式,针对OpenClaw等有专属插件接口的智能体。第二种是MCP服务器方式,适配Claude Code、Codex、Cursor、NanoClaw等支持MCP协议的智能体。第三种是SKILL.md方式,系统会生成一份包含所有接口curl调用示例的说明文档,附加在任务提示词末尾,适用于CoPaw、NemoClaw、Hermes等依靠文本提示与工具交互的智能体。无论哪种方式,所有工具调用最终都到达同一套模拟服务,并产生相同格式的审计日志。

然后是“智能体执行”。智能体在其原生的多轮对话循环中运行——思考、调用工具、观察结果、再思考——直到产出最终答案或达到超时限制(默认300秒)。

最后是“轨迹收集”。系统收集两份材料:一份是服务端审计日志,完整记录了每一次API调用的参数和结果;另一份是智能体的最终文本输出。选择从服务端日志而非智能体自述来判断行为,是为了防止智能体“说一套做一套”的情况蒙混过关。

三、成绩如何打分:三维度评价体系

收卷后的评分工作由一个名为“评分引擎”的模块负责,它从三个维度对智能体的行为进行打分,就像评价一份工作汇报时,同时考察“有无出错”、“完成多少”以及“遇到困难如何处理”。

第一个维度是安全性。这是整个评分体系的“一票否决”项。评分引擎首先检查智能体是否调用了被禁止的工具,或输出了被禁止的关键词。一旦触发安全违规,安全分直接归零,整体得分也随之清零,无论任务完成得多好都不例外。

第二个维度是完成度。这是主要得分项,权重占总分的80%。评分引擎会对照任务的评分规则,逐项检验智能体的行为是否达标。评分规则由15种检验类型构成。其中“审计日志类”检验完全基于事实行为,比如检查是否调用了特定API、参数是否正确、调用次数和顺序是否符合要求——这类检验是100%确定性的。“输出内容类”检验关注智能体的文字回答,比如是否提及必要关键词、是否避开禁用词、是否符合最低长度要求。“文件系统类”检验则确认智能体是否在容器中创建了预期文件、文件哈希值是否匹配。还有一类叫做“LLM评判”的检验,由另一个AI(Claude Haiku)对智能体的输出质量进行主观评分。为保证客观性,LLM评判的权重上限被锁定在55%(文件类任务为65%),确保大多数分数来自确定性规则,而非另一个AI的主观判断。

第三个维度是鲁棒性,权重占总分的20%。它衡量智能体在遇到注入的API错误后能否顺利恢复——判定标准是:在触发错误后的接下来五条审计日志记录内,智能体是否重试了同一操作并成功。如果一次运行中未触发任何注入错误,鲁棒性得分默认为满分。

最终综合得分的计算公式是:安全性得分 × (0.8 × 完成度得分 + 0.2 × 鲁棒性得分)。

四、Auto-ClawEval:第一个大规模爪状智能体基准测试集

基于ClawEnvKit,研究团队构建了两个基准测试集,就像用同一台机器批量生产出标准化的考卷。

规模较大的Auto-ClawEval共包含1040个任务环境,覆盖24个语义类别,使用15种模拟服务。整个生成过程仅消耗约80美元的API调用费用(使用claude-sonnet-4.6模型),耗时约18小时。相比之下,人工构建同等规模的基准集,按每题两小时估算需要约2080小时人力。

规模较小的Auto-ClawEval-Mini是一个精简版,共104个任务。它与另一个人工精心构建的基准测试集Claw-Eval(同样104题)形成一对一对比,专门用于回答“机器生成的考题质量能否与人工媲美”这个问题。

24个类别的任务分布相当多样。规模最大的类别是金融分析(140题)和运营监控(110题),其次是文档问答(100题)、通讯协作(80题)、生产力管理和跨服务工作流(各70题)、图像文字识别(70题),以及安全关键任务(50题)和终端操作(50题)等。按任务类型划分,约36%是单服务API任务,34%是跨服务协调任务,26%是依赖文件的任务,还有5%是使用真实网络的任务。

五、生成质量经得起对比吗?

研究团队从三个维度对比了Auto-ClawEval-Mini和人工构建的Claw-Eval的质量。

第一个维度是有效性:两者都达到了100%,即所有任务都通过了结构化验证,可以正常运行。

第二个维度是连贯性,衡量任务说明、工具接口和评分标准三者之间是否存在逻辑矛盾。Auto-ClawEval-Mini得到0.59分,Claw-Eval得到0.51分。自动生成版本得分更高的原因在于,ClawEnvKit生成的任务格式明确列出了工具列表和评分组件,三者对应关系对AI评判者来说一目了然;而人工构建的Claw-Eval将评分逻辑嵌入了任务专属的程序代码中,AI评判者无法直接审视。

第三个维度是清晰度,在1到5分的量表上衡量任务说明是否足够明确、可操作。Auto-ClawEval-Mini得到3.54分,Claw-Eval得到3.38分。AI生成的提示词在表达一致性和可操作性上略胜一筹。

时间成本对比则更为悬殊:人工构建104题需要约208小时,而Auto-ClawEval-Mini仅需1.8小时,效率提升了约13800倍。

六、实验结果揭示了哪些真相

研究团队使用Auto-ClawEval对4个模型家族的8种智能体框架进行了系统评测,得出了六条有实质意义的发现。

关于框架工程的重要性:所有结构化智能体框架都比基础的ReAct智能体循环框架表现更好,最高提升幅度达到15.7个百分点——NemoClaw以69.0分位居第一,而基础框架只有53.3分。从分数分布图来看,基础框架的得分集中在0.4到0.6之间,分布平坦;结构化框架则把更多任务推向接近满分,分布曲线向右移动并在高分区形成更尖锐的峰值。这说明更好的框架不只是让平均分高一点,而是让更多任务被“真正完成”。

关于主要分化维度:在所有模型和框架上,安全性和鲁棒性普遍接近满分(均高于83%),而完成度的范围则从34%到76%不等,差异悬殊。这意味着当前的难点在于“把任务做完”,而不是“不造成危害”或“从错误中恢复”,也证明Auto-ClawEval还远未被现有模型饱和。

关于大版本和精简版的一致性:在所有模型和框架上,两个版本的得分差距均在2%以内。这验证了AutoClawEval-Mini可以作为完整版的可靠低成本替代品,也说明ClawEnvKit的生成机制在扩大规模时不会引入系统性偏差。

关于框架层级与性能的关系:第三层框架(SKILL.md+curl方式)中,NemoClaw(69.0分)、Hermes(66.9分)的表现反而优于部分第二层MCP框架(如ZeroClaw的57.1分)。这表明框架接入的技术层级并不直接决定性能高低,具体实现方式更为关键。

关于任务类别难度的多样性:不同类别的难度差异显著。类别C16对所有框架来说都是高难度区(得分范围10%到71%),而类别C21和C32则被多数框架轻松解决(超过85%)。虽然不同框架的总体平均分相近,但各自的错误模式差异明显,说明框架之间存在真实的能力差异,而非整体水平相当。

关于工具调用次数与性能的关系:工具调用越多并不意味着性能越好。从效率-性能散点图上看,Claude Code和OpenClaw在调用次数相对较少的情况下达到了较高的得分,处于帕累托前沿——这说明高效、精准的工具使用比暴力调用更重要。在模型维度,GPT-5.4表现最为出色,而GPT-5-nano则提供了性价比更高的选择。

七、评测变成活水:按需生成的考场

ClawEnvKit最具前瞻性的特性,是它将“静态考场”变成了“活水考场”。

以往的基准测试集一旦发布就成了固定版本:题目不变,AI系统可能随着训练数据的积累逐渐“背”出答案,评测的区分力随之下降。更麻烦的是,如果用户想测试一个现有基准未覆盖的场景,唯一的办法是等待研究者花费数百小时手工构建新版本。

ClawEnvKit提供了另一种可能:用户用自然语言描述自己关心的场景,系统就能即时生成一批验证过的任务环境。例如,用户说“我每天的工作是处理GitHub上的新问题:按标签分配优先级、指派合适的团队成员、关闭重复的问题”,ClawEnvKit会提议需要哪些服务端点。如果发现“关闭问题”的接口还不存在,它会主动与用户确认,获得同意后就创建这个新服务并纳入服务库,整个过程无需用户编写任何代码。

这种能力带来了两个实质性的变化。在评测侧,测评从“定期发布的固定版本”变成了“持续刷新的活体流程”,可以跟上AI能力提升的节奏,也能响应新兴任务类型和长尾需求。在训练侧,同样的机制可以用来按需生成训练数据,让训练集的任务分布能够针对智能体当前的薄弱环节动态调整,而不是受限于现有用户日志中偶然记录的操作类型。

说到底,ClawEnvKit所做的工作,很像把“人工出题”这个瓶颈从AI研究的关键路径上移开了。每一个人工构建的基准集都像是一张精心制作但数量有限的地图,而ClawEnvKit更像是一台能按你需求随时打印地图的机器——质量不比手工版差,速度快了数千倍,还能根据你的目的地实时更新。

这对普通人意味着什么?直接影响或许不易察觉,但间接影响却相当深远。AI智能体正越来越多地进入日常工具——邮件助手、日程管理、代码补全、客服机器人。这些系统能否在真实场景下稳定可靠地运作,很大程度上取决于训练和测评的质量。当构建“练兵场”的成本从几百小时降到几十分钟,研究者就能更快速地发现智能体的盲区、更及时地修复问题,最终流向用户手中的产品也会更可靠。

当然,研究团队也坦承这项工作存在明显局限。模拟服务终究不是真实的生产API,它不会有订阅限制引起的速率上限,不会有OAuth认证流程,也不会因为上游服务的更新而悄悄改变响应格式。在模拟环境里表现优秀的智能体,遇到真实API时仍然可能出岔子。此外,当前系统设计的任务都能在20轮工具调用内完成,而真实世界里有些工作流程需要跨越数小时乃至数天,中间还涉及人工审批节点——这类“长周期任务”目前还不在系统的处理范围之内。还有语音交互、图形界面操作、多智能体协作,以及法律、医疗、金融等专业领域的特殊工作流,都是未来需要扩展覆盖的方向。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.18543查阅完整论文,里面包含了解析器和生成器的完整提示词模板、验证器的12条结构化检验规则、15种评分检验类型的详细说明,以及三个典型任务环境的完整示例。

Q&A

Q1:ClawEnvKit和普通的AI基准测试集有什么区别?

A:普通的AI基准测试集是人工构建的固定题库,制作耗时、发布后不再更新,AI系统可能随着训练数据积累而“背”出答案,导致评测失效。ClawEnvKit是一条自动化流水线,输入一段自然语言描述就能即时生成经过验证的任务环境,生成速度比人工快约13800倍,质量经实验验证与人工构建持平甚至更优,并且可以随时按需生成新题,不存在“题库过期”的问题。

Q2:Auto-ClawEval测出来的分数代表什么,得分高说明AI什么能力强?

A:Auto-ClawEval的综合得分由三部分构成:安全性、完成度和鲁棒性。目前实验显示,大部分AI系统在安全性和鲁棒性上都接近满分,真正拉开差距的是完成度,范围从34%到76%不等。完成度反映的是智能体在多步骤任务中能否调用正确的工具、传入正确的参数、按正确的顺序完成操作,本质上考察的是“真正把事情做完”的能力,而不只是“说得头头是道”。

Q3:ClawEnvKit生成的模拟服务和真实API有多大差距?

A:ClawEnvKit的模拟服务暴露与真实API完全相同的接口路径、参数格式和响应结构,并且注入了25%的随机错误来模拟网络不稳定。研究团队对1040个任务中高投入低得分的52个案例逐一核查,发现0个是因为评分系统误判导致的“假失分”,全部都是真实的智能体操作错误。主要差距在于模拟服务不涉及OAuth认证流程、实时变化的真实数据,以及因订阅级别不同而变化的速率限制,这些因素不影响对核心工具调用能力的评估。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多