Agent工具代打游戏实测:2024最佳排行榜
摘要
发个指令,给点权限,AI就能自己打开游戏库库玩了。不懂咋玩?那就截图识别。没法操作
发个指令,给点权限,AI就能自己打开游戏库库玩了。
不懂咋玩?那就截图识别。没法操作?直接现搓脚本。操作一坨?甚至还能上网自己找攻略。
这就是现在跑在你电脑上的 AI Agent 能做到的事儿。
Codex

市面上那几款 Agent 工具,像 Codex、TRAE、QoderWork、Workbuddy、Marvis 之类的,世超都挨个测了一遍。说实话,这玩意儿吹了这么久,大伙儿可能真不用再观望了。
从左向右依次为:第一行WorkBuddy,TRAE,Marvis;第二行Codex,QoderWork,悟空

当然,一听名字里带 code,很多人第一反应是——这玩意儿肯定是为专业开发者准备的,门槛高、学起来费劲。其实不然,大厂们早就悄摸进化了一轮。
之前确实硬核了点,一个两个都照搬 VS Code 那种传统编程页面,适合开发,但并不适合和 AI 一起开发。
VS Code页面

既然引入了 Agent,那就得重新设计——毕竟它是来干活的,而人是监督它的。所以大家很有默契地改了同一套交互逻辑:把具体的代码隐去,把 Agent 干活时的日志显示出来。简单说,在网页里你可以叫它老师,但在 Agent 工具里,你得化身老板,把活儿摊派明白。
Codex

先看界面,也很简洁,主要分成三块:左边是你手底下掌管的项目,中间是常规的聊天窗口,右边则是等待验收的东西(一般等工作开始了才会有动静)。



向左滑动,依次为:Codex,TRAE,WorkBuddy,Qoderwork
能 BB 就不动手,先去 Agent 工具的“应用商店”里逛逛,看看有啥合适的技能包(也就是 Skill),给 Agent 装上左膀右臂。琳琅满目,毕竟活儿的种类也就那么多,但凡有名有姓的基本都能扒拉到现成方案。数据分析、内容创作都不在话下,虽然不至于个个都好用,但参考参考终归能少走弯路。
Marvis

做得比较有新意的是腾讯新出的 Marvis,把技能商店做成了类似小红书的信息流,可以边刷边收藏技能。而且技能在这些工具里是通用的,所以最近小红书自己也上线了 Skill 商店,用起来相当方便。当然,就算挑不过来也没关系,技能商店里还有帮咱选技能的技能——Codex 里叫 Skill Installer,WorkBuddy 里叫 Find Skills,算是将懒人式进行到底。
左:Codex;右:WorkBuddy

至于自己造技能,倒不用急着动手。虽然可以通过 AI 一步步引导造出来,但先射箭后画靶一般都不好使。好的技能往往是先自己跑通几遍,再提炼总结,会更接地气,也更贴合自己的使用场景。


向左滑动,依次为:WorkBuddy,TRAE
选好技能就可以开始任务了。开始前需要选一下任务类型,默认的是普通款,但一般 Plan 模式更好使。这点挺重要——很多时候结果不理想不是 Agent 太笨,而是咱自己也不知道想要什么。Plan 就是在任务开始前先规划一下,明确任务的条条框框。有什么不妥直接改了,不用等到最后才发现方向跑偏。
Codex

简单说一下要做什么,敲回车就能下发指令了。为了看具体流程,挑 3 个幸运儿展示一下——OpenAI 的 Codex,字节的 TRAE 和腾讯的 WorkBuddy,国内外的都拉出来溜溜。任务就原地 TP,让它们仨锐评它们仨。
这时候就能发现 Plan 的好处了。执行任务前,Codex 和 TRAE 都向咱二次确认了一下 WorkBuddy 具体是哪一个——因为国外有同名的应用容易混淆。
TRAE

当然,由于都是默认模型,速度有快有慢。但就报告结果来看,确实各有“特点”。
WorkBuddy

先说 WorkBuddy,给到一个老实人,上来也没问报告是啥形式,吭哧吭哧就是干。最后给的网页,效果还不错,排版和内容虽然 AI 味道重了点,但花里胡哨的符合咱锐评的主基调。调研后结论相当低调,把自己放在了靠后的位置,喷起自己毫不手软,实诚这一块到位了。
TRAE

再来看 TRAE,给到一个人上人。活儿干得比较细致,不管是前期弹出式的表单规划,还是中间的调研,思路都很清晰,子 Agent 的调用也相当熟练。核心结论里,虽然把自己排到了老大,但考量了 6 个维度,总分是加权出来的,也算有理有据。
Codex

最后的 Codex,基本就是目前这个领域的标杆了。报告里先来一手信源分析,就跟大伙儿拉开了点距离。下面的评价也能明显感觉到更深入一些,结合了最新产品文档的内容。模型好确实有优势,但考虑到国内用起来不方便,暂且给到一个半夯吧。
接下来,任务继续:让它们把各自的报告生成一份可视化的落地页。你可能会说这活儿在网页里也能做,而且还更快。
Gemini

倒也没错,但不同的点在于——这里你不需要把代码再复制粘贴到本地了,而且最重要的,Agent 会自己调用工具去检查成品有没有 BUG。比如同样的任务,交给网页的 Gemini,这家伙甩给我几百行代码,粘到本地打开,发现一片空白……而这些 Agent 会在交付之前就避免这种情况。
WorkBuddy

WorkBuddy 自己调用了 3 次预览,做了 2 次优化,才把网页交给我。
TRAE

TRAE 更直接,直接打开了内置浏览器,通过不同角度的截图识别,打不开就刷新重试,直到确认渲染效果符合预期。Codex 也一样,权限不够,老是截不着网页,试了 N 次才确认好效果。所以落地页的效果倒是其次,重点是这套任务执行的逻辑,是跟网页端应付交差完全不同的打法。特别是截图反馈的工具调用,相当于给电脑安了个赛博义眼。
而像 Codex 这种更进一步,有 Computer Use 功能,可以全局截图反馈,然后操作。相当于你电脑上的软件,它都能打开。等模型能力更猛了,代打几局 LOL 也不是不可能。
Codex

除了技能 Skill,这些 Agent 工具还能接入其他应用,比如 GitHub、邮箱、网盘等。更妙的是接入一些通讯软件,像微信、飞书——这也是龙虾当初火起来的一大原因。接入后就能双向链接,甭管是从 Agent 往飞书发文档,还是从微信命令 Agent 往工位上下载资料,都没问题。
WorkBuddy

像是之前远程软件的升级版,加了个 Agent 当管家,帮你 24 小时盯着自己的电脑,随叫随到。或者有一些定时任务,也能找到“自动化”这种类型的入口,让它接管每天枯燥重复的流程性任务。




向左滑动,依次为:Codex,TRAE,WorkBuddy,Marvis
说了这么多,其实无论是什么手段,装什么插件,本质上都是在约束、控制着 Agent 朝咱预定的方向产出东西。有大佬精心优化的工作流,有厂商调教好的记忆系统,也有方便实用的技能包。用专业点的话说,这些都是“Harness”,原意是给马套上马具,放这儿也是非常贴切了。

无论马具下面的模型是哪一匹,这些 Agent 工具都得随套随用。就体感而言,Codex 是比较夯的——模型给力,额度还偶尔重置,虽然需要一点手段,但比起 Claude 要简单得多,适合想体验顶尖性能的折腾党。要是不想麻烦,直接用国内大厂的方案也行,嫌默认模型笨,就去买点 DeepSeek 的 API 接上,妥妥的性价比平替。至于平替里选哪一个,取决于你的使用场景:微信和 WorkBuddy 搭伙方便,飞书和 TRAE 集成更深,钉钉那边就是 Qoder 以及咱没测到的悟空了,不过逻辑都一样。

但话说回来,Agent 工具也有缺点——上的手段越多,花费的模型 Token 也越多,动不动几十分钟的长线任务,账单会变得贼拉长。所以有什么便宜管饱的模型套餐,大伙儿就各显神通吧……要是不太繁琐的活儿,这些 Agent 工具也有免费的额度,白嫖一下尝尝咸淡总是不亏的。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。