菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 清华开源AI Agent框架:会做梦的省钱智能体评测
热点资讯

清华开源AI Agent框架:会做梦的省钱智能体评测

2026-05-29
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

清华大学THUNLP等团队开源的PilotDeck框架,具备“做梦”机制、白盒记忆管理、智能路由省钱

AI Agent的能力正在快速提升,一个很自然的趋势就是需要让多个AI并行工作。单纯的对话式AI产品,已经很难应对那些多项目、长周期、高复杂度的任务了。

于是,市面上开始出现一些类似Trello任务看板的AI Agent分配管理产品,比如Multica。不过,最近体验了一个很有意思的开源项目——由清华大学THUNLP实验室、面壁智能、OpenBMB与AI9stars联合研发的PilotDeck。它也想解决同样的痛点,但产品形态有很大的不同。

整个框架设计得相当全面:模型路由可以根据任务难度自动切换模型来省钱;任务和定时任务机制解决了Agent持续运行的问题;白盒记忆管理和WorkSpace隔离,则直接针对记忆丢失或混乱的顽疾;甚至还支持上传本地Skill文件夹,给Agent添加日常工作流。

下面结合一个实战开发案例,顺带介绍一下这个框架的核心特点。

开发画家风格图鉴网站

一直对GPT-image-2很感兴趣,但自知艺术素养有限。偶然看到一个整理了1260个艺术家名字的GitHub仓库,但只有名字,不够直观——看到“葛饰北斋”,完全不知道是什么风格。于是想到,能不能用同一套生图提示词,只把风格换成不同艺术家的名字,这样生成的图片就能清晰对比出风格差异。

输入提示词,经过几轮对话后,第一版就开发好了。开发时需要一些Skill,可以通过当前项目WorkSpace右上角的Skills入口安装,既支持从Clawhub安装,也支持上传本地文件夹。然后继续打磨,最终网站就出来了。

功能介绍演示:https://artist-style-gallery.vercel.app/

关联GitHub持续迭代

网站开发不是一次性的事,经常要迭代修Bug、优化体验。建议创建项目时直接关联已有的GitHub仓库,填写Token后就能直接推送。比如,我发现之前开发的画家风格网页加载速度不够快,就让PilotDeck Agent阅读源码,提出网速和交互的改进建议,然后让它修复。

AI加了回到顶部、只显示收藏等功能,对用户体验很有帮助。这里要夸一下Vercel,和GitHub绑定后,每次修改推送,网站会自动重建更新。如果你也想一键部署,开源地址:https://github.com/joeseesun/qiaomu-artist-style

多项目并行开发,定时执行

PilotDeck的WorkSpace优势在这里体现得很充分:独立文件系统、独立Skill、白盒记忆管理,还有定时计划和任务。每次创建Project时,都能关联到一个GitHub地址,填写Token就能远程管理迭代。

比如我新建了最近开源的一个项目,让Agent分析项目存在的问题。问题不少,就让它拆成多个子任务,定时自动运行修复。在右上角的Always-On菜单下的Plans & Cron Jobs,可以查看和管理这些子开发任务。点了执行,等吃完午饭回来,发现所有Bug都修好了,还生成了一个改动报告。

PilotDeck项目设计解读

WorkSpace不是文件夹

PilotDeck的核心设计是WorkSpace,但和其他产品里的“工作区”不太一样。拿Codex举例,一般会创建很多项目文件夹,但本质上还是IDE里的一个文件夹,想要独立记忆和独立Skill,都得写入指定的Markdown文件。而PilotDeck的WorkSpace是一个三层结构的项目舱:

首先是专属文件系统。每个项目都有自己可访问、可操作的范围限定,AI生成的文件会自动标识区分,项目A的Agent不会去动项目B的文件。

其次是专属记忆。分两种:项目记忆记录项目目标、进度、限制;个人记忆记录你的偏好和具体要求。两种记忆都围绕项目读写,不会影响其他项目。

最后是专属技能。Skill应用商店里的工具,可以一键安装到对应的WorkSpace。技能会随任务增长自动沉淀,支持跨舱共享,也支持舱内专属。

这三层结构加在一起,实现的效果是:Agent不只是在帮你做事,它真的“活”在这个项目里。项目的目标是什么,进展到哪一步,你喜欢什么风格,哪些文件重要,它都很清楚。

记忆白盒化

PilotDeck的做法叫记忆白盒化。怎么理解呢?就是你可以查看不同WorkSpace中的所有Memory,比如某条记忆条目是什么时候写入的、来自哪个项目。可以追溯来源,甚至可以修改。

值得关注的是PilotDeck有一个叫“Dream”(做梦)的机制。Anthropic的Claude也有类似做法——让AI在空闲时段(通常是深夜)自动回顾、整理、优化自身的记忆与经验,类似人类睡眠时大脑整理记忆的过程。记忆白盒化的价值不只是“更透明”,更是“可修正”。AI记错了,能找到错在哪,改掉继续往前走。

省钱路由

用AI Agent跑复杂任务,成本是个现实问题。PilotDeck内置了智能路由,核心逻辑很简单:自动识别任务难度,按难度匹配模型,用合适的模型做合适的任务。简单任务走价格低的子Agent,复杂任务才调用能力强的主模型。成本完全透明,每个WorkSpace独立算账。第一个项目简单,省了26美元;第二个复杂,只在计划阶段省了3美元。当然,也可以选择是否开启智能路由,不强制——有钱当然可以肆无忌惮。

主动做事的Agent

多数Agent的工作模式还是“你问我答”,本质上是被动响应的工具。PilotDeck的Always-On设计很有意思:Agent不需要等你触发,它会主动发现值得做的事,主动确认,主动推进,主动把成果落地为文件,主动汇报进展。两种形式:一种是Cron Job定时任务自动执行;另一种更酷,让Agent自主发现任务。哪怕你睡觉了,Agent也会自己判断什么值得做,搞定后主动跟你汇报。

与其他Agent的区别

官方仓库给出的对比图很清晰,这里就不赘述了。

写在后面

PilotDeck目前已开源,GitHub地址:https://github.com/OpenBMB/PilotDeck,官方网站:https://pilotdeck.openbmb.cn/。

有几件事值得体验:建两个WorkSpace,分别跑两个不同风格的任务,看记忆是否真的隔离、会不会串台;同样的任务,开路由和不开路由各跑一次,对比账单;设置一个Always-On任务,然后去做别的事,看Agent在没有主动触发的情况下,能推进到什么程度,产出是否可用。

Agent时代的生产力竞争,最终比的不是谁用了更贵的模型,而是谁把工作流设计得更合理,让每一分算力都用在刀刃上。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多