热点资讯

清华开源AI Agent框架：会做梦的省钱智能体评测

2026-05-29

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

清华大学THUNLP等团队开源的PilotDeck框架，具备“做梦”机制、白盒记忆管理、智能路由省钱

AI Agent的能力正在快速提升，一个很自然的趋势就是需要让多个AI并行工作。单纯的对话式AI产品，已经很难应对那些多项目、长周期、高复杂度的任务了。

于是，市面上开始出现一些类似Trello任务看板的AI Agent分配管理产品，比如Multica。不过，最近体验了一个很有意思的开源项目——由清华大学THUNLP实验室、面壁智能、OpenBMB与AI9stars联合研发的PilotDeck。它也想解决同样的痛点，但产品形态有很大的不同。

整个框架设计得相当全面：模型路由可以根据任务难度自动切换模型来省钱；任务和定时任务机制解决了Agent持续运行的问题；白盒记忆管理和WorkSpace隔离，则直接针对记忆丢失或混乱的顽疾；甚至还支持上传本地Skill文件夹，给Agent添加日常工作流。

下面结合一个实战开发案例，顺带介绍一下这个框架的核心特点。

开发画家风格图鉴网站

一直对GPT-image-2很感兴趣，但自知艺术素养有限。偶然看到一个整理了1260个艺术家名字的GitHub仓库，但只有名字，不够直观——看到“葛饰北斋”，完全不知道是什么风格。于是想到，能不能用同一套生图提示词，只把风格换成不同艺术家的名字，这样生成的图片就能清晰对比出风格差异。

输入提示词，经过几轮对话后，第一版就开发好了。开发时需要一些Skill，可以通过当前项目WorkSpace右上角的Skills入口安装，既支持从Clawhub安装，也支持上传本地文件夹。然后继续打磨，最终网站就出来了。

功能介绍演示：https://artist-style-gallery.vercel.app/

关联GitHub持续迭代

网站开发不是一次性的事，经常要迭代修Bug、优化体验。建议创建项目时直接关联已有的GitHub仓库，填写Token后就能直接推送。比如，我发现之前开发的画家风格网页加载速度不够快，就让PilotDeck Agent阅读源码，提出网速和交互的改进建议，然后让它修复。

AI加了回到顶部、只显示收藏等功能，对用户体验很有帮助。这里要夸一下Vercel，和GitHub绑定后，每次修改推送，网站会自动重建更新。如果你也想一键部署，开源地址：https://github.com/joeseesun/qiaomu-artist-style

多项目并行开发，定时执行

PilotDeck的WorkSpace优势在这里体现得很充分：独立文件系统、独立Skill、白盒记忆管理，还有定时计划和任务。每次创建Project时，都能关联到一个GitHub地址，填写Token就能远程管理迭代。

比如我新建了最近开源的一个项目，让Agent分析项目存在的问题。问题不少，就让它拆成多个子任务，定时自动运行修复。在右上角的Always-On菜单下的Plans & Cron Jobs，可以查看和管理这些子开发任务。点了执行，等吃完午饭回来，发现所有Bug都修好了，还生成了一个改动报告。

PilotDeck项目设计解读

WorkSpace不是文件夹

PilotDeck的核心设计是WorkSpace，但和其他产品里的“工作区”不太一样。拿Codex举例，一般会创建很多项目文件夹，但本质上还是IDE里的一个文件夹，想要独立记忆和独立Skill，都得写入指定的Markdown文件。而PilotDeck的WorkSpace是一个三层结构的项目舱：

首先是专属文件系统。每个项目都有自己可访问、可操作的范围限定，AI生成的文件会自动标识区分，项目A的Agent不会去动项目B的文件。

其次是专属记忆。分两种：项目记忆记录项目目标、进度、限制；个人记忆记录你的偏好和具体要求。两种记忆都围绕项目读写，不会影响其他项目。

最后是专属技能。Skill应用商店里的工具，可以一键安装到对应的WorkSpace。技能会随任务增长自动沉淀，支持跨舱共享，也支持舱内专属。

这三层结构加在一起，实现的效果是：Agent不只是在帮你做事，它真的“活”在这个项目里。项目的目标是什么，进展到哪一步，你喜欢什么风格，哪些文件重要，它都很清楚。

记忆白盒化

PilotDeck的做法叫记忆白盒化。怎么理解呢？就是你可以查看不同WorkSpace中的所有Memory，比如某条记忆条目是什么时候写入的、来自哪个项目。可以追溯来源，甚至可以修改。

值得关注的是PilotDeck有一个叫“Dream”（做梦）的机制。Anthropic的Claude也有类似做法——让AI在空闲时段（通常是深夜）自动回顾、整理、优化自身的记忆与经验，类似人类睡眠时大脑整理记忆的过程。记忆白盒化的价值不只是“更透明”，更是“可修正”。AI记错了，能找到错在哪，改掉继续往前走。

省钱路由

用AI Agent跑复杂任务，成本是个现实问题。PilotDeck内置了智能路由，核心逻辑很简单：自动识别任务难度，按难度匹配模型，用合适的模型做合适的任务。简单任务走价格低的子Agent，复杂任务才调用能力强的主模型。成本完全透明，每个WorkSpace独立算账。第一个项目简单，省了26美元；第二个复杂，只在计划阶段省了3美元。当然，也可以选择是否开启智能路由，不强制——有钱当然可以肆无忌惮。

主动做事的Agent

多数Agent的工作模式还是“你问我答”，本质上是被动响应的工具。PilotDeck的Always-On设计很有意思：Agent不需要等你触发，它会主动发现值得做的事，主动确认，主动推进，主动把成果落地为文件，主动汇报进展。两种形式：一种是Cron Job定时任务自动执行；另一种更酷，让Agent自主发现任务。哪怕你睡觉了，Agent也会自己判断什么值得做，搞定后主动跟你汇报。

与其他Agent的区别

官方仓库给出的对比图很清晰，这里就不赘述了。

写在后面

PilotDeck目前已开源，GitHub地址：https://github.com/OpenBMB/PilotDeck，官方网站：https://pilotdeck.openbmb.cn/。

有几件事值得体验：建两个WorkSpace，分别跑两个不同风格的任务，看记忆是否真的隔离、会不会串台；同样的任务，开路由和不开路由各跑一次，对比账单；设置一个Always-On任务，然后去做别的事，看Agent在没有主动触发的情况下，能推进到什么程度，产出是否可用。

Agent时代的生产力竞争，最终比的不是谁用了更贵的模型，而是谁把工作流设计得更合理，让每一分算力都用在刀刃上。

来源：互联网

上一篇 AI天才值1亿美元？45年前论文早揭示真相 下一篇 Qwen-Image-Bench生图评测新标准:56项创作级考点

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。