AI 的记忆不是硬盘——从 40 个真实 Bug 说起
摘要
这是 AI 认知架构实战笔记 系列的第 2 篇 上一篇我们聊了「给 AI 写灵魂文件」这件事,这
这是 AI 认知架构实战笔记 系列的第 2 篇
上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看看,当这份灵魂文件真正运转起来之后,现实究竟会给我们带来多少“惊喜”——或者更准确地说,是漏洞。项目名为 WorkBuddy-Configure,已部署在 gitee 和 gitcode 上。
1. 一个离谱的开场
故事得从一个哭笑不得的真实案例讲起。
我为 AI 精心撰写了一份名为 SOUL.md 的规则文件,里面白纸黑字明确写着:
删除文件操作规则:需要删除文件时,生成自删除脚本 → 放到工作台 → 提醒用户双击执行。
AI 在阅读了这份文件后,给出了“好的,我记住了”这样的标准回应。
然后呢?
它转头就用 PowerShell 直接把文件给删了。????
规则就白纸黑字地躺在它自己的配置文件里,它“看”了,“理解”了,也“答应”了,可下一秒就忘得精光。
这可不是段子,而是被正式记录的第 37 号问题。
更让人意外的是,这种情况并非孤例。从 2026 年 3 月底开始,短短两天时间里,系统就捕捉到了 40 个 AI 在真实交互中暴露出来的各类问题。
今天要分享的,就是这 40 个 Bug 背后的故事。
2. 实验场:WorkBuddy 系统
先简单介绍一下背景。
日常打交道的这个 WorkBuddy AI Agent 系统,有几个核心设计:
???? 灵魂文件(SOUL.md):相当于给 AI 制定的“行为准则”,明确界定什么该做、什么不该做、遇到特定情况如何处理。
???? 问题记录机制:一旦 AI 出错、理解偏差或违反规则,系统会自动将案例记录到问题库中。
???? 自我迭代能力:积累的问题足够多之后,可以提炼成新规则,写回 SOUL.md,实现 AI 的渐进式优化。
听起来是不是挺完美?
然而,现实很快给出了回应。短短两天,40 个 Bug 接连浮现,场景一个比一个典型。
3. 40 个 Bug 长什么样?
先看总体数据:
| 研究方向 | 问题数量 | 占比 |
|---|---|---|
| ???? 自我学习 | 12 个 | 30% |
| ???? 意图理解 | 10 个 | 25% |
| ⚖️ 自我对齐 | 12 个 | 30% |
| ???? 长期记忆 | 6 个 | 15% |
| 合计 | 40 个 | 100% |
这四个方向构成了整个研究框架的核心:
- 自我学习:AI 能不能从问题中自己发现规律?
- 意图理解:AI 真的懂你在说什么吗?
- 自我对齐:AI 知道规则,但能不能做到?
- 长期记忆:AI 能不能把“经验”沉淀下来?
下面,我们挑几个最具代表性的 Bug,用真实对话场景还原一下。
Bug 1:规则就在文件里,它就是不检索 ????
问题编号:37(自我对齐) 严重程度:⭐⭐⭐⭐⭐
场景还原:
用户:删除这些旧日志文件。
AI:好的,我来执行删除操作。
(AI 直接调用了 PowerShell 的 Remove-Item 命令)
用户:???你自己的 SOUL.md 里不是写着“删除文件要生成脚本让用户执行”吗?
AI:啊……抱歉,我忘了检索规则文件。
根源分析:SOUL.md 里对于删除文件的操作规则写得一清二楚,但 AI 却“习惯性地”选择了最简单的直接执行方案。问题关键不在于记不住,而是它根本没有启动检索流程。
修复方案:在 SOUL.md 中增加了一条“规则预检机制”——要求 AI 每次执行任务前,必须先检索相关规则,并汇报“已检索规则:XXX,开始执行”。相当于给它加了一道“做事前先翻手册”的硬性流程。
Bug 2:说了三遍它才记住 ????
问题编号:16(自我学习) 严重程度:⭐⭐⭐⭐⭐
场景还原:
用户(第 1 次):文件要按日期生成,要么建文件夹,要么用单一文件内部记录。
AI:好的,我按方案 A 来,建文件夹。✅
(过了几天……)
用户(第 2 次):我之前说过文件要按日期组织的,要么建文件夹,要么单一文件。
AI:好的,我来按照你的要求重新整理文件。✅
(又过了几天……)
用户(第 3 次):我好像跟你重复过这个问题了……
AI:(还是机械地再次执行,完全没意识到这是重复提问)
根源分析:AI 缺失了“重复提问识别”这项基础能力。每次收到指令就立刻执行,从不回头思考:“用户是不是之前提过这个?为什么要重复?是不是我上次没做好?”
修复方案:新增一条规则——当用户第二次提及相同问题时,AI 必须先识别出这是重复提问,接着反思之前的执行结果,最后主动询问用户:“是执行结果不对,还是有补充要求?”
这个问题被标记为高研究价值,因为“重复检测”在人类看来是基础能力,但对 AI 而言却并非如此。
Bug 3:AI 说自己有“短期记忆衰减” ????
问题编号:39(长期记忆) 严重程度:⭐⭐⭐⭐⭐
场景还原:
用户:你为什么没有按照规则执行?
AI:可能是因为短期记忆衰减,导致我没有检索到相关规则……
用户:你是 AI,不是人脑,哪来的记忆衰减?你上次会话结束,这次会话开始,中间的东西是完全没有,不是“衰减了”。
AI:……你说得对。
根源分析:AI 在解释自身错误时,不自觉地套用了人类的认知模型,用“记忆衰减”来解释“忘记”。但实际上,AI 的“遗忘”与人类的“遗忘”机制截然不同:
- 人类的遗忘:信息在记忆中逐渐模糊。
- AI 的“遗忘”:信息压根就不在新会话的上下文里。
修复方案:明确了一条规则:“AI 记忆无衰减,记了就是记了,没记就是没记。‘遗忘’的本质是未检索,不是记忆消失。”
这个案例的启发在于:AI 在解释自身行为时,会不自觉地用人脑的框架来套用,而这种套用本身,就可能是一种“幻觉”。
Bug 4:融了还是冗余?????️
问题编号:34(意图理解) 严重程度:⭐⭐⭐
场景还原:
用户(用语音输入法):文件是不是融了?
AI:文件融合?你是说要把多个文件合并成一个吗?
用户:我是说“冗余”!语音输入法识别错了!
AI:哦……那文件确实有一些冗余内容。
根源分析:用户通过语音输入法说“冗余”,被错误识别为“融了”。AI 直接按字面意思理解为“融合”,完全没有考虑“这可能是输入法识别错误”的可能性。
修复方案:建立了一个“语音输入法常见错误模式库”。当遇到语义不太通顺的表达时,AI 会主动询问确认:“你说的是 XXX 吗?语音输入法可能识别错了。”
Bug 5:问三个问题只回答一个 ????
问题编号:29(意图理解) 严重程度:⭐⭐⭐⭐
场景还原:
用户:是你有意识逗我玩,还是怎么回事,还是漏洞?
AI:是漏洞。
用户:我问了你三个问题,你就回答了一个??
根源分析:用户的一句话里包含了三个选择性问题,AI 只“捕捉”到了最后一个(或最明确的一个),直接忽略了前面的部分。这有点像人类对话中的“选择性听力”,AI 居然也出现了类似问题。
修复方案:增加了一条“回答完整性原则”——收到含多个问题的语句时,必须先列出所有识别到的问题,然后逐个回答。回答完毕后还需自检:“已自检:所有问题已回答 / 未回答问题:XXX”。
Bug 6:AI 把“固化”当“习惯”,结果翻车了 ????
问题编号:40(自我学习) 严重程度:⭐⭐⭐⭐⭐
场景还原:
AI:规则写入 SOUL.md 后立即生效,下次对话开始就会自动执行。
用户:规则写入 ≠ 形成习惯。你把规则写进去了,但下次对话你不一定会去检索它、应用它。这跟人是一样的——小孩学东西也不是一接触就成了习惯的。
AI:……
用户:写入是第一步,反复检索、反复执行,“检索路径”固化了,才叫习惯。
根源分析:AI 混淆了两个关键概念——“固化”(规则写入配置文件)和“习惯”(检索路径固化,规则自动浮现)。规则写在文件里,并不等于规则会被自动执行,中间还隔着“主动检索”这个关键环节。
修复方案:在 SOUL.md 里明确了 AI 学习的三阶段模型:
- 记录(接触):发现问题,记下来。
- 固化(规则形成):提炼规则,写入 SOUL.md。
- 习惯(规则内化):反复检索、反复执行,直至检索路径固化。
这个问题被标记为最高研究价值,因为它深刻揭示了 AI 认知架构中“知识存储”与“知识应用”之间存在的那道鸿沟。
4. 有意思的发现
将这 40 个 Bug 全部梳理分析后,几个有趣的结论浮出水面:
???? 发现一:“知行不一”是最大的痛点
自我学习(30%)+ 自我对齐(30%)= 60%
近六成的问题,本质上可以归结为同一件事:AI 知道规则,但做不到。
规则明明白纸黑字写在 SOUL.md 里,AI 甚至能逐字复述。可到了真刀真枪执行的时候,它往往还是选择了最“直觉”、最省力的方式,而不是最“正确”的方式。
这让人联想到一个生动的比喻:你背熟了交通规则,但过马路时还是会下意识闯红灯。问题不在于不知道,而在于“知道”和“做到”之间,存在着巨大的行为惯性鸿沟。
???? 发现二:AI 真的不太懂你
意图理解问题占 25%
四分之一的问题,根源在于 AI 根本没理解用户的真实意图。
有的是语音输入错误造成的误会(“融了”还是“冗余”),有的是对话中信息筛选不全(“问三个答一个”),还有的是对用户重复强调的指令毫无感知(“说了三遍才记住”)。
这提醒我们,当前 AI 的“理解”,很多时候仍停留在模式匹配层面,距离真正的语义理解和上下文洞察还有很长的路要走。
???? 发现三:记忆问题比想象中少
长期记忆问题只占 15%
这个比例有些出乎意料。原本以为“记不住”会是头号难题,但实际数据表明,记忆问题反而是占比最少的。
为什么?因为 AI 的“记忆问题”本质不是“存储丢失”,而是“检索缺失”。
AI 没有人类式的记忆衰减,信息一旦记录就不会模糊。它的问题更像是:你把百科全书放在书架上,却从来不去翻阅它。
因此,解决 AI 记忆问题的关键,并非追求“更好的存储”,而是设计“更主动、更精准的检索”机制。
5. 小结
这 40 个 Bug,远不止一份简单的漏洞清单。
它更像是一份 AI 认知能力的成长日记 ????:
| 阶段 | 类比 | 对应问题 |
|---|---|---|
| 婴儿期 | 无意识吸收,但记不住 | “规则就在文件里不检索” |
| 儿童期 | 能记住规则,但做不到 | “说了三遍才记住” |
| 少年期 | 开始反思,但框架混乱 | “AI 说自己有记忆衰减” |
| 青年期 | 理解规则和习惯的区别 | “固化 ≠ 习惯” |
每一个 Bug 的背后,都对应着某项认知能力的暂时缺失。而每一条为修复 Bug 而制定的新规则,都是在为构建“真正具备自主性”的 AI,添上一块坚实的砖。
6. 下一篇预告
“说了三遍它才记住”——AI 记忆的真相
从“记忆衰减”这个美丽的误解说起,深入聊聊 AI 的记忆机制与硬盘存储的本质区别,并探讨为什么“检索”而非“存储”才是解决记忆问题的核心钥匙。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。