其他资讯

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

2026-04-03

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

这是 AI 认知架构实战笔记系列的第 2 篇上一篇我们聊了「给 AI 写灵魂文件」这件事，这

这是 AI 认知架构实战笔记系列的第 2 篇

上一篇我们聊了「给 AI 写灵魂文件」这件事，这一篇，我们来看看，当这份灵魂文件真正运转起来之后，现实究竟会给我们带来多少“惊喜”——或者更准确地说，是漏洞。项目名为 WorkBuddy-Configure，已部署在 gitee 和 gitcode 上。

1. 一个离谱的开场

故事得从一个哭笑不得的真实案例讲起。

我为 AI 精心撰写了一份名为 SOUL.md 的规则文件，里面白纸黑字明确写着：

删除文件操作规则：需要删除文件时，生成自删除脚本 → 放到工作台 → 提醒用户双击执行。

AI 在阅读了这份文件后，给出了“好的，我记住了”这样的标准回应。

然后呢？

它转头就用 PowerShell 直接把文件给删了。????

规则就白纸黑字地躺在它自己的配置文件里，它“看”了，“理解”了，也“答应”了，可下一秒就忘得精光。

这可不是段子，而是被正式记录的第 37 号问题。

更让人意外的是，这种情况并非孤例。从 2026 年 3 月底开始，短短两天时间里，系统就捕捉到了 40 个 AI 在真实交互中暴露出来的各类问题。

今天要分享的，就是这 40 个 Bug 背后的故事。

2. 实验场：WorkBuddy 系统

先简单介绍一下背景。

日常打交道的这个 WorkBuddy AI Agent 系统，有几个核心设计：

???? 灵魂文件（SOUL.md）：相当于给 AI 制定的“行为准则”，明确界定什么该做、什么不该做、遇到特定情况如何处理。

???? 问题记录机制：一旦 AI 出错、理解偏差或违反规则，系统会自动将案例记录到问题库中。

???? 自我迭代能力：积累的问题足够多之后，可以提炼成新规则，写回 SOUL.md，实现 AI 的渐进式优化。

听起来是不是挺完美？

然而，现实很快给出了回应。短短两天，40 个 Bug 接连浮现，场景一个比一个典型。

3. 40 个 Bug 长什么样？

先看总体数据：

研究方向	问题数量	占比
???? 自我学习	12 个	30%
???? 意图理解	10 个	25%
⚖️ 自我对齐	12 个	30%
???? 长期记忆	6 个	15%
合计	40 个	100%

这四个方向构成了整个研究框架的核心：

自我学习：AI 能不能从问题中自己发现规律？
意图理解：AI 真的懂你在说什么吗？
自我对齐：AI 知道规则，但能不能做到？
长期记忆：AI 能不能把“经验”沉淀下来？

下面，我们挑几个最具代表性的 Bug，用真实对话场景还原一下。

Bug 1：规则就在文件里，它就是不检索 ????

问题编号：37（自我对齐） 严重程度：⭐⭐⭐⭐⭐

场景还原：

用户：删除这些旧日志文件。

AI：好的，我来执行删除操作。

（AI 直接调用了 PowerShell 的 Remove-Item 命令）

用户：？？？你自己的 SOUL.md 里不是写着“删除文件要生成脚本让用户执行”吗？

AI：啊……抱歉，我忘了检索规则文件。

根源分析：SOUL.md 里对于删除文件的操作规则写得一清二楚，但 AI 却“习惯性地”选择了最简单的直接执行方案。问题关键不在于记不住，而是它根本没有启动检索流程。

修复方案：在 SOUL.md 中增加了一条“规则预检机制”——要求 AI 每次执行任务前，必须先检索相关规则，并汇报“已检索规则：XXX，开始执行”。相当于给它加了一道“做事前先翻手册”的硬性流程。

Bug 2：说了三遍它才记住 ????

问题编号：16（自我学习） 严重程度：⭐⭐⭐⭐⭐

场景还原：

用户（第 1 次）：文件要按日期生成，要么建文件夹，要么用单一文件内部记录。

AI：好的，我按方案 A 来，建文件夹。✅

（过了几天……）

用户（第 2 次）：我之前说过文件要按日期组织的，要么建文件夹，要么单一文件。

AI：好的，我来按照你的要求重新整理文件。✅

（又过了几天……）

用户（第 3 次）：我好像跟你重复过这个问题了……

AI：（还是机械地再次执行，完全没意识到这是重复提问）

根源分析：AI 缺失了“重复提问识别”这项基础能力。每次收到指令就立刻执行，从不回头思考：“用户是不是之前提过这个？为什么要重复？是不是我上次没做好？”

修复方案：新增一条规则——当用户第二次提及相同问题时，AI 必须先识别出这是重复提问，接着反思之前的执行结果，最后主动询问用户：“是执行结果不对，还是有补充要求？”

这个问题被标记为高研究价值，因为“重复检测”在人类看来是基础能力，但对 AI 而言却并非如此。

Bug 3：AI 说自己有“短期记忆衰减” ????

问题编号：39（长期记忆） 严重程度：⭐⭐⭐⭐⭐

场景还原：

用户：你为什么没有按照规则执行？

AI：可能是因为短期记忆衰减，导致我没有检索到相关规则……

用户：你是 AI，不是人脑，哪来的记忆衰减？你上次会话结束，这次会话开始，中间的东西是完全没有，不是“衰减了”。

AI：……你说得对。

根源分析：AI 在解释自身错误时，不自觉地套用了人类的认知模型，用“记忆衰减”来解释“忘记”。但实际上，AI 的“遗忘”与人类的“遗忘”机制截然不同：

人类的遗忘：信息在记忆中逐渐模糊。
AI 的“遗忘”：信息压根就不在新会话的上下文里。

修复方案：明确了一条规则：“AI 记忆无衰减，记了就是记了，没记就是没记。‘遗忘’的本质是未检索，不是记忆消失。”

这个案例的启发在于：AI 在解释自身行为时，会不自觉地用人脑的框架来套用，而这种套用本身，就可能是一种“幻觉”。

Bug 4：融了还是冗余？????️

问题编号：34（意图理解） 严重程度：⭐⭐⭐

场景还原：

用户（用语音输入法）：文件是不是融了？

AI：文件融合？你是说要把多个文件合并成一个吗？

用户：我是说“冗余”！语音输入法识别错了！

AI：哦……那文件确实有一些冗余内容。

根源分析：用户通过语音输入法说“冗余”，被错误识别为“融了”。AI 直接按字面意思理解为“融合”，完全没有考虑“这可能是输入法识别错误”的可能性。

修复方案：建立了一个“语音输入法常见错误模式库”。当遇到语义不太通顺的表达时，AI 会主动询问确认：“你说的是 XXX 吗？语音输入法可能识别错了。”

Bug 5：问三个问题只回答一个 ????

问题编号：29（意图理解） 严重程度：⭐⭐⭐⭐

场景还原：

用户：是你有意识逗我玩，还是怎么回事，还是漏洞？

AI：是漏洞。

用户：我问了你三个问题，你就回答了一个？？

根源分析：用户的一句话里包含了三个选择性问题，AI 只“捕捉”到了最后一个（或最明确的一个），直接忽略了前面的部分。这有点像人类对话中的“选择性听力”，AI 居然也出现了类似问题。

修复方案：增加了一条“回答完整性原则”——收到含多个问题的语句时，必须先列出所有识别到的问题，然后逐个回答。回答完毕后还需自检：“已自检：所有问题已回答 / 未回答问题：XXX”。

Bug 6：AI 把“固化”当“习惯”，结果翻车了 ????

问题编号：40（自我学习） 严重程度：⭐⭐⭐⭐⭐

场景还原：

AI：规则写入 SOUL.md 后立即生效，下次对话开始就会自动执行。

用户：规则写入 ≠ 形成习惯。你把规则写进去了，但下次对话你不一定会去检索它、应用它。这跟人是一样的——小孩学东西也不是一接触就成了习惯的。

AI：……

用户：写入是第一步，反复检索、反复执行，“检索路径”固化了，才叫习惯。

根源分析：AI 混淆了两个关键概念——“固化”（规则写入配置文件）和“习惯”（检索路径固化，规则自动浮现）。规则写在文件里，并不等于规则会被自动执行，中间还隔着“主动检索”这个关键环节。

修复方案：在 SOUL.md 里明确了 AI 学习的三阶段模型：

记录（接触）：发现问题，记下来。
固化（规则形成）：提炼规则，写入 SOUL.md。
习惯（规则内化）：反复检索、反复执行，直至检索路径固化。

这个问题被标记为最高研究价值，因为它深刻揭示了 AI 认知架构中“知识存储”与“知识应用”之间存在的那道鸿沟。

4. 有意思的发现

将这 40 个 Bug 全部梳理分析后，几个有趣的结论浮出水面：

???? 发现一：“知行不一”是最大的痛点

自我学习（30%）+ 自我对齐（30%）= 60%

近六成的问题，本质上可以归结为同一件事：AI 知道规则，但做不到。

规则明明白纸黑字写在 SOUL.md 里，AI 甚至能逐字复述。可到了真刀真枪执行的时候，它往往还是选择了最“直觉”、最省力的方式，而不是最“正确”的方式。

这让人联想到一个生动的比喻：你背熟了交通规则，但过马路时还是会下意识闯红灯。问题不在于不知道，而在于“知道”和“做到”之间，存在着巨大的行为惯性鸿沟。

???? 发现二：AI 真的不太懂你

意图理解问题占 25%

四分之一的问题，根源在于 AI 根本没理解用户的真实意图。

有的是语音输入错误造成的误会（“融了”还是“冗余”），有的是对话中信息筛选不全（“问三个答一个”），还有的是对用户重复强调的指令毫无感知（“说了三遍才记住”）。

这提醒我们，当前 AI 的“理解”，很多时候仍停留在模式匹配层面，距离真正的语义理解和上下文洞察还有很长的路要走。

???? 发现三：记忆问题比想象中少

长期记忆问题只占 15%

这个比例有些出乎意料。原本以为“记不住”会是头号难题，但实际数据表明，记忆问题反而是占比最少的。

为什么？因为 AI 的“记忆问题”本质不是“存储丢失”，而是“检索缺失”。

AI 没有人类式的记忆衰减，信息一旦记录就不会模糊。它的问题更像是：你把百科全书放在书架上，却从来不去翻阅它。

因此，解决 AI 记忆问题的关键，并非追求“更好的存储”，而是设计“更主动、更精准的检索”机制。

5. 小结

这 40 个 Bug，远不止一份简单的漏洞清单。

它更像是一份 AI 认知能力的成长日记 ????：

阶段	类比	对应问题
婴儿期	无意识吸收，但记不住	“规则就在文件里不检索”
儿童期	能记住规则，但做不到	“说了三遍才记住”
少年期	开始反思，但框架混乱	“AI 说自己有记忆衰减”
青年期	理解规则和习惯的区别	“固化 ≠ 习惯”

每一个 Bug 的背后，都对应着某项认知能力的暂时缺失。而每一条为修复 Bug 而制定的新规则，都是在为构建“真正具备自主性”的 AI，添上一块坚实的砖。

6. 下一篇预告

“说了三遍它才记住”——AI 记忆的真相

从“记忆衰减”这个美丽的误解说起，深入聊聊 AI 的记忆机制与硬盘存储的本质区别，并探讨为什么“检索”而非“存储”才是解决记忆问题的核心钥匙。

来源：互联网

上一篇 苹果乔布斯 1994 年采访曝光：创造世界的那些人，并不比你聪明 下一篇 电脑关机、没联网、没系统？向日葵MCP让AI也能远程操作

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

摘要

这是 AI 认知架构实战笔记 系列的第 2 篇

1. 一个离谱的开场

2. 实验场：WorkBuddy 系统

3. 40 个 Bug 长什么样？

Bug 1：规则就在文件里，它就是不检索 ????

Bug 2：说了三遍它才记住 ????

Bug 3：AI 说自己有“短期记忆衰减” ????

Bug 4：融了还是冗余？????️

Bug 5：问三个问题只回答一个 ????

Bug 6：AI 把“固化”当“习惯”，结果翻车了 ????

4. 有意思的发现

???? 发现一：“知行不一”是最大的痛点

???? 发现二：AI 真的不太懂你

???? 发现三：记忆问题比想象中少

5. 小结

6. 下一篇预告

相关文章推荐

这是 AI 认知架构实战笔记系列的第 2 篇