产业资讯 CMU新论文

CMU新论文：LLM在睡眠中巩固记忆的突破性研究

2026-06-06

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

很长一段时间里，“长上下文”能力一直是各大模型厂商竞相角逐的核心指标。从128K到1M，

很长一段时间里，“长上下文”能力一直是各大模型厂商竞相角逐的核心指标。从128K到1M，再到更长的上下文窗口，业界逐渐形成了默认逻辑：窗口越大，模型能记住的细节越多，处理长文本和复杂任务的潜力也就越大。

然而，问题随之暴露。上下文越长，KV Cache体积越大，显存迅速被占满，推理速度不断下降，成本也随之飙升。

更本质的困境在于，单纯增加token数量并不等同于模型能将信息转化为可推理的长期记忆。最终，榜单分数越刷越高，但在需要“深度推理”的复杂任务中，模型常因遗忘关键细节而频繁出错。

针对这一矛盾，卡内基梅隆大学（CMU）与马里兰大学在一篇新论文中提出了一个有趣的思路：既然人类连续工作太久会效率下降，大模型也一样，何不让LLM“睡一觉”？

这篇论文的标题直截了当——《Language Models Need Sleep》，即《语言模型需要睡眠》。

自然，这里的“睡眠”并非真实休息。更准确地说，这是一种类似睡眠的“记忆巩固机制”。

作者指出，基于Transformer的大语言模型越来越频繁地应用于长程任务，但注意力机制在面对更长上下文时扩展性不足。为此，他们设计了一套记忆巩固机制：在“睡眠”阶段，模型对累积的上下文执行N次离线递归前向传播，并通过学习得到的局部规则，更新其状态空间模型（SSM）模块中的快速权重（fast weights）。推理时，额外计算被转移到“睡眠”阶段，而模型在“清醒”预测阶段的延迟保持不变。

换句话说，模型不需要把所有内容始终摊在眼前，而是学会在某些节点“暂停思考”，将刚读取的内容消化为可随时调用的内部状态。

论文地址：https://arxiv.org/pdf/2605.26099

作者在一系列受控的合成任务上测试了该方法，包括细胞自动机、多跳图检索，以及一个更贴近真实场景的数学推理任务。在这些任务中，普通Transformer和SSM-attention混合模型均会失败，而增加模型的“睡眠”时长N可以提升性能，尤其在需要更深层推理的样本上，效果最为显著。

接下来，我们深入解析。

从动物睡眠中汲取灵感

这篇论文的灵感来源于动物睡眠中的记忆巩固过程。

神经科学研究表明，动物从短期记忆向长期记忆的转化，依赖于海马体的replay机制，尤其在睡眠期间。此阶段，短期海马体记忆被重新激活，并巩固到皮层突触权重中。睡眠会使动物无法对外界刺激做出反应，这意味着睡眠必须带来足够大的认知收益，才能弥补这一代价。

基于这一认知，作者提出将上下文窗口记忆转移到持久权重中的方法：当模型推理过程中上下文窗口被填满时，进入“睡眠”状态——对累积上下文执行多次前向传播，并通过学习得到的局部规则递归更新fast weights。此阶段，模型不接收外部输入token。

巩固完成后，上下文窗口被清空，模型带着更新后的fast weights继续运行。训练过程中，模型通过整个过程的反向传播进行端到端优化，以最大化睡眠后的任务表现。

简言之，大模型的训练过程被划分为两个阶段：

“清醒”阶段：只负责快速响应。模型像普通Transformer一样正常工作，接收长文本输入，迅速给出预测和回复，无需深度内化信息，只需“读”和“答”。

“睡眠”阶段：每隔一段时间，模型进入离线睡眠状态。期间，模型利用专门的后台时间，对积累的上下文进行N次循环离线处理（Recurrent passes），将近期上下文中的关键细节转化为持久的fast weights，并写入SSM模块中。

具体实现如下：

当上下文窗口被填满、模型即将从注意力层淘汰token之前，它会先进入一个“巩固阶段”，在此阶段执行递归计算。通过这种方式扩展计算量来处理深度推理任务，对于较大的时间步t，仍然满足预测阶段的延迟约束。

例如，如果在全部D个模块上进行循环，其形式如下：

其中，N表示在整个架构上循环执行N次传递。

下图对架构进行了详细描述：从一个SSM-Attention混合模型初始化，该模型具有固定的上下文窗口大小L，其中注意力缓存每L个token就会被完全淘汰。在每L个token淘汰KV Cache之前，模型会执行N次递归传递，根据下面的公式3迭代更新SSM模块内部的快速权重；当N=1时，它就退化为一个普通的SSM-Attention混合模型。模型迭代更新快速权重的这一阶段就是“睡眠阶段”。