菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > CMU新论文:LLM在睡眠中巩固记忆的突破性研究
产业资讯 CMU新论文

CMU新论文:LLM在睡眠中巩固记忆的突破性研究

2026-06-06
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

很长一段时间里,“长上下文”能力一直是各大模型厂商竞相角逐的核心指标。从128K到1M,

很长一段时间里,“长上下文”能力一直是各大模型厂商竞相角逐的核心指标。从128K到1M,再到更长的上下文窗口,业界逐渐形成了默认逻辑:窗口越大,模型能记住的细节越多,处理长文本和复杂任务的潜力也就越大。

然而,问题随之暴露。上下文越长,KV Cache体积越大,显存迅速被占满,推理速度不断下降,成本也随之飙升。

更本质的困境在于,单纯增加token数量并不等同于模型能将信息转化为可推理的长期记忆。最终,榜单分数越刷越高,但在需要“深度推理”的复杂任务中,模型常因遗忘关键细节而频繁出错。

针对这一矛盾,卡内基梅隆大学(CMU)与马里兰大学在一篇新论文中提出了一个有趣的思路:既然人类连续工作太久会效率下降,大模型也一样,何不让LLM“睡一觉”?

这篇论文的标题直截了当——《Language Models Need Sleep》,即《语言模型需要睡眠》。

自然,这里的“睡眠”并非真实休息。更准确地说,这是一种类似睡眠的“记忆巩固机制”。

作者指出,基于Transformer的大语言模型越来越频繁地应用于长程任务,但注意力机制在面对更长上下文时扩展性不足。为此,他们设计了一套记忆巩固机制:在“睡眠”阶段,模型对累积的上下文执行N次离线递归前向传播,并通过学习得到的局部规则,更新其状态空间模型(SSM)模块中的快速权重(fast weights)。推理时,额外计算被转移到“睡眠”阶段,而模型在“清醒”预测阶段的延迟保持不变。

换句话说,模型不需要把所有内容始终摊在眼前,而是学会在某些节点“暂停思考”,将刚读取的内容消化为可随时调用的内部状态。

论文地址:https://arxiv.org/pdf/2605.26099

作者在一系列受控的合成任务上测试了该方法,包括细胞自动机、多跳图检索,以及一个更贴近真实场景的数学推理任务。在这些任务中,普通Transformer和SSM-attention混合模型均会失败,而增加模型的“睡眠”时长N可以提升性能,尤其在需要更深层推理的样本上,效果最为显著。

接下来,我们深入解析。

从动物睡眠中汲取灵感

这篇论文的灵感来源于动物睡眠中的记忆巩固过程。

神经科学研究表明,动物从短期记忆向长期记忆的转化,依赖于海马体的replay机制,尤其在睡眠期间。此阶段,短期海马体记忆被重新激活,并巩固到皮层突触权重中。睡眠会使动物无法对外界刺激做出反应,这意味着睡眠必须带来足够大的认知收益,才能弥补这一代价。

基于这一认知,作者提出将上下文窗口记忆转移到持久权重中的方法:当模型推理过程中上下文窗口被填满时,进入“睡眠”状态——对累积上下文执行多次前向传播,并通过学习得到的局部规则递归更新fast weights。此阶段,模型不接收外部输入token。

巩固完成后,上下文窗口被清空,模型带着更新后的fast weights继续运行。训练过程中,模型通过整个过程的反向传播进行端到端优化,以最大化睡眠后的任务表现。

简言之,大模型的训练过程被划分为两个阶段:

“清醒”阶段:只负责快速响应。模型像普通Transformer一样正常工作,接收长文本输入,迅速给出预测和回复,无需深度内化信息,只需“读”和“答”。

“睡眠”阶段:每隔一段时间,模型进入离线睡眠状态。期间,模型利用专门的后台时间,对积累的上下文进行N次循环离线处理(Recurrent passes),将近期上下文中的关键细节转化为持久的fast weights,并写入SSM模块中。

具体实现如下:

当上下文窗口被填满、模型即将从注意力层淘汰token之前,它会先进入一个“巩固阶段”,在此阶段执行递归计算。通过这种方式扩展计算量来处理深度推理任务,对于较大的时间步t,仍然满足预测阶段的延迟约束。

例如,如果在全部D个模块上进行循环,其形式如下:

其中,N表示在整个架构上循环执行N次传递。

下图对架构进行了详细描述:从一个SSM-Attention混合模型初始化,该模型具有固定的上下文窗口大小L,其中注意力缓存每L个token就会被完全淘汰。在每L个token淘汰KV Cache之前,模型会执行N次递归传递,根据下面的公式3迭代更新SSM模块内部的快速权重;当N=1时,它就退化为一个普通的SSM-Attention混合模型。模型迭代更新快速权重的这一阶段就是“睡眠阶段”。

在递归式细化快速权重之后,KV Cache会被淘汰,模型随后处理接下来的L个token。

完整上下文处理完毕后,模型会基于已经细化后的记忆和当前上下文,通过一次前向传播来预测答案。训练时,模型通过对公式6所示的整个计算图进行反向传播,最小化预测误差,这一点与其他深度递归模型类似。

不同之处在于:以往的深度递归模型中,梯度会流经递归细化后的特征向量;而在这里,由于睡眠阶段结束后细化后的特征被丢弃,梯度实际上流经的是被细化后的快速权重。

完整的训练流程如下:

实验:睡得越久,推理越强?

为了验证增加睡眠时长N能否提升模型对“旧”上下文的推理能力,作者进行了一系列实验。下面来看一个更接近自然语言的数学推理任务——GSM-Infinite。

GSM-Infinite可以理解为长上下文数学推理基准,通过添加干扰token拉长题目,同时用所需算术操作数控制难度。题目越复杂,需要的推理步骤越多。

作者在Jet-Nemotron 2B和Ouro 1.4B两个预训练模型上测试了模型的“睡眠”机制。

结果呈现出清晰趋势:题目越难,“睡眠”带来的提升越明显。

对于Jet-Nemotron 2B,6次sleep loop将6步运算题准确率从0.742提升到0.812,将8步运算题从0.351提升到0.388。

对于Ouro 1.4B,4次sleep loop将6步运算题准确率从0.419提升到0.615,将8步运算题从0.210提升到0.272。

也就是说,“睡眠”机制对简单题的助力相对有限,因为模型本身就能处理得不错。但当任务复杂度上升,需要更多步推理和更强的上下文组织能力时,“睡眠”阶段的额外计算就开始发挥关键作用。

局限性:效果明显,代价同样明显

当然,这篇论文并未过度乐观。

作者坦言,该方法通过将额外递归计算转移到巩固阶段,保持了预测阶段的单次前向传播延迟。但这种收益并非免费:在训练过程中,需要执行N次更深的前向和反向传播,这会导致训练变慢,并可能增加不稳定性。

执行N次,效果提升显著,但训练成本也线性增长。

因此,这项工作目前仍主要停留在方法论探索层面。作者表示,该方法的主要贡献在于方法论,评估也主要基于受控合成任务和中等规模预训练模型。目前,它尚未在超大规模商用模型或真实长程Agent系统中得到充分验证。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多