Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文
摘要
谷歌新突破:为RNN植入可扩展记忆缓存,重塑Transformer主导的算力格局 编辑|泽南 谷歌在
谷歌新突破:为RNN植入可扩展记忆缓存,重塑Transformer主导的算力格局

编辑|泽南
谷歌在模型内存优化领域持续发力,接连推出颠覆性技术方案。
继上个月引发行业震动的TurboQuant研究之后,谷歌团队本周再次发布一篇关键论文。该研究直指大模型处理长序列时的核心瓶颈——内存效率,并提出了一条与Transformer截然不同的创新技术路径。

这项研究的核心,是为循环神经网络(RNN)架构引入了“可生长的记忆缓存”机制。该方法旨在融合Transformer的长上下文理解优势与RNN的线性计算效率,为解决大模型推理中的显存挑战提供了新的可能性。
从工程实践角度看,该技术有望显著降低处理超长文本序列的计算资源门槛,直接回应了生产环境对高效长上下文能力的迫切需求。


Transformer的显存困境与RNN的召回瓶颈
Transformer架构凭借其注意力机制,在长上下文信息召回任务上确立了性能标杆。然而,其注意力计算随序列长度呈二次方增长的复杂度,导致了高昂的显存与算力成本,限制了其在超长序列场景下的经济可行性。
作为替代方案,RNN、线性注意力及状态空间模型(如Mamba)因其恒定的记忆容量和线性复杂度而受到关注。这些循环架构在推理速度和内存占用上优势明显。但其根本局限在于,所有历史信息必须被压缩到一个固定维度的隐藏状态中,这种信息压缩过程导致其在需要精确检索长文档细节的密集召回任务中,性能往往不及Transformer。
架构创新:为RNN配备可检索的记忆缓存
谷歌研究团队提出的“记忆缓存”技术,旨在打破上述性能取舍的僵局。

论文:《Memory Caching: RNNs with Growing Memory》论文链接:https://arxiv.org/abs/2602.24281
该研究在架构光谱上定位了一个新的平衡点:它既非Transformer那样缓存每一个独立Token,也非传统RNN那样进行全局压缩。MC技术的核心,是允许RNN周期性地将隐藏状态的“快照”存储到外部缓存中。
这一机制使得模型在需要回溯信息时,能够直接查询缓存中的历史状态快照,从而大幅提升从长序列中精准检索信息的能力,同时保持了循环架构的线性推理效率。

三种实现范式:权衡记忆增长与计算成本
研究团队设计了三种MC变体,以探索不同的记忆组合策略:
1. 门控残差记忆:该方法通过查询检索相关缓存记忆,并执行类注意力池化操作进行信息融合。其有效记忆容量随上下文增长,解码成本相应增加。

2. 记忆汤:此变体直接对缓存记忆的权重进行池化融合,而非融合其输出。同样,其有效记忆和计算成本随序列处理而增长。

3. 稀疏选择性缓存:为追求恒定解码成本,SSC变体借鉴混合专家模型思路,在序列维度上稀疏地激活缓存记忆的一个子集。这使得模型在保持线性解码开销的同时,仍能利用不断增长的有效记忆。

性能验证:实验数据揭示效能提升
MC作为一个通用框架,可集成于多种循环架构,如线性注意力或深度记忆模型Titans。
在13亿参数规模的模型上进行的综合实验证实了其有效性:

(模型在语言建模与常识推理任务上的性能对比。)
关键实验结果包括:
长上下文建模增强:在语言建模及长文档理解任务中,集成MC的循环模型性能获得系统性提升。
召回任务差距缩小:在上下文内召回任务上,MC模型超越了其他先进的循环架构基线,显著拉近了与Transformer的性能距离。
性能上限对比:论文客观指出,在极限密集召回任务中,Transformer仍保持最高准确率上限,但MC已大幅改善了循环模型的短板。
技术影响:开辟高效长上下文处理新路径
这项研究通过缓存历史状态快照这一直观而高效的算法设计,实质性地推进了非Transformer架构的实用化进程。
尽管在绝对召回精度上尚未完全超越Transformer,但MC技术清晰地展示了一条兼顾效率与性能的新路径。随着循环架构与状态空间模型的持续演进,大模型基础设施的格局或将迎来新的变数。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。