进阶教程核心要点与深度

Attention Residuals论文精读：核心要点与深度解析

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

残差连接的等权求和导致深层信息被稀释。AttnRes引入层间注意力机制，让每层从前面各层

写在前面

苏剑林在回忆录里写得很坦诚：“‘Depth Attention’或者说‘Layer Attention’是一个毫无新意的想法，但如何将它用于足够大的模型，作为Residuals足够强的替代品，同时还满足训练和推理的效率需求，并不是一件容易的事情”。今天我们来重点看看，别人是怎么对“残差”这个老古董开刀的。

残差连接：一个十年来没人敢动的“标准配件”

残差连接大家都不陌生，2015年何恺明在ResNet里提出，核心作用是给梯度一条“高速公路”，让深层网络能稳定训练。公式也极其简单：每一层的输出，是这一层的变换结果加上它的输入。

表面上看，每层只接收上一层的输出。但把这个递推展开，你会发现：第50层的输入里，包含了第1层到第49层的所有输出之和，而且权重全是1——谁也不会多，谁也不会少。

这有什么问题？论文里指出一个被很多人忽视的现象：PreNorm稀释。随着层数增加，隐藏状态的模长以固定的速度增长，每一层新加进去的信息，相对于已经堆积如山的旧信息，占比越来越小。到后面，单层的贡献几乎可以忽略不计——这也是为什么很多实验里，把深层参数剪掉一大半，模型性能几乎不下降。

打个比方：你在开一个超长的会，每个人发言后，会议记录员不是择要记录，而是把所有人的发言稿逐字叠在一起。开到最后，记录本上全是字，但谁说了什么重点，早就分不清了。

▲ 原论文 Figure 1。左边是标准残差——每层只能被动接收上一层的累积状态。右边是 AttnRes——每层通过注意力机制，从前面所有层中精准选择自己需要的信息。虚线箭头，粗细不同，代表可学习的注意力权重。

把深度方向当成“序列”来处理

既然问题出在“等权相加”上，那解决方案也呼之欲出：加个注意力机制，让每层自己决定该看哪些层。

这个想法有清晰的“基因图谱”。Transformer本身就是因为注意力机制解决了RNN在时间维度上的信息压缩瓶颈，才一统江湖的。RNN把序列上所有过去信息压缩成一个固定向量，到了一定长度必然丢失细节；注意力机制把“压缩”变成了“选择性检索”——每个位置都能直接从前面任意位置提取信息。那为什么深度维度还要忍受类似的压缩？层层递推的残差连接，本质上就是把深度当成一个“单向序列”在跑。

序列上的难题用注意力解决了，深度上的同样可以。

AttnRes的核心数学非常简单。给每一层分配一个可学习的查询向量，再把前面所有层的输出当成“键-值对”。每一层用查到的相似度分数（经过softmax归一化），决定从前面各层“提取”多少信息。

新增的参数量极小——每层只多了一个维向量和一个RMSNorm。初始化为零，训练刚开始时所有注意力权重均匀分布，等同于标准残差，不会引起训练波动。

这个设计遵循一种“奥卡姆剃刀”式的自限——参数量被控制在最小。不是因为更强的方案不存在（论文实验了更复杂的动态查询投影，也拿到了更低loss），而是因为在工程上“简洁”本身就是壁垒：更少的参数意味着更低的通信开销、更简单的并行策略，最终决定了方案能否落地到大规模训练。

▲ 标准残差 vs AttnRes 的简化对比。AttnRes 的核心区别：每层不是只接收上一层的输出，而是从前面所有层中“选择性提取”。虚线框的宽度代表注意力权重的大小。

“块”的设计：让好想法能在大模型上跑起来

到这里，你可能觉得方案很自然——既然序列上的softmax注意力已经被广泛验证，搬到深度上有什么难的？

问题不在数学，在工程。

在大模型训练里，为了省显存，各层的中间结果通常不会全部保存在显存里——用完了就释放，需要的时候再重新计算（激活重计算）。但在Full AttnRes下，每一层需要“翻阅”前面所有层的输出，这些中间结果必须全部保留，不能释放。更要命的是，在多GPU流水线并行下，这些数据还需要跨GPU传输——通信量是层数和隐藏维度的乘积，代价巨大。

论文给出了一个务实的折中方案：Block AttnRes。把层分成若干个块（比如每6层一块），块内保留原来的标准残差（等权求和），块间才用注意力机制连接。这样需要保留和传输的表示，从L个降到了N个。论文里用了N=8。

▲ 原论文 Figure 1(c)。层被分成几个块（虚线框），块内仍旧是标准残差，块间通过注意力选择性聚合。这是论文工程上最关键的设计。

论文还介绍了两项配套的系统优化：

跨阶段缓存：在多GPU流水线并行中，不让GPU重复传输已经传过的块表示，而是缓存起来，只传增量的那一小部分。
两阶段推理调度：推理时，先把一个块内所有层的跨块注意力批量计算（因为query在训练后固定不变，无需每一层单独访存），再顺序处理块内依赖。最终推理延迟开销不到2%。

这三板斧下来，一个“理论上行得通但实际跑不动”的想法，变成了能在大模型训练流水线里稳定运行的标准组件。

效果好不好？看这三个层面

论文从三个层层递进的层面验证了AttnRes。

第一层：规模验证——给小模型加AttnRes，等于给大模型加了25%的算力

论文在五个模型规模上（从194M到528M激活参数）做了标准的Scaling Law实验。结果很清晰：三条loss-算力曲线几乎平行，但Full AttnRes整条线都在Baseline下方，Block AttnRes夹在中间，但紧贴Full。

换算下来：相同算力下，Block AttnRes的验证loss更低；或者说，Baseline要额外投入25%的算力才能达到Block AttnRes的效果。

▲ 原论文 Figure 4。横轴是训练算力（PFLOP/s-days），纵轴是验证loss。Full AttnRes（绿）和Block AttnRes（蓝虚线）整条线都在纯PreNorm Baseline（红）的下方。在最大算力处，Block AttnRes的loss（1.692）约等于Baseline用1.25倍算力才能达到的水平。

第二层：48B真刀真枪——在Kimi Linear上预训练1.4T tokens

最大的模型是Kimi Linear 48B（MoE架构，激活3B参数），训练数据1.4T tokens。Block AttnRes在全部15个下游评测中都不弱于纯PreNorm baseline。增益最大的是需要多步推理的任务：GPQA-Diamond涨了7.5个点，MATH涨了3.6个点，HumanEval涨了3.1个点。知识类任务也有稳健提升。

任务	Baseline	Block AttnRes	提升
GPQA-Diamond	36.9	44.4	+7.5
MATH	53.5	57.1	+3.6
HumanEval	59.1	62.2	+3.1
MMLU	73.5	73.5	0.0
BBH	76.3	78.0	+1.7

▲ 多步推理任务提升最高。GPQA-Diamond是研究生级别的“防谷歌”问答，需要深层逻辑链，AttnRes的跨层信息提取优势在这里最明显。

第三层：深层剖析——AttnRes到底改变了什么？

论文还分析了训练过程中，每一层的输出模长和梯度分布。

标准残差的训练动态是：越深的层，输出模长越大，增长几乎是单调的——因为后面层必须输出更大的值，才能在被稀释的信息流里刷出一点存在感。同时，最浅的几层梯度远大于中间层，因为恒等映射让误差信号几乎无衰减地传到最前面。

Block AttnRes下的训练动态完全变了：输出模长在每个block边界被“重置”，呈周期性锯齿状，整体有界。梯度在各层之间分布也更均匀——因为注意力权重引入了竞争，浅层不再靠“唯一通道”的特权获得不成比例的梯度信号。

▲ 原论文 Figure 5(b)(c)。左为各层输出模长：标准残差（红）单调上升，Block AttnRes（蓝）在每个块边界被重置，呈锯齿形。右为梯度模长：标准残差前半段极高，AttnRes 整体平滑。这说明 AttnRes 让训练信号在深度方向上分配得更均匀。

在MoE架构里，AttnRes和专家路由是怎么分工的？

论文在Table 2的脚注中提到一个细节：所有实验模型都是MoE架构，每个token动态激活256个专家中的8个（外加1个共享专家）。MoE的专家路由在“功能维度”上实现了选择性——每个token根据自己的内容，选择最合适的专家来处理。而AttnRes在“深度维度”上实现了选择性——每一层根据自己的需求，选择最相关的浅层信息来参考。

两个机制是正交的、互补的。 一个在宽度上做选择，一个在深度上做选择。把它们叠在一起，形成了一个更完整的“选择性网络”——横向上，token知道自己该找哪些专家；纵向上，每一层知道自己该回顾哪些历史层。这种“横向选择 × 纵向选择”的组合，可能是MoE架构进一步挖潜的方向。

▲ MoE与AttnRes的分工：MoE在“选专家”（宽度），AttnRes在“选层”（深度）。两者协同，构成了更完整的选择性信息处理网络。

这个小改动，是怎么撬动整个架构设计偏好的？

论文里的Fig. 7展示了一个颇有启发性的架构搜索实验：在固定总算力和总参数下，枚举25种（宽度-深度配比）和（头数-深度配比）的组合，看Baseline和AttnRes分别偏好什么样的架构。

结果很有意思：Baseline的最优架构偏向“宽而浅”，而AttnRes的最优架构偏向“深而窄”。

这意味着，过去“Transformer不宜太深”的设计经验，有一部分其实是残差连接的“等权求和”造成的假象。一旦给深度方向加上了注意力，让信息提取不再靠蛮力堆积，更深的网络就从“负担”变成了“优势”——多出来的那些层不再是噪声源，而是可供精准检索的知识库。

▲ 原论文 Figure 7。两张热力图分别对应 Baseline 和 AttnRes。横轴是（注意力头数/块数比），纵轴是（宽度/深度比）。颜色越浅 loss 越低。星标显示 Baseline 最优在 y≈60，AttnRes 最优下移到 y≈45（代表更深更窄的网络）。

当然，这篇论文明确说明这是诊断性结论，不是部署建议——更深的网络推理延迟更高，实际落地需要权衡。但它提示了一个方向：如果AttnRes让深度扩展不再是“边际收益递减”的事，那么Transformer架构的深度天花板可能会被重新定义。

注意力权重可视化：模型学会了什么？

这是整篇论文里最“看图说话”的部分。Fig. 8展示了训练完成后，每一层对前面各层的注意力权重分布。

▲ 原论文 Figure 8。上半为 Full AttnRes，下半为 Block AttnRes（N=8）。横轴是源层（被参考的层），纵轴是目标层（发起参考的层）。颜色越亮，权重越大。对角线主导，但出现了几个值得注意的“远距离关注”模式。

几个值得琢磨的现象：

对角线依然最亮——下一层最关注的还是紧挨着的上一层。残差连接的“近邻优先”没有被碘伏，而是被保留并增强。
但某些层学会了“看远不看近”——比如Layer 4持续关注embedding层（Source 0），Layer 15-16在Block AttnRes下有明显的回望早期层的倾向。这些“远距离跳跃”不是任何人事先设定的，而是训练中自动涌现的。
注意力层和MLP层的模式不同——Pre-Attention层对embedding保持持续关注，感受野更宽；Pre-MLP层更聚焦近邻，对角线更尖锐。这和直觉一致：注意力层需要全局路由信息，MLP层更偏向局部特征变换。

理论溯源：“深度-序列对偶”到底在说什么？

论文在Section 6.1谈了一个不常被讨论但很核心的理论视角：深度和序列之间存在形式上的对偶关系。

残差连接在深度上的递推，和RNN在时间上的递推，数学结构是一致的。

关键突破来自Test-Time Training（TTT）的视角：如果把RNN的每一次状态更新理解为对某个内部损失函数做一步梯度下降，那么当损失函数是线性变换时，这个更新恰好等价于线性注意力的加性形式。

残差连接在深度方向上恰好也满足这个结构。

搞懂了这个对偶，很多“为什么”就有答案了。为什么mHC/Hyper-Connections用多流状态增强了残差连接？因为它相当于在深度方向上做了状态扩展，增加了线性注意力在半可分矩阵下的秩。为什么AttnRes比mHC更进一步？因为它把深度方向上的线性注意力推到了softmax注意力——序列端早已完成、而深度端一直搁置的升级。

重新总结这条理论线索：从ResNet到mHC到AttnRes，是深度方向上“均匀聚合 → 线性注意力 → softmax注意力”的演进路径，和序列方向上“RNN → 线性Transformer → 标准Transformer”的路径完美对应。

哪些问题还没解决？论文自己怎么说

论文在结尾和消融实验里，坦诚地标记了当前方案的边界：

Full AttnRes的通信瓶颈：当前硬件下，L×d的跨GPU通信量让Full AttnRes难以直接用于大模型训练。团队建议使用Block AttnRes（N=8）作为实际部署方案，同时指出随互联带宽提升，Full AttnRes的实用性会逐步改善。
位置编码的作用没有统计显著：苏剑林在回忆录里提到，他们尝试过在query-key点积里加入可学习的深度位置偏置，但在当前实验规模下没有带来显著提升。他同时指出，在多模态、多任务等源层数量更多且噪声更高的场景下，位置编码可能重新变得必要。
跨架构的泛化性待验证：当前只在Kimi Linear（混合KDA MLA的MoE架构）上验证了效果。在纯Dense架构、纯SSM架构上的表现如何，还是开放问题。
更深网络的相变行为：实验中的最大层数约54层。如果有几百上千层的超深网络，注意力权重的模式会不会出现新的相变？目前没有答案。

为什么整个社区十年没动残差连接，现在该动了？

标准残差连接是2015年ResNet提出来的。这之后十年，从ResNet到Transformer，从BERT到GPT-4，残差连接始终是标配，很少有人去动它的核心公式。

不是大家没看到问题。PreNorm vs PostNorm的争论持续了很多年，DeepNorm、LayerScale、ReZero、SiameseNorm等变体先后出现，但它们的共同点是：保留“等权求和”的基本范式，在范式内部打补丁。

mHC跨出了实质性的一步——用多流状态和可学习混合矩阵，让残差流不再完全均匀。但它仍然停留在线性注意力的范畴内，没有引入softmax的选择性压力。

AttnRes的意义不在于发明了什么惊人的新东西（层间注意力在文献里早有苗头），而在于它把这条线索推到了逻辑终点：深度方向的信息聚合，不应再是“被动累加”，而应是可学习的、输入相关的、有选择性的。这句话其实也是这篇技术报告最想传达的核心信息——与其在残差连接上继续打补丁，不如换个思路，把深度当成值得认真对待的信息维度来建模。

总之，它揭示了深度方向上的信息聚合还有巨大的优化空间。如果这个方向继续推进下去，我们或许能看到深度、宽度、序列三个维度的注意力机制逐渐统一，那将是Transformer架构的又一次结构性升级。

来源：互联网

上一篇 Harness Engineering：AI智能体系统化架构方法论30篇精选 下一篇 大模型推理速度对比：揭秘秒回与卡顿的隐藏瓶颈

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。