其他资讯
腾讯
混元
首字延迟降低3.6倍
腾讯混元Stem稀疏注意力算法,首字延迟降低3.6倍
摘要
腾讯混元提出Stem稀疏注意力算法,被机器学习顶会ICML-26接收。通过Token位置衰减与输出感
腾讯混元团队日前在注意力机制优化领域取得重要进展——其提出的 Stem 稀疏注意力算法已被机器学习顶会 ICML-26 接收。该方案从因果信息流角度重新审视块级稀疏机制,核心目标是用更低的计算成本逼近稠密注意力的准确度。

官方披露两项核心突破:Token 位置衰减(TPD)与输出感知度量(OAM)。两项创新看似抽象,实际效果扎实——仅需 25% 的算力即可达到与稠密注意力几乎一致的精度。这意味着大语言模型在推理阶段的成本可大幅削减,且输出质量基本不变。
理论加速比的最终落地依赖坚实的工程实现。混元团队同步开发了高性能 HPC 算子库,将稀疏增益转化为硬件实测性能。在 Stem 算法与 HPC 算子构成的全栈加速方案中:算法层面,TPD 和 OAM 在 25% 预算下实现近无损精度;算子层面,开源 Stem+BSA 算子将稀疏收益变现为真实硬件加速——128K 上下文场景下首字延迟降低 3.6 倍。这一数字在生产环境中带来的体验提升极为显著。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。