其他资讯腾讯混元首字延迟降低3.6倍

腾讯混元Stem稀疏注意力算法，首字延迟降低3.6倍

2026-06-06

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

腾讯混元提出Stem稀疏注意力算法，被机器学习顶会ICML-26接收。通过Token位置衰减与输出感

腾讯混元团队日前在注意力机制优化领域取得重要进展——其提出的 Stem 稀疏注意力算法已被机器学习顶会 ICML-26 接收。该方案从因果信息流角度重新审视块级稀疏机制，核心目标是用更低的计算成本逼近稠密注意力的准确度。

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

官方披露两项核心突破：Token 位置衰减（TPD）与输出感知度量（OAM）。两项创新看似抽象，实际效果扎实——仅需 25% 的算力即可达到与稠密注意力几乎一致的精度。这意味着大语言模型在推理阶段的成本可大幅削减，且输出质量基本不变。

▲ Stem 在 Hy3 preview（W8A8-FP8）上更贴近生产环境的真实落地数据

理论加速比的最终落地依赖坚实的工程实现。混元团队同步开发了高性能 HPC 算子库，将稀疏增益转化为硬件实测性能。在 Stem 算法与 HPC 算子构成的全栈加速方案中：算法层面，TPD 和 OAM 在 25% 预算下实现近无损精度；算子层面，开源 Stem+BSA 算子将稀疏收益变现为真实硬件加速——128K 上下文场景下首字延迟降低 3.6 倍。这一数字在生产环境中带来的体验提升极为显著。

▲ 模型精度

来源：互联网

上一篇 苹果iMessage首个AI智能体获批，发短信控家居回邮件 下一篇 腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

腾讯混元Stem稀疏注意力算法，首字延迟降低3.6倍

摘要

相关文章推荐