其他资讯人工智能

腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍

2026-06-06

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

腾讯混元提出Stem稀疏注意力算法，被ICML-2026收录。该算法通过Token位置衰减和输出感知度量

一个值得关注的进展：腾讯混元团队提出的Stem稀疏注意力算法，已被顶会ICML-26（即2026年会议）正式接收。其核心是一套“算法+算子”全栈优化方案，显著降低了大模型推理的首字延迟。官方数据显示，在128K上下文长度下，首字延迟降低3.7倍。

从算法层面拆解，Stem包含两项关键技术。第一是Token位置衰减（TPD），让距离当前位置较远的Token对注意力计算的影响逐步衰减，本质上是通过“距离”换取计算资源的节省。第二是输出感知度量（OAM），能够动态判断哪些注意力计算对最终输出贡献更大，从而优先保留高价值的注意力路径。两者结合，模型在使用仅25%计算预算的情况下，仍能保持近乎无损的精度——这不是实验室级别的“凑合”，而是可以投入生产环境的“高效节能模式”。

算法再精，落地才是硬道理。另一个亮点在算子层：HPC开源的Stem+BSA算子，将稀疏注意力的理论收益转化为真实的硬件加速。换句话说，关键不是理论上省了多少计算量，而是显卡实际运行时的提速效果。从结果看，这种协同优化确实有效——3.7倍的首字延迟降低，就是最直接的证据。

对于需要处理超长上下文（如128K）的落地场景，这一提升意味着对话响应更迅速、文档分析更流畅。当然，算法的泛化能力以及在不同硬件上的适配效果仍需更多验证，但至少方向正确。

腾讯混元提出Stem稀疏注意力算法首字延迟降低3.6倍

来源：互联网

上一篇 腾讯混元Stem稀疏注意力算法，首字延迟降低3.6倍 下一篇 DeepSeek夺趋势榜冠军，破解美企AI高价难题

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍

摘要

相关文章推荐