其他资讯
人工智能
腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍
摘要
腾讯混元提出Stem稀疏注意力算法,被ICML-2026收录。该算法通过Token位置衰减和输出感知度量
一个值得关注的进展:腾讯混元团队提出的Stem稀疏注意力算法,已被顶会ICML-26(即2026年会议)正式接收。其核心是一套“算法+算子”全栈优化方案,显著降低了大模型推理的首字延迟。官方数据显示,在128K上下文长度下,首字延迟降低3.7倍。
从算法层面拆解,Stem包含两项关键技术。第一是Token位置衰减(TPD),让距离当前位置较远的Token对注意力计算的影响逐步衰减,本质上是通过“距离”换取计算资源的节省。第二是输出感知度量(OAM),能够动态判断哪些注意力计算对最终输出贡献更大,从而优先保留高价值的注意力路径。两者结合,模型在使用仅25%计算预算的情况下,仍能保持近乎无损的精度——这不是实验室级别的“凑合”,而是可以投入生产环境的“高效节能模式”。
算法再精,落地才是硬道理。另一个亮点在算子层:HPC开源的Stem+BSA算子,将稀疏注意力的理论收益转化为真实的硬件加速。换句话说,关键不是理论上省了多少计算量,而是显卡实际运行时的提速效果。从结果看,这种协同优化确实有效——3.7倍的首字延迟降低,就是最直接的证据。
对于需要处理超长上下文(如128K)的落地场景,这一提升意味着对话响应更迅速、文档分析更流畅。当然,算法的泛化能力以及在不同硬件上的适配效果仍需更多验证,但至少方向正确。

来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。