菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍
其他资讯 人工智能

腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍

2026-06-06
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

腾讯混元提出Stem稀疏注意力算法,被ICML-2026收录。该算法通过Token位置衰减和输出感知度量

一个值得关注的进展:腾讯混元团队提出的Stem稀疏注意力算法,已被顶会ICML-26(即2026年会议)正式接收。其核心是一套“算法+算子”全栈优化方案,显著降低了大模型推理的首字延迟。官方数据显示,在128K上下文长度下,首字延迟降低3.7倍。

从算法层面拆解,Stem包含两项关键技术。第一是Token位置衰减(TPD),让距离当前位置较远的Token对注意力计算的影响逐步衰减,本质上是通过“距离”换取计算资源的节省。第二是输出感知度量(OAM),能够动态判断哪些注意力计算对最终输出贡献更大,从而优先保留高价值的注意力路径。两者结合,模型在使用仅25%计算预算的情况下,仍能保持近乎无损的精度——这不是实验室级别的“凑合”,而是可以投入生产环境的“高效节能模式”。

算法再精,落地才是硬道理。另一个亮点在算子层:HPC开源的Stem+BSA算子,将稀疏注意力的理论收益转化为真实的硬件加速。换句话说,关键不是理论上省了多少计算量,而是显卡实际运行时的提速效果。从结果看,这种协同优化确实有效——3.7倍的首字延迟降低,就是最直接的证据。

对于需要处理超长上下文(如128K)的落地场景,这一提升意味着对话响应更迅速、文档分析更流畅。当然,算法的泛化能力以及在不同硬件上的适配效果仍需更多验证,但至少方向正确。

腾讯混元提出Stem稀疏注意力算法 首字延迟降低3.6倍

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多