菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 腾讯混元Stem稀疏注意力算法,首字延迟降低3.6倍
其他资讯 腾讯 混元 首字延迟降低3.6倍

腾讯混元Stem稀疏注意力算法,首字延迟降低3.6倍

2026-06-06
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

腾讯混元提出Stem稀疏注意力算法,被机器学习顶会ICML-26接收。通过Token位置衰减与输出感

腾讯混元团队日前在注意力机制优化领域取得重要进展——其提出的 Stem 稀疏注意力算法已被机器学习顶会 ICML-26 接收。该方案从因果信息流角度重新审视块级稀疏机制,核心目标是用更低的计算成本逼近稠密注意力的准确度。

腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

官方披露两项核心突破:Token 位置衰减(TPD)与输出感知度量(OAM)。两项创新看似抽象,实际效果扎实——仅需 25% 的算力即可达到与稠密注意力几乎一致的精度。这意味着大语言模型在推理阶段的成本可大幅削减,且输出质量基本不变。

▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据

理论加速比的最终落地依赖坚实的工程实现。混元团队同步开发了高性能 HPC 算子库,将稀疏增益转化为硬件实测性能。在 Stem 算法与 HPC 算子构成的全栈加速方案中:算法层面,TPD 和 OAM 在 25% 预算下实现近无损精度;算子层面,开源 Stem+BSA 算子将稀疏收益变现为真实硬件加速——128K 上下文场景下首字延迟降低 3.6 倍。这一数字在生产环境中带来的体验提升极为显著。

▲ 模型精度

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多