技术资讯

4倍吞吐量实测：三模式大模型如何开启长文本秒级时代？

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

英伟达提出一种三模式大语言模型，可灵活切换自回归、扩散和自推测模式。该模型通过联

大语言模型的生成速度，一直是影响用户体验的关键瓶颈。尤其是在单用户交互场景下，传统的自回归解码方式就像一位字斟句酌的作家，虽然准确，但速度上难免受限。最近，英伟达的一项研究带来了一个颇具碘伏性的思路：为什么非要二选一？他们提出了一个能同时支持三种解码模式的大语言模型系列，仅通过切换注意力模式，就能在速度与精度之间灵活取舍。

这项研究的核心，在于试图统一两大主流生成范式。传统自回归解码的准确性毋庸置疑，但其逐词生成的特性，在低并发场景下无法充分利用GPU的并行计算能力，生成速度容易遇到内存带宽的瓶颈。另一方面，扩散模型天生具备并行生成的优势，能一次性推测多个token，但过去因其在训练时平等对待所有token排列，缺乏语言模型应有的顺序先验，生成质量往往不尽如人意。

首个三模式大语言模型：4倍token吞吐量，长文本秒级时代要来了？

那么，能否打造一个模型，同时吸收两者的长处？英伟达的答案就是构建一个“三模一体”的架构。这个模型无需额外的草稿模型或复杂的架构改动，仅凭自身就能在三种模式间自由切换，其中最快的模式甚至能将token吞吐量提升高达4倍。

如何实现“三位一体”？

关键在于一种创新的训练与推理设计。在训练阶段，模型同时优化自回归损失和扩散损失，这从根本上提升了扩散语言模型的生成质量。为了稳定这一联合训练过程，研究团队采用了两阶段策略，并引入全局损失平均技术，有效缓解了因随机掩码导致的梯度不稳定问题。

经过这般训练，模型在推理时便获得了三种可随时切换的“形态”：

自回归模式：即传统的逐token生成，保留完整的因果注意力，适用于高并发、计算密集的云端任务。
扩散模式：采用分块去噪策略，利用双流注意力机制在块内并行推测大量token。为了最大化并行效率，团队还专门训练了一个轻量级采样器来替代传统方法。
自推测模式：这是对传统推测解码的革新。它不再需要额外的小模型来起草文本，而是让模型自己扮演“起草者”和“验证者”的双重角色，利用扩散模式并行起草多个token，再用自回归模式进行验证，从而在单模型内实现高效的自我博弈。

性能表现如何？

研究团队发布了3B、8B、14B三个尺寸的基座模型。测试结果显示，新模型在保持与Qwen3-8B基线相当的自回归准确率的同时，在前向传播中平均每次能处理5.9个token。

更重要的是，其效率提升在实际部署中非常显著。以8B模型在单用户场景下的测试为例：

在DGX Spark上，FP8精度下提速3.14倍，INT4精度下提速2.7倍。
在RTX 6000 Pro上，FP8精度下提速3.4倍。
在GB200上，可提速3.3倍；若配合定制CUDA内核，最高可实现4倍加速。

在SPEED-Bench综合基准测试中，其线性自推测机制实现了平均8.7的接受长度，远超其他同类方法。这充分证明了其在数学、代码、推理等多类任务上的高效性。

灵活适配不同场景

这种三模式设计的妙处在于其灵活性。在低至中等并发度（如个人AI助手）下，自推测模式凭借其高效率占据主导。而当面对大批量处理任务（并发流超过64个）时，计算本身成为瓶颈，此时只需将注意力掩码切换回纯自回归模式即可。这意味着，一个模型就能通吃从交互式应用到大规模批量处理的各种部署场景。

技术细节与未来展望

研究也公布了详细的训练配方：从已有的基座模型出发，先进行1万亿token的自回归持续预训练，再进行3000亿token的联合训练，最后进行有监督微调和对齐。关键技术包括全局损失平均、严格因果干净流以防止信息泄漏，以及使用LoRA增强起草器来改进自我推测。

这项研究为大模型架构的演进指出了一个新方向：或许不必纠结于选择自回归还是扩散路径，将二者深度融合在同一套Transformer框架内，才是更优解。论文最后指出了一个更令人兴奋的可能性：如果未来能开发出更完美的扩散采样器，扩散模式的理论性能上限比现有的自推测模式还要再高出76.5%。这暗示着扩散大语言模型仍蕴藏着巨大潜力，长文本“秒级生成”的时代，或许真的不远了。

来源：互联网

上一篇 DeepSeek Code融资700亿：ACM金牌崔添翼领衔的AI编程革命 下一篇 2024年企业AI转型指南：如何将旧系统升级为智能能力库

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

4倍吞吐量实测：三模式大模型如何开启长文本秒级时代？

摘要

如何实现“三位一体”？

性能表现如何？

灵活适配不同场景

技术细节与未来展望

相关文章推荐