Gemma 4性能评测:MTP草稿模型实现3倍推理加速
摘要
谷歌为杰玛四系列推出多令牌预测草稿模型,采用推测性解码架构,在不牺牲输出质量前提
Google 为 Gemma 4 系列推出基于多 Token 预测(MTP)的草稿模型。借助推测性解码专用架构,在输出质量和推理逻辑完全对齐的前提下,推理速度最高提升 3 倍。这项技术直接针对标准大语言模型推理中内存带宽瓶颈这一根本问题,对消费级硬件部署尤为关键。
上月发布的 Gemma 4 是目前最强的开放模型,数周内全球下载量超 6000 万次,在开发者工作站、移动设备和云环境中树立了“单位参数智能”新标杆。如今,能效提升再迈一大步。
今天正式面向 Gemma 4 系列推出多 Token 预测(MTP)草稿模型。借助专用推测性解码架构,这些轻量草稿模型在不牺牲输出质量与推理逻辑的前提下,推理速度提升高达 3 倍。
△ 每秒 Token 生成速度提升数据,基于 LiteRT-LM、MLX、Hugging Face Transformers 及 vLLM 在多种硬件上的实测结果。
技术原理:将 Token 生成与验证解耦
标准大语言模型推理的瓶颈本质上来自内存带宽。处理器需花费大量时间将数十亿参数从显存搬至计算单元,仅能生成一个 Token——这一延迟瓶颈在消费级硬件上尤为突出,算力未得到高效利用。
推测性解码的核心思路在于将 Token 生成与验证解耦。具体实现:将大型目标模型(如 Gemma 4 31B)与轻量草稿模型(MTP 模型)配对,草稿模型在目标模型处理一个 Token 的时间内,一次性预测多个未来 Token。随后目标模型并行验证所有建议 Token——类似助手先写草稿,专家快速审阅。
标准大语言模型以自回归方式逐 Token 生成文本,一次仅产出 1 个 Token。这引发一个典型效率问题:预测显而易见的后续内容(如 "Actions speak louder than…" 之后跟 "words")与解答复杂逻辑难题,计算量完全相同——经济性极差。
MTP 通过推测性解码缓解此低效。该技术由 Google 研究人员在《Fast Inference from Transformers via Speculative Decoding》中提出。若目标模型认同草稿序列,单次前向传播即可接受整个序列并额外生成一个 Token。这意味着,应用在以往仅能生成一个 Token 的时间内,现在可输出完整草稿序列外加一个额外 Token。
《Fast Inference from Transformers via Speculative Decoding》
对开发者意味着什么?
对开发者来说,推理速度通常是生产部署的第一道瓶颈。无论是构建编码助手、需要快速多步规划的自主智能体,还是纯设备端即时响应的移动应用——每一毫秒都直接影响体验。
将 Gemma 4 及其草稿模型配合使用,开发者可获得以下能力:
更快的响应体验:大幅降低近乎实时对话、沉浸式语音应用及智能体工作流的延迟。
本地开发效能飞跃:在 PC 与消费级 GPU 上以前所未有的速度运行 26B MoE 和 31B Dense 模型,为流畅复杂的离线编程与智能体工作流提供强力支撑。
设备端性能强化:通过提速输出生成,最大化 E2B 和 E4B 模型在边缘设备上的实用性,并有效延长电池续航。
无损质量:最终验证由主模型 Gemma 4 掌握,故你能获得完全一致的行业前沿推理能力与准确率,同时输出速度大幅提升。
△ Gemma 4 26B 在 NVIDIA RTX PRO 6000 上的实测数据:标准推理模式(左)与 MTP 草稿模型模式(右)的每秒 Token 数对比。输出质量完全一致,响应延迟减半。
底层优化:架构级改进
为实现极致速度与准确率,我们在底层架构中引入多项改进。草稿模型可无缝利用目标模型的激活状态并共享其 KV 缓存,无需重新计算大模型已处理的上下文。针对最终 Logit 计算瓶颈严重的 E2B 和 E4B 边缘模型,我们在嵌入层中实现了高效聚类技术,进一步加速文本生成。
同时,我们对特定硬件进行了细致优化分析。例如,26B 混合专家模型(MoE)在 Apple Silicon 上单批次运行时面临独特路由调度挑战,但并行处理多个请求(批次大小 4-8)可在本地解锁约 2.2 倍加速。在 Nvidia A100 上增大批次时也观察到类似效果。
详细运行机制可参阅同步发布的技术解析,其中剖析了支撑草稿模型的可视化架构、KV 缓存共享及高效嵌入层技术。
开放与可用性
Gemma 4 系列的 MTP 草稿模型已正式发布,采用与 Gemma 4 相同的 Apache 2.0 开源许可。查阅技术文档了解如何将 MTP 与 Gemma 4 配合使用。现在即可从 Hugging Face 和 Kaggle 下载模型权重,通过 Transformers、MLX、VLLM、SGLang 及 Ollama 体验快速推理,或直接在面向 Android 与 iOS 的 Google AI Edge Gallery 中试用。
期待这一性能飞跃能助力你在 Gemma 生态中开启下一个创新篇章。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。