辅助资源 AI模型开源AI

最强端侧开源 AI模型 Zamba2-mini 登场：12 亿参数，4bit 量化下内存占用小于 700MB

2026-05-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

最强端侧开源 AI模型 Zamba2-mini 登场：12 亿参数，4bit 量化下内存占用小于 700MB 近日，AI领域

近日，AI领域有个新动静值得关注。Zyphra公司在8月27日正式发布了Zamba2-mini 1.2B模型。别看它名字里带着“mini”，实力可不容小觑——它仅有12亿参数，但在4bit量化下，内存占用能稳稳地压在700MB以内，团队将其定位为当前端侧设备的“SOTA”小语言模型。

这里简单科普一下，SOTA是“state-of-the-art”的缩写，它并非某个具体型号，而是指在特定研究任务中，目前性能最好、技术最前沿的那个模型。

最强端侧开源 AI模型 Zamba2-mini 登场：12 亿参数，4bit 量化下内存占用小于 700MB

那么，这个“小身材”到底有多大能量？从公布的数据看，Zamba2-mini虽然尺寸紧凑，但其性能足以媲美一众参数更大的知名模型，例如谷歌的Gemma-2B、Huggingface的SmolLM-1.7B、苹果的OpenELM-1.1B以及微软的Phi-1.5。

尤其在推理任务中，它的优势更为突出。与Phi3-3.8B这类模型对比，Zamba2-mini的“首次令牌时间”（即从用户输入到模型给出第一个响应的延迟）直接缩短了一半。与此同时，内存占用还减少了27%，这对于追求实时响应和有限资源的端侧场景来说，无疑是关键性提升。

能达到这样的效果，核心在于其高度优化的模型架构。Zamba2-mini巧妙地融合了多种神经网络设计的优点，最终达成一个平衡：既能保持像大型密集变压器那样高质量的文本生成能力，又能以更小模型的计算和内存效率来运行。

与它的前代Zamba1相比，一个关键进步是引入了两个共享注意力层。这种双层设计增强了模型在不同网络深度处理和信息保持的能力，从而整体拉高了性能。此外，在共享注意力层中加入旋转位置嵌入，也被证实带来了小幅的性能提升。这些细节优化，恰恰体现了团队在模型设计上那种持续精进、追求实效的思路。

当然，优秀的架构离不开高质量数据的喂养。Zamba2-mini是在一个规模高达三万亿token的庞大数据集上进行预训练的，数据来源包括Zyda及其他公开渠道。

最强端侧开源 AI模型 Zamba2-mini 登场：12 亿参数，4bit 量化下内存占用小于 700MB

这个数据集经过了极为严格的过滤和去重处理，以确保训练素材的质量。在后续的退火阶段，模型还在额外1000亿个极高品质的token上进行了精调，进一步打磨了其能力。

最后，还有一个对开发者社区非常利好的消息：Zyphra已承诺，Zamba2-mini将在Apache 2.0许可下开源。这意味着更多的开发者和企业能够自由地使用、研究和改进它，有望进一步推动端侧AI应用的创新与普及。

Zyphra Unveils Zamba2-mini: A State-of-the-Art Small Language Model Redefining On-Device AI with Unmatched Efficiency and Performance
Model Card for Zamba2-1.2B
Zamba2-mini (1.2B)

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。