最强端侧开源 AI模型 Zamba2-mini 登场:12 亿参数,4bit 量化下内存占用小于 700MB
摘要
最强端侧开源 AI模型 Zamba2-mini 登场:12 亿参数,4bit 量化下内存占用小于 700MB 近日,AI领域
最强端侧开源 AI模型 Zamba2-mini 登场:12 亿参数,4bit 量化下内存占用小于 700MB
近日,AI领域有个新动静值得关注。Zyphra公司在8月27日正式发布了Zamba2-mini 1.2B模型。别看它名字里带着“mini”,实力可不容小觑——它仅有12亿参数,但在4bit量化下,内存占用能稳稳地压在700MB以内,团队将其定位为当前端侧设备的“SOTA”小语言模型。
这里简单科普一下,SOTA是“state-of-the-art”的缩写,它并非某个具体型号,而是指在特定研究任务中,目前性能最好、技术最前沿的那个模型。

那么,这个“小身材”到底有多大能量?从公布的数据看,Zamba2-mini虽然尺寸紧凑,但其性能足以媲美一众参数更大的知名模型,例如谷歌的Gemma-2B、Huggingface的SmolLM-1.7B、苹果的OpenELM-1.1B以及微软的Phi-1.5。
尤其在推理任务中,它的优势更为突出。与Phi3-3.8B这类模型对比,Zamba2-mini的“首次令牌时间”(即从用户输入到模型给出第一个响应的延迟)直接缩短了一半。与此同时,内存占用还减少了27%,这对于追求实时响应和有限资源的端侧场景来说,无疑是关键性提升。
能达到这样的效果,核心在于其高度优化的模型架构。Zamba2-mini巧妙地融合了多种神经网络设计的优点,最终达成一个平衡:既能保持像大型密集变压器那样高质量的文本生成能力,又能以更小模型的计算和内存效率来运行。
与它的前代Zamba1相比,一个关键进步是引入了两个共享注意力层。这种双层设计增强了模型在不同网络深度处理和信息保持的能力,从而整体拉高了性能。此外,在共享注意力层中加入旋转位置嵌入,也被证实带来了小幅的性能提升。这些细节优化,恰恰体现了团队在模型设计上那种持续精进、追求实效的思路。
当然,优秀的架构离不开高质量数据的喂养。Zamba2-mini是在一个规模高达三万亿token的庞大数据集上进行预训练的,数据来源包括Zyda及其他公开渠道。

这个数据集经过了极为严格的过滤和去重处理,以确保训练素材的质量。在后续的退火阶段,模型还在额外1000亿个极高品质的token上进行了精调,进一步打磨了其能力。
最后,还有一个对开发者社区非常利好的消息:Zyphra已承诺,Zamba2-mini将在Apache 2.0许可下开源。这意味着更多的开发者和企业能够自由地使用、研究和改进它,有望进一步推动端侧AI应用的创新与普及。
附上参考地址
- Zyphra Unveils Zamba2-mini: A State-of-the-Art Small Language Model Redefining On-Device AI with Unmatched Efficiency and Performance
- Model Card for Zamba2-1.2B
- Zamba2-mini (1.2B)
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。