菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 小米大模型降价99%秘籍公开 罗福莉划重点
其他资讯 小米 罗福莉划重点

小米大模型降价99%秘籍公开 罗福莉划重点

2026-06-01
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

核心要点梳理如下。6月1日披露的报道,源于5月30日小米的一次公开动作——小米首次对外

核心要点梳理如下。6月1日披露的报道,源于5月30日小米的一次公开动作——小米首次对外公开了MiMo-V2.5系列API永久降价99%的底层技术方案。据其官方技术博客所述,这同时也是业内首篇系统阐述Hybrid SWA+MoE+多模态组合架构大规模工程落地的完整方案。

降价的核心驱动力,来自小米MiMo大模型团队围绕Hybrid SWA+MoE+多模态复合架构执行的一系列系统性工程重构。从KV Cache管理、分级缓存、前缀缓存,到调度策略以及Prefill/Decode全链路,整个推理栈几乎被彻底再造。最终成效显著:KV Cache存储压缩至同类方案的约1/7,长序列场景下推理成本实现大幅削减。

5月30日,小米MiMo大模型负责人罗福莉在X平台发文介绍了该技术论文,并透露了关键指标:经实际生产流量验证,这些优化使有效KV Cache容量提升了近5倍,主流测试框架下的服务端缓存命中率平均达到93%~95%。配合MoE配置调优与多模态推理优化,这些举措最终实现了更高效的长上下文推理,这也是近期小米MiMo API降价的直接动因之一。

小米发布的这篇技术博客,标题为《MiMo-V2.5系列推理全链路优化:将Hybrid SWA效率推向极致》,实质上是对上周其API永久降价及TokenPlan计费体系优化等一系列动作的最新回应。

回溯时间线至5月27日,小米官宣MiMo-V2.5系列API永久降价,同步优化的TokenPlan计费体系使用户用量直接提升至原来的5~8倍。小米MiMo的定价策略几乎与DeepSeek对标。更新价格后,MiMo-V2.5输入缓存命中价格降至0.02元/百万tokens,未命中输入为1元/百万tokens,输出价格为2元/百万tokens;MiMo-V2.5-Pro则分别为0.025元、3元和6元。

同一天,罗福莉在社交平台X上提前预告了技术报告即将发布,并划出重点。她指出,输入(缓存命中)部分降幅高达99%,根本原因在于其推理框架现在支持SWA的KVCache优化;输入(缓存未命中)和输出价格降低60%~80%,则归因于Hybrid SWA架构中,SWA层占比高达6/7,其计算量约为Full Attention的1/7。更值得关注的是,在API大幅降价的同时,小米仍能基本实现收支平衡。

一、MiMo-V2.5核心架构:计算量压缩至全注意力的1/7

小米在技术博客中详细阐述了MiMo-V2.5系列模型推理效率的提升,是多个维度协同优化的结果。这不是单点突破,而是一套完整的组合策略。

其核心架构为Hybrid SWA+MoE+多模态,并在此基础上系统性地重构了KV Cache管理、分级缓存、前缀缓存树,优化了调度策略以及Prefill/Decode的完整链路。这些技术理论上的效率优势,最终被切实兑现到生产环境中。

小米研究人员之所以选择Hybrid SWA+MoE+多模态架构,原因明确:MiMo-V2.5的初始目标,就是训练出一个在长文推理场景下既足够强大、又足够高效的模型。

传统的全局注意力(Full Attention)架构显然无法兼顾这两者。Hybrid SWA的核心思想,是在局部窗口注意力(SWA)与全局注意力之间进行分层混合:绝大多数层只关注局部窗口内的注意力,仅少量关键层保留全局视野。理论上,这种结构能将Attention的计算复杂度压低至接近线性,同时依然保持对长程依赖关系的建模能力。从理论到实际,中间的差距在于工程实现。

但要将Hybrid SWA架构的推理效率优势真正释放,还必须对调度策略、Prefill/Decode执行链路、多模态以及MoE架构进行全链路优化。以MiMo-V2.5-Pro为例,该模型共有70层,其中10层为Full Attention,60层为SWA,SWA的滑动窗口大小为128。与Full Attention相比,Hybrid SWA架构中SWA层占比为6/7,因此其计算量约为Full Attention的1/7。

此外,由于SWA层只需保留滑动窗口内的KV,无需存储全序列,因此KVCache占用同样下降至接近1/7。在长序列场景下,KV Cache的体积可能远超模型参数,所以KV Cache存储的减少,几乎直接等价于长序列场景下decode成本的降低。

技术博客还横向对比了不同国产模型的KV Cache大小。由于不同模型的架构和访存模式均有差异,团队进行了估算。结果显示,MiMo-V2.5-Pro和MiMo-V2.5在KV Cache大小上位列国产模型第二,仅次于DeepSeek-V4-Pro和Flash。

当然,由于存在与序列长度无关的固定计算与访存开销,实际成本差异并不严格等价于KV Cache规模比例。但在长上下文场景下,整体趋势一致:短文场景下性价比接近,序列越长,推理成本优势越明显。

二、罗福莉提前发帖划重点:API价格下调仍能维持收支平衡

5月27日小米官宣降价时,罗福莉在社交平台X上发布帖子,为MiMo API的降价原因划出了重点。

降幅最大的部分是输入(缓存命中),高达99%。其根本原因是推理框架现在支持SWA的分层键值缓存优化。生产环境下的推理引擎测试表明,这项优化可以将缓存token容量提升5倍,相当于缓存成本降低80%。再结合混合模型中多个全注意力模块之间的缓存读取重叠,实际成本进一步压缩。

而输入(缓存未命中)和输出价格降低60%~80%,则源于SWA的稀疏度比。以70层的MiMo-V2.5-Pro为例,其预填充计算量大致相当于10层GQA模型。这使得其初始推理成本远低于行业平均水平,带来2~3倍的定价利润空间。

她提到,在API价格大幅下调的情况下,小米的生产推理引擎几乎满负荷运转,基本能够实现收支平衡。此前他们曾建议大模型公司不要“盲目降价”,因为极少有模型架构和推理优化方案能保证API成本不亏损。如果能出现更多节省计算资源和KV Cache的架构,以及进一步降低API成本的更完善的推理基础设施,将形成行业内的良性循环。

更关键的是,经济实惠且高性能的模型API,将推动真正、持续且大规模的推理需求。这种上游需求的增长,会带动整个AI基础设施链的发展。

三、KV Cache系统重构:提升模型实际命中率

为使SWA真正可用,研究人员对KV Cache进行了系统性重构。此前的临时方案,均未能让推理系统真正“理解”Hybrid SWA的存储特性。

Hybrid SWA带来的核心存储矛盾很直接:Full Attention层需要保留全序列KV(O(N)),而SWA层只需维护滑动窗口内的KV(O(W))。在传统的单一KV pool设计下,系统只能按O(N)为所有层统一分配显存,SWA的窗口稀疏性完全无法被利用,实际存储效率退化为类似Full KV Cache的实现。

针对这一问题,团队采用了“双池分治、前缀缓存树重构、GCache三级缓存”的综合优化方案。

分池优化的思路很直接:将KV Cache拆分为Full Attention与SWA两个独立池,并在系统层进行统一抽象。这使得SWA KV Cache在系统层面实现了严格的O(W)存储约束,整体KV Cache容量效率提升约7倍。目前,主流推理框架也都采用了类似的实现方案。

SWA-aware前缀缓存树优化则更为精细,包括匹配规则升级为“窗口安全长度”、淘汰路径与请求生命周期绑定、节点同时承载两套索引。SWA将KV体积压到1/7是容量层面的收益,而命中率则是复用层面的收益,两者相乘才是prefill阶段实际的计算成本曲线。引入“窗口安全长度”匹配规则后,同样token容量的KV Cache命中率理论上会小幅下降,但同样存储容量下的token数量却达到数倍,实际命中率因此大幅提升。

GCache是小米存储团队开发的高性能通用缓存,也是构建“训推一体”体系的重要一环。它是一个同时支持GPU显存、CPU内存和NVMe SSD的高性能分布式缓存系统。在存储成本方面,GCache优先采用与GPU机器混布的方式,接管了Prefill和Decode节点的部分内存和机器自带的NVMe SSD,额外存储成本为0。

得益于这一系列优化,研究人员观测到,在优质harness框架下,服务端KV Cache命中率平均可达93%;对于高强度、长周期使用的个人用户,这一指标甚至可以达到95%乃至更高。

四、调度优化:L2缓存命中率提升25%,单机输入吞吐提升30%

在调度优化方面,小米希望通过匹配调度和计算链路,让省出来的显存空间和算力余量真正发挥作用。

为此,小米开发了可动态扩展的无状态调度器LLM-Router。它使用Redis作为中心化存储,有效避免了单服务故障后的KV Cache调度回退现象,稳定保证了缓存命中率。

首先是KV Cache与负载亲和调度。由于HiCache对L2的命中率非常敏感,如果L2未命中,需要去L3查找并拉取KV Cache,等待拉取结束后才能对该请求进行推理。Router通过将分发过的请求维护在Radix前缀树中,实现了KV Cache亲和调度。它会在多个Prefill实例间,优先选择已经缓存了当前请求前缀的节点,并同时兼顾负载均衡以避免热点倾斜。

该策略上线后,L2的缓存命中率提升约25%,单机输入吞吐提升约30%。同时,团队引入了计算量感知的优先调度,优先处理真实计算token数更少的请求,辅以等待时间惩罚机制来避免饥饿,最终使TTFT P90降低了30%。

其次是Prefill链路本身的计算效率。早期SWA KV Cache需要保存所有token的KV Cache,导致EP(Expert Parallelism)被迫偏大;优化后仅需保存SWA部分的token,研究人员将EP缩减至原先的1/2,端到端性能提升约40%。

为缓解负载不均衡问题,研究人员还采用了三级长度分桶策略(0–64K / 64K–256K / 256K–1M),将负载特征相近的请求聚合到同一桶内计算,显著提升了线上prefill的平均吞吐。

MiMo-V2.5系列模型全部采用MoE架构,这意味着还需考虑prefill阶段的专家负载均衡问题。由于该模型在预训练阶段就引入了负载均衡的训练目标,且训练过程比较稳定,模型在训练时已经学习到了较为均匀的专家分配策略。

因此在推理阶段,即使未启用任何专家负载均衡策略,各层平均专家负载度(一层中所有rank的平均token数与该层rank最大token数之比)也达到了约0.85,属于较优的分布水平。

五、Decode优化:显存+MTP双管齐下,KVCache有效容量提升近5倍

Decode阶段的核心瓶颈,通常是显存被KV Cache占满导致batch size无法扩展,GPU算力打不满。针对这一问题,小米进行了显存优化和MTP(Multi-Token Prediction)优化。

显存优化包含几个方面:Decode KV Cache完整支持SWA,使KV Cache有效容量提升近5倍;PD分离中的KV Cache预分配优化,将尚未启动的请求的prealloc过程从GPU显存迁移至CPU内存,decode实际启动时才搬入显存,消除了资源预占造成的浪费;CUDA Graph显存调优,通过优化CUDA Graph参数减少空间浪费,进一步提升了可用显存。

MiMo-V2.5系列模型原生支持3层MTP来加速decode输出。团队还在prefill阶段引入了MTP支持,并对HiCache L2/L3进行了专项适配和优化。这使得decode前期的MTP加速效果更加显著:第0–128 token的加速比达到2.3倍,第128–256 token的加速比达到1.5倍,大幅降低了智能体场景下的真实decode成本。

六、多模态推理优化:Encoder吞吐提升至2倍

最后是多模态推理优化。MiMo-V2.5系列支持视觉、音频、视频的跨模态理解,这一块的工程挑战同样不小。

基于SGLang社区v0.5.7的EPD方案,小米研究人员围绕MiMo-V2.5做了大量EPD分离方面的工程优化与稳定性修复。最终,在不增加延时的情况下,Encoder吞吐成功提升至2倍。

具体优化包括:Encoder支持跨请求组Batch,多个请求的image/audio融合为一次Forward后再按请求切分返回;图片预处理迁移至GPU,消除大图场景下的CPU瓶颈;视频解码切分为多chunk多线程并行处理,1小时视频的端到端延时从156秒降至23秒;通过一致性哈希和机内共享内存实现Embedding缓存共享,整体Encoder吞吐提升至2倍。

结语:全链路技术优化或驱动大模型API降价潮

小米MiMo-V2.5系列API最高降幅达到99%,其核心支撑正是Hybrid SWA+MoE复合架构与全链路推理栈优化。这不仅是单一的技术优化,更是首次实现了系统性的推理链路优化。值得注意的是,DeepSeek此前已将V4-Pro永久降价75%,小米五天后跟进的这波MiMo-V2.5最高降99%,直接全面对标了头部玩家的价格体系。

这一轮由技术驱动而非单纯烧钱打法的价格战,很可能倒逼全行业重新思考定价体系。API服务正在加速转向普惠算力基础设施的角色,而这恰恰是AI实现大规模产业化的一个关键前提——把成本障碍扫清,让应用跑起来。这才是真正值得关注的行业趋势。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多