其他资讯小米罗福莉划重点

小米大模型降价99%秘籍公开罗福莉划重点

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

核心要点梳理如下。6月1日披露的报道，源于5月30日小米的一次公开动作——小米首次对外

核心要点梳理如下。6月1日披露的报道，源于5月30日小米的一次公开动作——小米首次对外公开了MiMo-V2.5系列API永久降价99%的底层技术方案。据其官方技术博客所述，这同时也是业内首篇系统阐述Hybrid SWA+MoE+多模态组合架构大规模工程落地的完整方案。

降价的核心驱动力，来自小米MiMo大模型团队围绕Hybrid SWA+MoE+多模态复合架构执行的一系列系统性工程重构。从KV Cache管理、分级缓存、前缀缓存，到调度策略以及Prefill/Decode全链路，整个推理栈几乎被彻底再造。最终成效显著：KV Cache存储压缩至同类方案的约1/7，长序列场景下推理成本实现大幅削减。

5月30日，小米MiMo大模型负责人罗福莉在X平台发文介绍了该技术论文，并透露了关键指标：经实际生产流量验证，这些优化使有效KV Cache容量提升了近5倍，主流测试框架下的服务端缓存命中率平均达到93%～95%。配合MoE配置调优与多模态推理优化，这些举措最终实现了更高效的长上下文推理，这也是近期小米MiMo API降价的直接动因之一。

小米发布的这篇技术博客，标题为《MiMo-V2.5系列推理全链路优化：将Hybrid SWA效率推向极致》，实质上是对上周其API永久降价及TokenPlan计费体系优化等一系列动作的最新回应。

回溯时间线至5月27日，小米官宣MiMo-V2.5系列API永久降价，同步优化的TokenPlan计费体系使用户用量直接提升至原来的5～8倍。小米MiMo的定价策略几乎与DeepSeek对标。更新价格后，MiMo-V2.5输入缓存命中价格降至0.02元/百万tokens，未命中输入为1元/百万tokens，输出价格为2元/百万tokens；MiMo-V2.5-Pro则分别为0.025元、3元和6元。

同一天，罗福莉在社交平台X上提前预告了技术报告即将发布，并划出重点。她指出，输入（缓存命中）部分降幅高达99%，根本原因在于其推理框架现在支持SWA的KVCache优化；输入（缓存未命中）和输出价格降低60%～80%，则归因于Hybrid SWA架构中，SWA层占比高达6/7，其计算量约为Full Attention的1/7。更值得关注的是，在API大幅降价的同时，小米仍能基本实现收支平衡。

一、MiMo-V2.5核心架构：计算量压缩至全注意力的1/7

小米在技术博客中详细阐述了MiMo-V2.5系列模型推理效率的提升，是多个维度协同优化的结果。这不是单点突破，而是一套完整的组合策略。

其核心架构为Hybrid SWA+MoE+多模态，并在此基础上系统性地重构了KV Cache管理、分级缓存、前缀缓存树，优化了调度策略以及Prefill/Decode的完整链路。这些技术理论上的效率优势，最终被切实兑现到生产环境中。

小米研究人员之所以选择Hybrid SWA+MoE+多模态架构，原因明确：MiMo-V2.5的初始目标，就是训练出一个在长文推理场景下既足够强大、又足够高效的模型。

传统的全局注意力（Full Attention）架构显然无法兼顾这两者。Hybrid SWA的核心思想，是在局部窗口注意力（SWA）与全局注意力之间进行分层混合：绝大多数层只关注局部窗口内的注意力，仅少量关键层保留全局视野。理论上，这种结构能将Attention的计算复杂度压低至接近线性，同时依然保持对长程依赖关系的建模能力。从理论到实际，中间的差距在于工程实现。

但要将Hybrid SWA架构的推理效率优势真正释放，还必须对调度策略、Prefill/Decode执行链路、多模态以及MoE架构进行全链路优化。以MiMo-V2.5-Pro为例，该模型共有70层，其中10层为Full Attention，60层为SWA，SWA的滑动窗口大小为128。与Full Attention相比，Hybrid SWA架构中SWA层占比为6/7，因此其计算量约为Full Attention的1/7。

此外，由于SWA层只需保留滑动窗口内的KV，无需存储全序列，因此KVCache占用同样下降至接近1/7。在长序列场景下，KV Cache的体积可能远超模型参数，所以KV Cache存储的减少，几乎直接等价于长序列场景下decode成本的降低。

技术博客还横向对比了不同国产模型的KV Cache大小。由于不同模型的架构和访存模式均有差异，团队进行了估算。结果显示，MiMo-V2.5-Pro和MiMo-V2.5在KV Cache大小上位列国产模型第二，仅次于DeepSeek-V4-Pro和Flash。

当然，由于存在与序列长度无关的固定计算与访存开销，实际成本差异并不严格等价于KV Cache规模比例。但在长上下文场景下，整体趋势一致：短文场景下性价比接近，序列越长，推理成本优势越明显。

二、罗福莉提前发帖划重点：API价格下调仍能维持收支平衡

5月27日小米官宣降价时，罗福莉在社交平台X上发布帖子，为MiMo API的降价原因划出了重点。

降幅最大的部分是输入（缓存命中），高达99%。其根本原因是推理框架现在支持SWA的分层键值缓存优化。生产环境下的推理引擎测试表明，这项优化可以将缓存token容量提升5倍，相当于缓存成本降低80%。再结合混合模型中多个全注意力模块之间的缓存读取重叠，实际成本进一步压缩。

而输入（缓存未命中）和输出价格降低60%～80%，则源于SWA的稀疏度比。以70层的MiMo-V2.5-Pro为例，其预填充计算量大致相当于10层GQA模型。这使得其初始推理成本远低于行业平均水平，带来2～3倍的定价利润空间。

她提到，在API价格大幅下调的情况下，小米的生产推理引擎几乎满负荷运转，基本能够实现收支平衡。此前他们曾建议大模型公司不要“盲目降价”，因为极少有模型架构和推理优化方案能保证API成本不亏损。如果能出现更多节省计算资源和KV Cache的架构，以及进一步降低API成本的更完善的推理基础设施，将形成行业内的良性循环。

更关键的是，经济实惠且高性能的模型API，将推动真正、持续且大规模的推理需求。这种上游需求的增长，会带动整个AI基础设施链的发展。

三、KV Cache系统重构：提升模型实际命中率

为使SWA真正可用，研究人员对KV Cache进行了系统性重构。此前的临时方案，均未能让推理系统真正“理解”Hybrid SWA的存储特性。

Hybrid SWA带来的核心存储矛盾很直接：Full Attention层需要保留全序列KV（O（N）），而SWA层只需维护滑动窗口内的KV（O（W））。在传统的单一KV pool设计下，系统只能按O（N）为所有层统一分配显存，SWA的窗口稀疏性完全无法被利用，实际存储效率退化为类似Full KV Cache的实现。

针对这一问题，团队采用了“双池分治、前缀缓存树重构、GCache三级缓存”的综合优化方案。

分池优化的思路很直接：将KV Cache拆分为Full Attention与SWA两个独立池，并在系统层进行统一抽象。这使得SWA KV Cache在系统层面实现了严格的O(W)存储约束，整体KV Cache容量效率提升约7倍。目前，主流推理框架也都采用了类似的实现方案。

SWA-aware前缀缓存树优化则更为精细，包括匹配规则升级为“窗口安全长度”、淘汰路径与请求生命周期绑定、节点同时承载两套索引。SWA将KV体积压到1/7是容量层面的收益，而命中率则是复用层面的收益，两者相乘才是prefill阶段实际的计算成本曲线。引入“窗口安全长度”匹配规则后，同样token容量的KV Cache命中率理论上会小幅下降，但同样存储容量下的token数量却达到数倍，实际命中率因此大幅提升。

GCache是小米存储团队开发的高性能通用缓存，也是构建“训推一体”体系的重要一环。它是一个同时支持GPU显存、CPU内存和NVMe SSD的高性能分布式缓存系统。在存储成本方面，GCache优先采用与GPU机器混布的方式，接管了Prefill和Decode节点的部分内存和机器自带的NVMe SSD，额外存储成本为0。

得益于这一系列优化，研究人员观测到，在优质harness框架下，服务端KV Cache命中率平均可达93%；对于高强度、长周期使用的个人用户，这一指标甚至可以达到95%乃至更高。

四、调度优化：L2缓存命中率提升25%，单机输入吞吐提升30%

在调度优化方面，小米希望通过匹配调度和计算链路，让省出来的显存空间和算力余量真正发挥作用。

为此，小米开发了可动态扩展的无状态调度器LLM-Router。它使用Redis作为中心化存储，有效避免了单服务故障后的KV Cache调度回退现象，稳定保证了缓存命中率。

首先是KV Cache与负载亲和调度。由于HiCache对L2的命中率非常敏感，如果L2未命中，需要去L3查找并拉取KV Cache，等待拉取结束后才能对该请求进行推理。Router通过将分发过的请求维护在Radix前缀树中，实现了KV Cache亲和调度。它会在多个Prefill实例间，优先选择已经缓存了当前请求前缀的节点，并同时兼顾负载均衡以避免热点倾斜。

该策略上线后，L2的缓存命中率提升约25%，单机输入吞吐提升约30%。同时，团队引入了计算量感知的优先调度，优先处理真实计算token数更少的请求，辅以等待时间惩罚机制来避免饥饿，最终使TTFT P90降低了30%。

其次是Prefill链路本身的计算效率。早期SWA KV Cache需要保存所有token的KV Cache，导致EP（Expert Parallelism）被迫偏大；优化后仅需保存SWA部分的token，研究人员将EP缩减至原先的1/2，端到端性能提升约40%。

为缓解负载不均衡问题，研究人员还采用了三级长度分桶策略（0–64K / 64K–256K / 256K–1M），将负载特征相近的请求聚合到同一桶内计算，显著提升了线上prefill的平均吞吐。

MiMo-V2.5系列模型全部采用MoE架构，这意味着还需考虑prefill阶段的专家负载均衡问题。由于该模型在预训练阶段就引入了负载均衡的训练目标，且训练过程比较稳定，模型在训练时已经学习到了较为均匀的专家分配策略。

因此在推理阶段，即使未启用任何专家负载均衡策略，各层平均专家负载度（一层中所有rank的平均token数与该层rank最大token数之比）也达到了约0.85，属于较优的分布水平。

五、Decode优化：显存+MTP双管齐下，KVCache有效容量提升近5倍

Decode阶段的核心瓶颈，通常是显存被KV Cache占满导致batch size无法扩展，GPU算力打不满。针对这一问题，小米进行了显存优化和MTP（Multi-Token Prediction）优化。

显存优化包含几个方面：Decode KV Cache完整支持SWA，使KV Cache有效容量提升近5倍；PD分离中的KV Cache预分配优化，将尚未启动的请求的prealloc过程从GPU显存迁移至CPU内存，decode实际启动时才搬入显存，消除了资源预占造成的浪费；CUDA Graph显存调优，通过优化CUDA Graph参数减少空间浪费，进一步提升了可用显存。

MiMo-V2.5系列模型原生支持3层MTP来加速decode输出。团队还在prefill阶段引入了MTP支持，并对HiCache L2/L3进行了专项适配和优化。这使得decode前期的MTP加速效果更加显著：第0–128 token的加速比达到2.3倍，第128–256 token的加速比达到1.5倍，大幅降低了智能体场景下的真实decode成本。

六、多模态推理优化：Encoder吞吐提升至2倍

最后是多模态推理优化。MiMo-V2.5系列支持视觉、音频、视频的跨模态理解，这一块的工程挑战同样不小。

基于SGLang社区v0.5.7的EPD方案，小米研究人员围绕MiMo-V2.5做了大量EPD分离方面的工程优化与稳定性修复。最终，在不增加延时的情况下，Encoder吞吐成功提升至2倍。

具体优化包括：Encoder支持跨请求组Batch，多个请求的image/audio融合为一次Forward后再按请求切分返回；图片预处理迁移至GPU，消除大图场景下的CPU瓶颈；视频解码切分为多chunk多线程并行处理，1小时视频的端到端延时从156秒降至23秒；通过一致性哈希和机内共享内存实现Embedding缓存共享，整体Encoder吞吐提升至2倍。

结语：全链路技术优化或驱动大模型API降价潮

小米MiMo-V2.5系列API最高降幅达到99%，其核心支撑正是Hybrid SWA+MoE复合架构与全链路推理栈优化。这不仅是单一的技术优化，更是首次实现了系统性的推理链路优化。值得注意的是，DeepSeek此前已将V4-Pro永久降价75%，小米五天后跟进的这波MiMo-V2.5最高降99%，直接全面对标了头部玩家的价格体系。

这一轮由技术驱动而非单纯烧钱打法的价格战，很可能倒逼全行业重新思考定价体系。API服务正在加速转向普惠算力基础设施的角色，而这恰恰是AI实现大规模产业化的一个关键前提——把成本障碍扫清，让应用跑起来。这才是真正值得关注的行业趋势。

来源：互联网

上一篇 机器人开源硬件排行榜：大众制造首选方案 下一篇 算力金属概念股走强上市公司最新回应涨价影响

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

小米大模型降价99%秘籍公开 罗福莉划重点

摘要