产业资讯

小米API永久降价榜单：MiMo-V2.5系列最高降99%

2026-05-28

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

大模型价格战愈演愈烈。小米旗下MiMo大模型团队近日官宣：自5月27日起，MiMo-V2 5系列API将

大模型价格战愈演愈烈。小米旗下MiMo大模型团队近日官宣：自5月27日起，MiMo-V2.5系列API将永久下调价格，同时全面优化计费结构。核心意图很直接——将技术迭代产生的成本优势，精准传递至开发者端，切实降低调用门槛与预算压力。

敢于执行如此大规模且永久性的降价，小米的底气究竟来自哪里？答案深植于底层推理系统架构。据官方披露，此次降价绝非单纯的市场博弈，而是一系列实质性技术突破的直接产物。

首先，推理效率取得质的飞跃。团队基于SGLang HiCache，完整实现了滑动窗口注意力机制（SWA）。该技术带来的变革是根本性的——KV Cache在GPU显存、CPU内存与SSD间搬运的数据量，骤降至原先的七分之一。数据搬运量锐减，等待延迟自然缩短，推理速度随之显著拉升。

其次，缓存能力获得史诗级提升。系统当前可缓存的Token数量，约为优化前的5倍。这意味着，同一请求命中缓存、直接返回结果的概率大幅增加。缓存命中率走高后，需要消耗大量算力进行“实时计算”的请求占比下降，单位推理成本因此被有效摊薄。

最后，集群吞吐能力实现系统性跃升。通过引入专家并行（MoE）方案，配合精细化的输入长度分桶策略，整个服务集群处理海量并发请求的能力得到全面强化。这既保障了高峰时段的服务稳定性，也让单位Token的服务成本持续下探。

可以说，小米这一轮降价，是对当前大模型商业化“内卷”格局的一次高调回应。价格门槛再度被击穿，MiMo系列模型的性价比优势愈发突出。这不仅是“卷”价格，更是推动AI能力以更低成本、更快速度渗透至垂直行业与开发者日常流程。技术普惠的进程，无疑又一次踩下加速踏板。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。