其他资讯人工智能小米推理成本优化与精选

小米大模型API降价99%：推理成本优化与精选推荐榜单

2026-05-27

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

大模型API定价体系迎来关键变量。小米今日宣布，其MiMo-V2 5系列大模型API启动全球范围永久

大模型API定价体系迎来关键变量。小米今日宣布，其MiMo-V2.5系列大模型API启动全球范围永久降价，自北京时间5月27日零时生效。

此次价格调整直接锚定行业成本基准。MiMo-V2.5系列整体定价被系统性重构，输入侧成本已逼近理论极限。

具体定价策略如下：性能更强的MiMo-V2.5 Pro版本，输入缓存命中单价降至每百万tokens 0.025元，最高降幅99%。标准版MiMo-V2.5的输入缓存命中单价为每百万tokens 0.02元，最高降幅98%。

输出侧定价同步重构。MiMo-V2.5 Pro输出单价调整为每百万tokens 6元，最高降幅86%；MiMo-V2.5输出单价为每百万tokens 2元，最高降幅93%。本次降价覆盖全场景，并取消了按上下文窗口长度计费的复杂模式，采用统一透明的计价标准。

与价格调整同步，计费体系完成架构升级。小米优化原有Token Plan，在用户支出不变的前提下，可用token总量提升至原方案的5-8倍。新体系引入“Credits”作为统一计量单位，使资源消耗与成本核算对开发者完全可视。

支撑此次激进定价的核心，是底层推理效能的突破性进展。

小米技术团队基于SGLang HiCache框架，完整实现了滑动窗口注意力机制。该技术将KV缓存数据在GPU显存、CPU内存与SSD间的跨层级搬运量削减至原水平的七分之一。同时，可缓存token容量扩充至优化前的约5倍。

这两项改进协同作用，直接提升了缓存命中率与整体推理效率。通过优化专家并行策略与输入长度分桶机制，服务集群的输入吞吐能力得到进一步强化。系列技术优化最终转化为显著的成本优势，为在保障服务SLA的前提下持续降低单token成本提供了工程基础。

此次定价调整，本质上是技术红利向市场端的直接释放。当大模型竞争进入规模化应用阶段，提供具备极致性价比的推理服务，已成为构建开发者生态与占领市场份额的关键路径。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。