小米大模型API降价99%:推理成本优化与精选推荐榜单
摘要
大模型API定价体系迎来关键变量。小米今日宣布,其MiMo-V2 5系列大模型API启动全球范围永久

大模型API定价体系迎来关键变量。小米今日宣布,其MiMo-V2.5系列大模型API启动全球范围永久降价,自北京时间5月27日零时生效。
此次价格调整直接锚定行业成本基准。MiMo-V2.5系列整体定价被系统性重构,输入侧成本已逼近理论极限。
具体定价策略如下:性能更强的MiMo-V2.5 Pro版本,输入缓存命中单价降至每百万tokens 0.025元,最高降幅99%。标准版MiMo-V2.5的输入缓存命中单价为每百万tokens 0.02元,最高降幅98%。
输出侧定价同步重构。MiMo-V2.5 Pro输出单价调整为每百万tokens 6元,最高降幅86%;MiMo-V2.5输出单价为每百万tokens 2元,最高降幅93%。本次降价覆盖全场景,并取消了按上下文窗口长度计费的复杂模式,采用统一透明的计价标准。
与价格调整同步,计费体系完成架构升级。小米优化原有Token Plan,在用户支出不变的前提下,可用token总量提升至原方案的5-8倍。新体系引入“Credits”作为统一计量单位,使资源消耗与成本核算对开发者完全可视。
支撑此次激进定价的核心,是底层推理效能的突破性进展。
小米技术团队基于SGLang HiCache框架,完整实现了滑动窗口注意力机制。该技术将KV缓存数据在GPU显存、CPU内存与SSD间的跨层级搬运量削减至原水平的七分之一。同时,可缓存token容量扩充至优化前的约5倍。
这两项改进协同作用,直接提升了缓存命中率与整体推理效率。通过优化专家并行策略与输入长度分桶机制,服务集群的输入吞吐能力得到进一步强化。系列技术优化最终转化为显著的成本优势,为在保障服务SLA的前提下持续降低单token成本提供了工程基础。
此次定价调整,本质上是技术红利向市场端的直接释放。当大模型竞争进入规模化应用阶段,提供具备极致性价比的推理服务,已成为构建开发者生态与占领市场份额的关键路径。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。