小米MiMo-V2.5-Pro UltraSpeed评测:3倍价格换10倍输出体验
摘要
小米发布MiMo-V2 5-ProUltraSpeed模式,在通用GPU上实现1000tokens s生成速度,定价为标准版3倍但输
先说核心事实:大模型的推理速度,长期卡在落地门槛上。尤其是万亿参数级别的模型,想在通用GPU上跑出上千token的每秒吞吐量,过去几乎不可能。但昨天,小米MiMo联合TileRT打出一张王牌——MiMo-V2.5-Pro的UltraSpeed模式,直接在通用GPU上把生成速率拉到1000 tokens/s。

▲ 10秒内,从零生成一个可玩的贪吃蛇小游戏
这个速度意味着什么?做个直观对比:过去等模型生成一段代码可能要十几秒,现在几乎即输即得。官方演示显示,10秒就能复现一个贪吃蛇小游戏。这背后的关键是模型与系统的深度协同设计(Codesign),并非靠堆砌算力实现。
同步上线的还有MiMo-V2.5-Pro-UltraSpeed API,定价策略也很有意思——3倍的价格,换来约10倍的输出速度提升。这笔账算下来性价比很高,尤其适合对延迟极度敏感的实时场景。但注意,此模式仅支持API访问,不支持Token Plan套餐。
作为参照,标准版MiMo-V2.5-Pro的价格:每百万tokens输入0.025元(缓存命中)或3元(未命中缓存),输出6元。UltraSpeed版本官方未直接公布单价,按3倍基准推算,输出约每百万tokens 18元。考虑速度提升10倍,单位时间内的产出成本反而更低,对于高并发业务尤其划算。

▲ 1分钟内,复刻出一个macOS系统界面雏形
不过,稀缺资源必然受限于供给。高速推理资源有限,本次UltraSpeed API采取申请制限时开放,窗口期只有两周:2026年6月9日至6月23日23:59。资源确实紧张,提交申请后不保证审核时效,也不保证通过率——小米优先审核有真实业务需求的企业和专业开发者。
通过审核后,用户可获得限时免费的Chat体验。为保障资源公平分配,规则明确:每个账号每天最多成功进入队列10次;单次会话上限30分钟;会话空闲超过5分钟系统自动释放资源。简单说,抓紧用,别闲置。
这次UltraSpeed发布,标志着万亿参数模型在通用GPU上的实时推理进入新阶段。1000 tokens/s不是虚标,它让许多因速度限制而不敢落地的应用场景变得可行。接下来就看申请开放后,实际用户能跑出怎样的效果了。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。