MiniMax M3深度评测:1M上下文与原生多模态Coding能力
摘要
MiniMax M3 已于近日正式发布。该模型在编程、智能体等高难度专业任务上达到业界领先水平
MiniMax M3 已于近日正式发布。该模型在编程、智能体等高难度专业任务上达到业界领先水平,并搭载了团队自主研发的全新注意力架构 MSA(MiniMax Sparse Attention),原生支持高达 1M 的超长上下文。正如业界所期待的,M3 同时是一款原生多模态模型,可原生理解图像与视频,并具备电脑桌面操控能力。
这三种能力——长上下文、强编程与Agent、原生多模态——已构成海外闭源前沿模型的标配。M3 是国内首个集齐上述所有要素的模型,同时也是目前唯一提供开源选项的模型。

在编程评测基准 SWE-Bench Pro 上,MiniMax M3 超越了 GPT-5.5 与 Gemini 3.1 Pro,逼近 Opus 4.7 的得分。在 SVG 生成综合基准 SVG-Bench 中,M3 甚至直接超越 Opus 4.7。多模态评测集 OmniDocBench 上,M3 得分超过 Gemini 3.1 Pro;而在面向自主 Agent 的端到端评测 Claw-Eval 中,M3 取得最高分。详细对比图与评测方法附于文末。
目前,你可以在 MiniMax Code、Token Plan 及 API 服务中第一时间上手体验 M3。
MSA:结构创新驱动上下文扩展
在设计 M3 时,解决更复杂的 Agent 任务是核心目标之一,而最大的瓶颈正是上下文扩展。要实现真正突破,必须从底层注意力机制入手,避免全注意力机制计算复杂度随序列长度平方增长的固有问题。
MSA 是一种简洁且易于扩展的全新稀疏注意力架构,为 M3 带来了 1M 的上下文窗口,使“上下文”真正成为又一个可规模化扩展的维度。稀疏注意力的通用思路是通过增加初筛阶段来阻止复杂度爆炸。与 DSA、MoBA 等方案相比,MSA 能够更精准地为 KV 分块,实现更高的有效上下文覆盖率。
同时,算子层也做了针对性优化:采用以 KV 块为外层、聚合命中 query 的 KV outer gather Q 策略,每块只读一次、访存连续。在 M3 的 head 配比下,计算访存比显著优于常规方法,速度比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。

简洁、可扩展、易于实现且对硬件友好——这些特性保证了理论收益能真正落地:在 100 万上下文下,M3 每 token 计算量仅为上代模型的 1/20。Prefilling 阶段实现超过 9 倍加速,decoding 阶段则超过 15 倍加速。多项对照实验表明,MSA 的绝大部分能力与全注意力持平。
前沿的 Coding 与 Agentic 能力
Coding 与 Agent 能力是 M3 重点提升的方向。在涵盖软件工程、终端执行等多个维度的国际权威评测中,M3 均达到国际领先水平:
- SWE-Bench Pro: 59.0%
- Terminal Bench 2.1: 66.0%
- SWE-fficiency: 34.8%
- KernelBench Hard: 28.8%
- MCP Atlas: 74.2%
如今的 Coding 能力越来越取决于是否能用真实世界的用户逻辑来训练模型。仅靠现有的 coding benchmark 难以完整刻画真实用户体验。当前大多数代码 Agent 的训练与评测都建立在单轮任务的假设之上,但真实使用场景并非如此:用户会在同一个 session 中持续协作,不断澄清需求、调整方案、交叉派发任务,并根据中间结果进行多轮迭代优化。
为缩小 benchmark 与实际使用体验之间的差距,研发团队构建了交互式用户模拟器框架。该框架通过模拟真实开发者在协作过程中的行为模式,让模型在训练和评测阶段就接触到接近生产环境的交互场景。它能够模拟需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代等行为,使 Agent 不再只是被动执行指令,而是能主动与用户协同完成任务。
下一代 Agent Coding 比的不仅是代码生成,更要比拼长期协作能力、规划能力以及人与 Agent 的协同效率。M3 将真正对 Coding 和 Agent 至关重要的数据规模做大,目标不仅是在 benchmark 上领先,更是在真实研发流程中成为开发者可靠的协作伙伴。
多模态:原生训练,持续规模化
M3 是一个从 Step 0 开始进行多模态混合训练的模型。这条原生多模态的路线能让不同模态数据的语义空间更天然、更高度地融合。在数据配比与构成方面,大量实验显示,交错数据对模型性能带来的提升比一般认知更为关键。这些文本与图像或其他模态在序列中交替自然排列的数据,对于整体训练数据的规模扩展同样至关重要。在团队为这些数据重构整套数据管线后,训练数据 Token 规模已可提升至 100 万亿的量级。
实际任务
在内部测试中,几个实际任务令人印象深刻。
验证论文
作为前沿模型必须具备的三种能力,我们想看看 1M 超长上下文、顶级的编程与 Agent 能力、原生多模态能力同时发挥作用,在长线程中解决一个复杂任务的表现。于是团队将一篇 ICLR 2025 Outstanding Paper Award 获奖论文——《Learning Dynamics of LLM Finetuning》——交给 M3,让它独立复现。该论文研究的是大语言模型微调过程中的“学习动力学”。最终 M3 自主运行接近 12 小时,全程自主产出 18 次 commit 与 23 张实验图表,并跑通了核心实验:不仅成功吻合了 SFT 阶段的预测概率变化趋势,清晰观测到 DPO 实验重点讨论的 squeezing 效应,还顺利验证了原论文提出的 Extend 缓解方法。

在这个过程中,多模态能力用于理解论文中的曲线图、数据、公式;长上下文保证了论文、代码、实验日志可一次性进入窗口;编程与 Agent 能力足够强,才能以长线程甚至并发的方式完成复现。M3 全部做到了。
CUDA 算子优化
FP8 矩阵乘是大模型推理中计算量最集中的环节之一,也是优化难度最高的环节之一。工程师必须同时处理数据排布、计算流水线调度、硬件特性适配等多层相互耦合的问题。在 NVIDIA Hopper 架构 GPU 上手写一个生产级的 FP8 GEMM kernel,通常需要资深团队 1–2 周的集中投入。
为检验 M3 的长程自主迭代能力,团队要求它在 NVIDIA Hopper 架构 GPU 上优化该 kernel。模型的起点仅有一份任务描述、一个 benchmark 评估脚本、一个无法直接运行的 Triton 骨架,没有任何参考高性能实现可供借鉴。这意味着模型不能通过模仿已有方案来走捷径,必须从基本原理出发,自主探索优化路径。
在随后约 24 小时的连续执行中,M3 共完成 147 次 benchmark 提交、1959 次工具调用,完全自主地走完了从 baseline 实现到生产级优化的全部路径,包括 baseline 实现、autotune 配置生成、性能瓶颈诊断、CUDA Graph 集成、persistent kernel 重写、host 端调度优化等。每一步都通过 benchmark 反馈进行自我验证,无需人工介入。最终 M3 经过 6 轮标志性优化,将 Hopper FP8 硬件峰值利用率从首版 7.6% 推进至 71.3%,实现相较于原始版本的 9.4× 加速。
数字之外,模型的执行过程同样值得关注。除 Opus 4.7 和 M3 外,其余模型大多在前 30 次提交内便不再取得新进展并主动退出。而 M3 的最优解出现在第 145 次提交,在此之前模型经历了多个性能不再提升的平台期,但仍在继续尝试不同的优化方向。这背后对模型能力的要求已超出常规的代码生成,多次工具调用产生的上下文是高密度、高度结构化的,MSA 的长上下文注意力分配机制在此类场景中起到了关键作用。
让 M3 “训”模型
在 CUDA 算子优化任务中,M3 展示了在优化目标明确、反馈信号清晰的单一工程任务上的长程迭代能力。但真实的研究工作往往没有如此清晰的反馈结构,研究者通常面临更加开放的问题。
为测试 M3 在需要自主判断的场景下的表现,团队在 PostTrainBench 上进行了实测:给 M3 四个仅完成预训练、尚不具备任何下游能力的 Base 模型,让它在 12 小时内自主完成数据合成、训练、评测、迭代的全部流程,最终让这些模型在数学推理(AIME2025)、工具调用(BFCL)、科学知识推理(GPQA Main)、基础算术推理(GSM8K)、代码生成(HumanEval)任务上具备基本能力。整个流程全程无人干预,Agent 需要自行决定合成什么样的数据、选择什么训练策略、如何根据评测结果调整下一轮方案。M3 最终得分 0.37,略低于 Opus 4.7(0.42)和 GPT-5.5(0.39),但明显领先其余模型。
MiniMax Code
伴随 M3 的发布,MiniMax Code 也迎来更新。作为专门为 M3 设计、并与 M3 一起训练的 Agent 产品,MiniMax Code 能够充分释放 M3 在长上下文、Coding/Agentic、原生多模态方面的能力,是搭配 M3 的首选 Agent。MiniMax Token Plan 同样可用于 MiniMax Code。
在长程复杂任务上,MiniMax Code 的 Agent Team 可将大型任务拆解为多阶段、可并发、可动态调整的 Workflow,由 Agent 集群协作推进。通过 Producer + Verifier 的对抗式 Harness 循环,Agent Team 能在执行过程中持续产出、反思与修正,可自主运行数天而无需人工干预,最终交付高质量结果。
值得关注的是,Claude Code 近期也发布了同类方向的 Dynamic Workflows。与其更强调基于 JS 代码的固定式编排不同,MiniMax Code 更聚焦“深度反思与持续纠错”:Agent 会根据任务进展实时调整方案与优先级,用户也可随时介入,追加需求或修正方向。得益于 M3 的原生多模态能力,MiniMax Code 具备 Computer Use 能力——例如,用户可以在手机上指示:“帮我打开本地 ERP 客户端,按这份 Excel 批量录入发片信息”,MiniMax Code 会自动在电脑端完成跨应用、跨文件、跨系统的操作。
MiniMax Code 基于社区优秀的开源项目 OpenCode 与 Pi Agent 构建的 Harness,后续团队也计划开源本项目,回馈开源社区。
MiniMax Token Plan:让 Frontier 模型融入开发者日常
对个人开发者,我们推荐使用 Token Plan,在用满的情况下性价比比按量付费高出 10 倍以上。团队持续提供同价位订阅产品中最高的使用量。本次 MiniMax Token Plan 提供三档配置:
- Plus ¥49/月:6 亿 token ≈ Claude Pro $20 月度容量的 5 倍
- Max ¥119/月:18 亿 token ≈ Claude Max 5x $100 月度容量的 2 倍
- Ultra ¥469/月:55 亿 token ≈ Claude Max 20x $200 月度容量的 3 倍
按相同价格折算,约为 Claude 订阅的 15 倍用量。对老用户而言,原有套餐价格将继续保留。除了 M2 之外,还可以按相应价格切换使用 M3。

API
M3 API 现已开放使用,按不同上下文长度分为两档计费。M3 同时支持两种思考模式:thinking 模式适用于复杂推理、Agentic 任务与长程协作;non-thinking 模式响应更快,适合对话、代码补全等延迟敏感场景。两种模式共享同一套定价,可在请求时按需切换。
所有价格还可叠加两类服务等级:默认通道适用于常规请求;优先通道(service_tier=priority)在高并发场景下能够获得调度优先级与更稳定的响应时延,适合 SLA 敏感的工业级场景。优先通道目前由销售对接开通,预计数天后向全量用户开放。

为感谢大家的耐心与支持,MiniMax M3 API(≦ 512k)上线即开启限时 5 折活动,有效期 7 天。可用 M2 系列的价格,即刻体验到迄今为止最智能的 M3 模型。
团队将持续提升模型线上的稳定性,优化吞吐。接下来 10 天内将更新技术报告,并开源对应的模型权重。
今天的模型更新速度之快,很容易让人忘记这依然是一件日拱一卒的事情。它有自身的客观规律,也会奖赏循着规律扎实前进的团队。正如团队成立之初所相信的那样,我们会尽最大努力持续提升模型的智能水平,并让更多用户能够使用到。感谢大家的信任、建议与批评。
Intelligence with Everyone!
附测评方法:
