其他资讯 M3深度

MiniMax M3深度评测：1M上下文与原生多模态Coding能力

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

MiniMax M3 已于近日正式发布。该模型在编程、智能体等高难度专业任务上达到业界领先水平

MiniMax M3 已于近日正式发布。该模型在编程、智能体等高难度专业任务上达到业界领先水平，并搭载了团队自主研发的全新注意力架构 MSA（MiniMax Sparse Attention），原生支持高达 1M 的超长上下文。正如业界所期待的，M3 同时是一款原生多模态模型，可原生理解图像与视频，并具备电脑桌面操控能力。

这三种能力——长上下文、强编程与Agent、原生多模态——已构成海外闭源前沿模型的标配。M3 是国内首个集齐上述所有要素的模型，同时也是目前唯一提供开源选项的模型。

在编程评测基准 SWE-Bench Pro 上，MiniMax M3 超越了 GPT-5.5 与 Gemini 3.1 Pro，逼近 Opus 4.7 的得分。在 SVG 生成综合基准 SVG-Bench 中，M3 甚至直接超越 Opus 4.7。多模态评测集 OmniDocBench 上，M3 得分超过 Gemini 3.1 Pro；而在面向自主 Agent 的端到端评测 Claw-Eval 中，M3 取得最高分。详细对比图与评测方法附于文末。

目前，你可以在 MiniMax Code、Token Plan 及 API 服务中第一时间上手体验 M3。

MSA：结构创新驱动上下文扩展

在设计 M3 时，解决更复杂的 Agent 任务是核心目标之一，而最大的瓶颈正是上下文扩展。要实现真正突破，必须从底层注意力机制入手，避免全注意力机制计算复杂度随序列长度平方增长的固有问题。

MSA 是一种简洁且易于扩展的全新稀疏注意力架构，为 M3 带来了 1M 的上下文窗口，使“上下文”真正成为又一个可规模化扩展的维度。稀疏注意力的通用思路是通过增加初筛阶段来阻止复杂度爆炸。与 DSA、MoBA 等方案相比，MSA 能够更精准地为 KV 分块，实现更高的有效上下文覆盖率。

同时，算子层也做了针对性优化：采用以 KV 块为外层、聚合命中 query 的 KV outer gather Q 策略，每块只读一次、访存连续。在 M3 的 head 配比下，计算访存比显著优于常规方法，速度比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。

简洁、可扩展、易于实现且对硬件友好——这些特性保证了理论收益能真正落地：在 100 万上下文下，M3 每 token 计算量仅为上代模型的 1/20。Prefilling 阶段实现超过 9 倍加速，decoding 阶段则超过 15 倍加速。多项对照实验表明，MSA 的绝大部分能力与全注意力持平。

前沿的 Coding 与 Agentic 能力

Coding 与 Agent 能力是 M3 重点提升的方向。在涵盖软件工程、终端执行等多个维度的国际权威评测中，M3 均达到国际领先水平：

SWE-Bench Pro: 59.0%
Terminal Bench 2.1: 66.0%
SWE-fficiency: 34.8%
KernelBench Hard: 28.8%
MCP Atlas: 74.2%

如今的 Coding 能力越来越取决于是否能用真实世界的用户逻辑来训练模型。仅靠现有的 coding benchmark 难以完整刻画真实用户体验。当前大多数代码 Agent 的训练与评测都建立在单轮任务的假设之上，但真实使用场景并非如此：用户会在同一个 session 中持续协作，不断澄清需求、调整方案、交叉派发任务，并根据中间结果进行多轮迭代优化。

为缩小 benchmark 与实际使用体验之间的差距，研发团队构建了交互式用户模拟器框架。该框架通过模拟真实开发者在协作过程中的行为模式，让模型在训练和评测阶段就接触到接近生产环境的交互场景。它能够模拟需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代等行为，使 Agent 不再只是被动执行指令，而是能主动与用户协同完成任务。

下一代 Agent Coding 比的不仅是代码生成，更要比拼长期协作能力、规划能力以及人与 Agent 的协同效率。M3 将真正对 Coding 和 Agent 至关重要的数据规模做大，目标不仅是在 benchmark 上领先，更是在真实研发流程中成为开发者可靠的协作伙伴。

多模态：原生训练，持续规模化

M3 是一个从 Step 0 开始进行多模态混合训练的模型。这条原生多模态的路线能让不同模态数据的语义空间更天然、更高度地融合。在数据配比与构成方面，大量实验显示，交错数据对模型性能带来的提升比一般认知更为关键。这些文本与图像或其他模态在序列中交替自然排列的数据，对于整体训练数据的规模扩展同样至关重要。在团队为这些数据重构整套数据管线后，训练数据 Token 规模已可提升至 100 万亿的量级。

实际任务

在内部测试中，几个实际任务令人印象深刻。

验证论文

作为前沿模型必须具备的三种能力，我们想看看 1M 超长上下文、顶级的编程与 Agent 能力、原生多模态能力同时发挥作用，在长线程中解决一个复杂任务的表现。于是团队将一篇 ICLR 2025 Outstanding Paper Award 获奖论文——《Learning Dynamics of LLM Finetuning》——交给 M3，让它独立复现。该论文研究的是大语言模型微调过程中的“学习动力学”。最终 M3 自主运行接近 12 小时，全程自主产出 18 次 commit 与 23 张实验图表，并跑通了核心实验：不仅成功吻合了 SFT 阶段的预测概率变化趋势，清晰观测到 DPO 实验重点讨论的 squeezing 效应，还顺利验证了原论文提出的 Extend 缓解方法。

在这个过程中，多模态能力用于理解论文中的曲线图、数据、公式；长上下文保证了论文、代码、实验日志可一次性进入窗口；编程与 Agent 能力足够强，才能以长线程甚至并发的方式完成复现。M3 全部做到了。

CUDA 算子优化

FP8 矩阵乘是大模型推理中计算量最集中的环节之一，也是优化难度最高的环节之一。工程师必须同时处理数据排布、计算流水线调度、硬件特性适配等多层相互耦合的问题。在 NVIDIA Hopper 架构 GPU 上手写一个生产级的 FP8 GEMM kernel，通常需要资深团队 1–2 周的集中投入。

为检验 M3 的长程自主迭代能力，团队要求它在 NVIDIA Hopper 架构 GPU 上优化该 kernel。模型的起点仅有一份任务描述、一个 benchmark 评估脚本、一个无法直接运行的 Triton 骨架，没有任何参考高性能实现可供借鉴。这意味着模型不能通过模仿已有方案来走捷径，必须从基本原理出发，自主探索优化路径。

在随后约 24 小时的连续执行中，M3 共完成 147 次 benchmark 提交、1959 次工具调用，完全自主地走完了从 baseline 实现到生产级优化的全部路径，包括 baseline 实现、autotune 配置生成、性能瓶颈诊断、CUDA Graph 集成、persistent kernel 重写、host 端调度优化等。每一步都通过 benchmark 反馈进行自我验证，无需人工介入。最终 M3 经过 6 轮标志性优化，将 Hopper FP8 硬件峰值利用率从首版 7.6% 推进至 71.3%，实现相较于原始版本的 9.4× 加速。

数字之外，模型的执行过程同样值得关注。除 Opus 4.7 和 M3 外，其余模型大多在前 30 次提交内便不再取得新进展并主动退出。而 M3 的最优解出现在第 145 次提交，在此之前模型经历了多个性能不再提升的平台期，但仍在继续尝试不同的优化方向。这背后对模型能力的要求已超出常规的代码生成，多次工具调用产生的上下文是高密度、高度结构化的，MSA 的长上下文注意力分配机制在此类场景中起到了关键作用。

让 M3 “训”模型

在 CUDA 算子优化任务中，M3 展示了在优化目标明确、反馈信号清晰的单一工程任务上的长程迭代能力。但真实的研究工作往往没有如此清晰的反馈结构，研究者通常面临更加开放的问题。

为测试 M3 在需要自主判断的场景下的表现，团队在 PostTrainBench 上进行了实测：给 M3 四个仅完成预训练、尚不具备任何下游能力的 Base 模型，让它在 12 小时内自主完成数据合成、训练、评测、迭代的全部流程，最终让这些模型在数学推理（AIME2025）、工具调用（BFCL）、科学知识推理（GPQA Main）、基础算术推理（GSM8K）、代码生成（HumanEval）任务上具备基本能力。整个流程全程无人干预，Agent 需要自行决定合成什么样的数据、选择什么训练策略、如何根据评测结果调整下一轮方案。M3 最终得分 0.37，略低于 Opus 4.7（0.42）和 GPT-5.5（0.39），但明显领先其余模型。

MiniMax Code

伴随 M3 的发布，MiniMax Code 也迎来更新。作为专门为 M3 设计、并与 M3 一起训练的 Agent 产品，MiniMax Code 能够充分释放 M3 在长上下文、Coding/Agentic、原生多模态方面的能力，是搭配 M3 的首选 Agent。MiniMax Token Plan 同样可用于 MiniMax Code。

在长程复杂任务上，MiniMax Code 的 Agent Team 可将大型任务拆解为多阶段、可并发、可动态调整的 Workflow，由 Agent 集群协作推进。通过 Producer + Verifier 的对抗式 Harness 循环，Agent Team 能在执行过程中持续产出、反思与修正，可自主运行数天而无需人工干预，最终交付高质量结果。

值得关注的是，Claude Code 近期也发布了同类方向的 Dynamic Workflows。与其更强调基于 JS 代码的固定式编排不同，MiniMax Code 更聚焦“深度反思与持续纠错”：Agent 会根据任务进展实时调整方案与优先级，用户也可随时介入，追加需求或修正方向。得益于 M3 的原生多模态能力，MiniMax Code 具备 Computer Use 能力——例如，用户可以在手机上指示：“帮我打开本地 ERP 客户端，按这份 Excel 批量录入发片信息”，MiniMax Code 会自动在电脑端完成跨应用、跨文件、跨系统的操作。

MiniMax Code 基于社区优秀的开源项目 OpenCode 与 Pi Agent 构建的 Harness，后续团队也计划开源本项目，回馈开源社区。

MiniMax Token Plan：让 Frontier 模型融入开发者日常

对个人开发者，我们推荐使用 Token Plan，在用满的情况下性价比比按量付费高出 10 倍以上。团队持续提供同价位订阅产品中最高的使用量。本次 MiniMax Token Plan 提供三档配置：

Plus ¥49/月：6 亿 token ≈ Claude Pro $20 月度容量的 5 倍
Max ¥119/月：18 亿 token ≈ Claude Max 5x $100 月度容量的 2 倍
Ultra ¥469/月：55 亿 token ≈ Claude Max 20x $200 月度容量的 3 倍

按相同价格折算，约为 Claude 订阅的 15 倍用量。对老用户而言，原有套餐价格将继续保留。除了 M2 之外，还可以按相应价格切换使用 M3。

API

M3 API 现已开放使用，按不同上下文长度分为两档计费。M3 同时支持两种思考模式：thinking 模式适用于复杂推理、Agentic 任务与长程协作；non-thinking 模式响应更快，适合对话、代码补全等延迟敏感场景。两种模式共享同一套定价，可在请求时按需切换。

所有价格还可叠加两类服务等级：默认通道适用于常规请求；优先通道（service_tier=priority）在高并发场景下能够获得调度优先级与更稳定的响应时延，适合 SLA 敏感的工业级场景。优先通道目前由销售对接开通，预计数天后向全量用户开放。

为感谢大家的耐心与支持，MiniMax M3 API（≦ 512k）上线即开启限时 5 折活动，有效期 7 天。可用 M2 系列的价格，即刻体验到迄今为止最智能的 M3 模型。

团队将持续提升模型线上的稳定性，优化吞吐。接下来 10 天内将更新技术报告，并开源对应的模型权重。

今天的模型更新速度之快，很容易让人忘记这依然是一件日拱一卒的事情。它有自身的客观规律，也会奖赏循着规律扎实前进的团队。正如团队成立之初所相信的那样，我们会尽最大努力持续提升模型的智能水平，并让更多用户能够使用到。感谢大家的信任、建议与批评。

Intelligence with Everyone!

附测评方法：

来源：互联网

上一篇 三星AI战略驱动品牌价值提升连续六年蝉联全球最佳品牌榜TOP5 下一篇 数字孪生智能体对比：可视化到决策协同的闭环路径

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。