其他资讯 M3模型编程能力深度

MiniMax M3模型编程能力深度评测：超越GPT-5.5

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

MiniMax发布了新一代通用模型M3，它采用了自研的稀疏注意力架构MSA，其编程能力超越了GPT-5

继完成A股上市辅导备案后，MiniMax于6月1日正式发布新一代通用模型——MiniMax M3。该模型采用自研稀疏注意力架构MSA（MiniMax Sparse Attention），在编程与智能体能力、超长上下文以及原生多模态等关键维度上均实现了代际性突破。两天前，MiniMax Group Inc.已在上海证监局完成辅导备案登记，拟首次公开发行股票并上市，行业分类为I65软件和信息技术服务业，辅导券商为中信证券。此举意味着继智谱之后，MiniMax成为又一家启动“A+H”双平台布局的AI公司。

MiniMax上新M3模型，编程能力超GPT-5.5

具体来看，M3同时具备三大核心能力：前沿的Coding能力、1M超长上下文、以及原生多模态。MiniMax官方表示，这是目前开源模型中唯一能同时实现这三点的产品。这一定位本身就折射出行业竞争的激烈程度——能守住“全能”标签的模型已屈指可数。

架构层面，M3的自研稀疏注意力机制MSA是核心亮点。相较于传统的全注意力机制，MSA能大幅降低长上下文场景下的计算开销，同时将上下文窗口拉升至100万token。这意味着在处理长文档、复杂代码仓库或多轮任务协作等场景时，模型能在单次推理中维持更完整的信息链路，避免因上下文过长导致的丢失。根据MiniMax披露的数据，在100万上下文规模下，M3单token的计算量仅为上一代模型的约1/20，推理效率提升显著。

实际上，采用新注意力机制来降低token消耗，已成为新模型发布时的常规操作。例如DeepSeek新推出的V4模型，搭载一种混合压缩注意力机制，能在处理超长上下文时更高效地组织和检索信息，相比上一代仅需约27%计算量和10%缓存空间。换言之，相同任务消耗的Token和算力更少。行业方向已然明确：推理成本越低，越能在实际场景中占据优势。

除了架构升级，MiniMax还在底层推理算子层面进行了深度优化。通过重新设计数据读取与计算路径，相关性能相比主流开源方案提升4倍以上。这背后反映了行业共识：随着Agent任务复杂度的持续提升，“更长上下文、更稳定记忆、更低成本推理”正成为决定产品可用性的核心能力。换句话说，仅靠模型本身还不够，工程上的软实力同样制约着实际表现。

在大模型目前消耗Token最多的两大领域——编程和Agentic任务上，M3同样表现突出。在衡量编程能力的SWE-Bench Pro基准上，M3直接超越了4月发布、主打编程能力的OpenAI新一代模型GPT-5.5以及Gemini 3.1 Pro，距离Opus 4.7仅一步之遥。而在综合评估SVG生成性能的SVG-Bench基准上，M3甚至超过了Opus 4.7。此外，在面向自主Agent的端到端评测框架Claw-Eval上，M3拿到了最高分。这些成绩如果放在一年前，几乎难以想象。

为了验证最新模型的超长上下文、编程和Agent能力，MiniMax还进行了一项相当硬核的测试：直接将一篇ICLR 2025 Outstanding Paper Award获奖论文交给M3，要求其独立复现。结果显示，M3自主运行近12小时，全程生成18次commit和23张实验图表，成功跑通核心实验，验证了论文中提出的方法。这一案例充分说明了模型自主执行能力已经达到何等水平。

多模态一直是MiniMax的核心战略方向，在M3上也得到了充分落地。据介绍，M3是一款从Step 0就开始进行多模态混合训练的模型。在重构整套数据管线后，MiniMax已将训练数据Token规模提升至100万亿量级。这意味着模型能力正从语言理解向真实的数字环境进一步拓展。无论是办公自动化、企业软件操作，还是更复杂的生产力场景，AI进入实际执行层的速度都在显著加快。一句话总结：M3不是简单的参数调整，而是从底层架构到工程优化再到场景能力的全面跃迁。

来源：互联网

上一篇 英伟达人形机器人评测：宇树H2参考设计75自由度 下一篇 安卓手机短信丢失怎么办？四种实用方法帮你恢复重要信息

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

MiniMax M3模型编程能力深度评测：超越GPT-5.5

摘要

相关文章推荐