MiniMax M3大模型评测:MSA架构1M上下文开源对标海外
摘要
2026年6月1日,MiniMax正式推出新一代大模型M3。此次发布的核心亮点在于:它是国内首个将顶
2026年6月1日,MiniMax正式推出新一代大模型M3。此次发布的核心亮点在于:它是国内首个将顶级代码生成能力、1M超长上下文处理与原生多模态理解及生成能力全面融合的开源大模型,目标直接对标国际一线闭源旗舰模型。

先聚焦M3在底层架构中的关键突破。为支撑智能体在复杂任务中处理更长的上下文,M3自主构建了稀疏注意力机制——MSA。该机制通过细粒度KV分块策略与深度算子级优化,显著提升了计算效率。实测结果:整体推理速度相比主流开源方案提升4倍以上;在1M超长上下文场景下,单Token计算开销降至前代模型的十分之一,预填充阶段提速9倍,自回归解码阶段提速15倍。

M3能实现如此表现,还归功于原生百亿亿级交错结构化数据的联合训练。这种训练方式使模型语义表征达到高度统一与泛化,在基准测试中交出了实打实的成绩。在SWE-Bench Pro等权威软件工程与多模态基准测试中,M3性能全面超越GPT-5.5和Gemini 3.1 Pro。更令人关注的是极限任务验证环节:M3连续运行12小时,独立复现了ICLR顶会论文的全部实验流程;在零参考代码条件下稳定运行24小时,累计调用外部工具近2000次。它成功将Hopper架构上FP8精度矩阵乘法的硬件利用率从7.6%大幅提升至71.3%,并在开放式PostTrainBench评测中,全程自主完成“数据准备→模型训练→效果迭代”的闭环优化——完全独立作战。
与M3同步发布的还有面向长周期协同开发场景深度定制的MiniMax Code智能体平台,以及高性价比的Token订阅计划与API接入服务。官方承诺在发布后10日内全面开源模型权重。客观来看,M3的发布不仅让国内在前沿多模态与超长上下文技术领域拥有了扛鼎之作,更重要的是,它以全栈开源的形式,重新定义了国产大模型生态的价值尺度与落地边界。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。