菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > MiniMax M3模型编程能力深度评测:超越GPT-5.5
其他资讯 M3模型编程能力深度

MiniMax M3模型编程能力深度评测:超越GPT-5.5

2026-06-01
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

MiniMax发布了新一代通用模型M3,它采用了自研的稀疏注意力架构MSA,其编程能力超越了GPT-5

继完成A股上市辅导备案后,MiniMax于6月1日正式发布新一代通用模型——MiniMax M3。该模型采用自研稀疏注意力架构MSA(MiniMax Sparse Attention),在编程与智能体能力、超长上下文以及原生多模态等关键维度上均实现了代际性突破。两天前,MiniMax Group Inc.已在上海证监局完成辅导备案登记,拟首次公开发行股票并上市,行业分类为I65软件和信息技术服务业,辅导券商为中信证券。此举意味着继智谱之后,MiniMax成为又一家启动“A+H”双平台布局的AI公司。

MiniMax上新M3模型,编程能力超GPT-5.5

具体来看,M3同时具备三大核心能力:前沿的Coding能力、1M超长上下文、以及原生多模态。MiniMax官方表示,这是目前开源模型中唯一能同时实现这三点的产品。这一定位本身就折射出行业竞争的激烈程度——能守住“全能”标签的模型已屈指可数。

架构层面,M3的自研稀疏注意力机制MSA是核心亮点。相较于传统的全注意力机制,MSA能大幅降低长上下文场景下的计算开销,同时将上下文窗口拉升至100万token。这意味着在处理长文档、复杂代码仓库或多轮任务协作等场景时,模型能在单次推理中维持更完整的信息链路,避免因上下文过长导致的丢失。根据MiniMax披露的数据,在100万上下文规模下,M3单token的计算量仅为上一代模型的约1/20,推理效率提升显著。

实际上,采用新注意力机制来降低token消耗,已成为新模型发布时的常规操作。例如DeepSeek新推出的V4模型,搭载一种混合压缩注意力机制,能在处理超长上下文时更高效地组织和检索信息,相比上一代仅需约27%计算量和10%缓存空间。换言之,相同任务消耗的Token和算力更少。行业方向已然明确:推理成本越低,越能在实际场景中占据优势。

除了架构升级,MiniMax还在底层推理算子层面进行了深度优化。通过重新设计数据读取与计算路径,相关性能相比主流开源方案提升4倍以上。这背后反映了行业共识:随着Agent任务复杂度的持续提升,“更长上下文、更稳定记忆、更低成本推理”正成为决定产品可用性的核心能力。换句话说,仅靠模型本身还不够,工程上的软实力同样制约着实际表现。

在大模型目前消耗Token最多的两大领域——编程和Agentic任务上,M3同样表现突出。在衡量编程能力的SWE-Bench Pro基准上,M3直接超越了4月发布、主打编程能力的OpenAI新一代模型GPT-5.5以及Gemini 3.1 Pro,距离Opus 4.7仅一步之遥。而在综合评估SVG生成性能的SVG-Bench基准上,M3甚至超过了Opus 4.7。此外,在面向自主Agent的端到端评测框架Claw-Eval上,M3拿到了最高分。这些成绩如果放在一年前,几乎难以想象。

为了验证最新模型的超长上下文、编程和Agent能力,MiniMax还进行了一项相当硬核的测试:直接将一篇ICLR 2025 Outstanding Paper Award获奖论文交给M3,要求其独立复现。结果显示,M3自主运行近12小时,全程生成18次commit和23张实验图表,成功跑通核心实验,验证了论文中提出的方法。这一案例充分说明了模型自主执行能力已经达到何等水平。

多模态一直是MiniMax的核心战略方向,在M3上也得到了充分落地。据介绍,M3是一款从Step 0就开始进行多模态混合训练的模型。在重构整套数据管线后,MiniMax已将训练数据Token规模提升至100万亿量级。这意味着模型能力正从语言理解向真实的数字环境进一步拓展。无论是办公自动化、企业软件操作,还是更复杂的生产力场景,AI进入实际执行层的速度都在显著加快。一句话总结:M3不是简单的参数调整,而是从底层架构到工程优化再到场景能力的全面跃迁。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多