菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > MiniMax M3评测:12小时自动训练4模型,CUDA加速9.4倍
其他资讯 CUDA加速9.4倍

MiniMax M3评测:12小时自动训练4模型,CUDA加速9.4倍

2026-06-01
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

先给出几项核心判断:MiniMax今日正式发布新一代旗舰模型M3。在编程与Agent相关多项基准测

先给出几项核心判断:MiniMax今日正式发布新一代旗舰模型M3。在编程与Agent相关多项基准测试中,M3已达到行业领先水平。尤其值得关注的是,在真实软件工程能力测试SWE-Bench Pro上,其得分小幅超越GPT-5.5和Gemini 3.1 Pro,已非常接近Claude Opus 4.7。

驱动这一性能的是一套全新稀疏注意力架构——MSA(MiniMax Sparse Attention)。该架构使M3不仅支持100万token的上下文窗口,在推理速度上也实现了质的飞跃。相比上一代采用全注意力机制的M2,新模型在预填充阶段取得超过9倍的加速,在解码阶段更是达到超过15倍的加速倍率

更关键的是,M3是一款原生多模态模型,底层直接支持图片和视频输入,并能操控电脑桌面。在多模态评测OmniDocBench中,M3得分超越Gemini 3.1 Pro;在面向自主Agent的端到端评估框架Claw-Eval上,同样斩获最高分。

这种能力组合使M3能驾驭高度复杂的任务。研究团队在PostTrainBench测试中设置了一道难题:在12小时内,从零开始训练4个仅具备预训练基座的模型,全程无人介入。M3自主完成了“数据合成、训练、评测到迭代”的完整闭环,最终驱动这四个模型在数学推理、工具调用、代码生成等五项任务上掌握了基本能力。M3最终得分0.37,紧追GPT-5.5的0.39和Opus 4.7的0.42,大幅领先其他选手。

另一项令人印象深刻的Demo是:M3可持续工作24小时,在147次Benchmark提交、1959次工具调用之后,完成了对CUDA内核的优化,将Hopper FP8硬件的峰值利用率从最初的7.6%提升至71.3%,实现了相对于原始版本9.4倍的加速。

同步发布的还有针对M3深度优化的AI编程工具——MiniMax Code。该工具与M3模型联合训练,能充分释放M3在长上下文、Coding/Agentic以及多模态方面的综合能力。

借助M3的原生多模态能力,MiniMax Code具备Computer Use能力,能在电脑端跨应用、跨文件、跨系统完成操作。

第一时间对MiniMax M3进行了实测体验。整体印象:Agentic能力相当出色,多模态分析功底扎实——能主动迭代需求、规划项目并持续反思纠错,视觉任务中对细节的描述足够详尽。不过坦白说,在具体任务交付上,不少结果的完成度还有待提升。

目前,MiniMax M3已在MiniMax Code、Token Plan和API中正式上线。按照计划,未来10天内MiniMax会更新技术报告,并开源对应的模型权重。MiniMax Code也计划后续开源。

从价格来看,API调用以512k上下文为界分为两档,提供优先和标准两种模式。512k以内上下文的调用享受7天限时五折优惠,标准模式下价格为2.1元/百万输入tokens、8.4元/百万输出tokens,缓存读取的价格为0.42元/百万tokens。

还有一个值得关注的动态:MiniMax已于上周向上海证监局提交了上市辅导备案报告,正式启动A股上市进程,冲刺A股大模型第一股。

一、编程与Agent能力成为提升重点,能理解真实开发工作流

编程与Agent能力是此次M3性能升级的核心方向,其在多项相关基准测试中也确实达到了领先水平。但MiniMax团队发现,当前主流编程测试基准存在一个明显局限:很难完整映射真实的用户体验。

目前的编程智能体训练和评测,大多假设任务是单轮完成的。但在实际开发场景中,开发者往往会反复沟通需求、持续调整方案、同时推进多个任务,并根据中间结果不断迭代优化。两者差距甚远。

为缩小测试基准与真实体验之间的鸿沟,MiniMax专门构建了一个交互式用户模拟器框架。该框架能模拟真实开发者的协作行为,使模型在训练和评测阶段就能接触到更贴近实际工作环境的交互场景。它可以还原需求补充、方案讨论、反馈修正、连续切换任务,以及复杂项目迭代这些典型行为,让智能体不再只是被动执行指令,而是能主动与用户协作完成任务。

快速体验了M3在编程与Agent任务上的表现:

在网页游戏生成任务中,M3制作的赛车游戏视觉上还算不错,但实际试玩后发现可玩性较差。

在动态SVG图生成任务中,M3画出了大致轮廓,但自行车和鹈鹕的外观很难说完全准确。

在更复杂的任务中,专门要求它实现一个类似谷歌文档的文档协作系统MVP版本。M3接到任务后,先与用户讨论并确定了技术选型,然后进行了约10分钟的思考,最终给出了完整的项目规划。

同时,它还考虑了项目验证,规划了单元测试环节,并分析了关键风险与权衡。

该项目规模较大,截至发稿,M3仍在执行CRDT单元测试编写任务。从执行过程看,M3能在任务中不断反思、修正自己的代码,展现出不错的自我纠错与持续优化能力。

整体而言,M3在编程Agent任务中确实理解了真实协作流程,能主动沟通、迭代优化,但任务的完成度仍有提升空间。

二、具备原生多模态能力,训练数据规模达100万亿个token

多模态方面,MiniMax强调M3是一个从Step 0开始进行多模态混合训练的模型。这种原生多模态路线,能让不同模态数据的语义空间更自然、更高度地融合。

在数据配比和构成上,大量实验表明,Interleaved data(交错数据)对模型性能提升的作用,比一般认为的更为关键。文本与图像或其他模态在序列中交替自然排列的数据,对整体训练数据的规模扩展也至关重要。在MiniMax为这些数据重构整套数据管线之后,训练数据的规模提升到了100万亿个token的量级

拿几个多模态任务来测试。第一个任务是地点识别:将一张随手拍的照片发给M3,让它推断具体拍摄地点。

M3对图片做了详细分析,注意到高楼层、防尘网等细节,但它认为图中没有具体的地理标志物,无法直接锁定城市,只能判断应该是中国北方某城市的郊区。

而在此前的实测中,DeepSeek识图模式、Qwen3.7 Max Preview等模型能在相同任务中精确到离实际地点10公里左右的范围内。

又尝试了一个地铁线路规划任务。上传图片后,让M3找出一条从昌平西山口到首都机场的最快路线。M3推荐的路线其实不太合理,绕路较多,总耗时也比地图软件上的推荐路线更长。

总体来看,M3原生多模态的底子扎实,视觉描述非常详尽,但在视觉QA任务上,与头部模型相比还有一定差距。

三、采用新型稀疏注意力方案,解码阶段加速15X

看完实测,M3在架构层面的创新也格外引人注目。MiniMax团队在新型注意力机制上做过不少探索,但在M2上却选择回归全注意力,当时给出的理由主要是基础设施成熟度不够、评估困难等。而到了这一代的M3,他们拿出了名为MSA的全新稀疏注意力方案。

稀疏注意力要解决的核心问题,是全注意力机制计算复杂度呈平方级增长的“先天缺陷”。它通常通过引入一个初筛阶段来避免复杂度急剧膨胀。与DSA和MoBA等现有方案相比,MSA能更精确地对KV进行分块,从而实现更高的有效上下文覆盖。

与此同时,MiniMax团队在算子层面做了直接优化,采用了一种“KV outer gather Q”的策略——每个块只读取一次,访存连续。在M3当前的head配比下,这一设计的计算访存比显著优于主流方法,比开源的Flash-Sparse-Attention和FlashMoBA快了4倍以上。

在100万上下文长度下,M3每token的计算量仅为上代模型的1/20。在prefilling阶段加速超过9倍;在decoding阶段,加速优势更达到15倍以上。而且,在多个对照实验中,MSA的绝大部分能力都能与全注意力打平,这才是关键所在。

结语:国内大模型厂商积极探索架构创新

越来越多的中国大模型厂商,正在通过架构维度的创新来实现突围。MiniMax M3在稀疏注意力上的探索,再加上原生多模态的尝试,让这款模型在效率与性能之间找到了一个相当不错的平衡点。

可以预见,围绕新型注意力机制、原生多模态混合训练与Agent端到端能力的技术探索,将成为下一阶段大模型发展的主流趋势。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多