其他资讯大模型 M3模型

MiniMax M3模型评测：国产大模型技术突破与国际影响

2026-06-09

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

MiniMaxM3凭借100万token上下文、原生多模态架构与自主智能体闭环能力，在SWE-BenchPro等国际评

没错。MiniMax M3以100万token上下文窗口、原生多模态架构和自主智能体闭环，在SWE-Bench Pro等国际评测中实测超越GPT-5.5等海外模型。它还支持百万级长文本精准引用、视频级桌面操作及全自动模型训练闭环。

国产大模型要真正弯道超车，关键在于能否在技术代差上建立不可替代性。MiniMax M3于2026年6月1日发布，凭借100万token上下文窗口、原生多模态架构与自主智能体闭环能力，在SWE-Bench Pro、SVG-Bench、BrowseComp等权威评测中直接对标并部分超越GPT-5.5、Gemini 3.1 Pro与Opus 4.7。这次不再是“接近”，而是实测得分反超。

百万级上下文如何打破国际长文本处理垄断

先看一组对比：当前主流模型上下文上限——GPT-5.5为128K，Claude Opus 4.7为200K，而M3原生支持100万token，且API接口保障至少51.2万tokens有效使用。差距相当显著。

实际调用M3 API时，必须显式声明max_context_length=1000000，否则系统默认回落至128K兼容模式。注意：不加此参数将无法触发MSA稀疏注意力机制，长文本推理仍按传统全注意力执行，计算成本激增20倍。这个细节极易被忽略，却直接决定性能与成本。

来一个实测场景：上传一份含公式、图表、代码块的ICLR 2025论文PDF（约32万token），M3可一次性解析全文+附录+参考文献+补充实验图，并在后续对话中精准引用第17页图4b的坐标轴标注逻辑。这正是Opus 4.7在同类测试中因上下文截断导致图表引用错位的根本原因——长文本能力决定了引用的完整度。

原生多模态不是“图文拼接”，而是桌面级操作能力

这里展示两个典型方法。第一，直接上传会议录像截图+会议纪要文字，M3自动识别PPT页面中的折线图趋势、提取讲话人语音转文字时间戳、比对二者偏差后生成“图表展示滞后于讲解23秒”的结论。这种跨模态对齐能力绝非简单的拼接。

第二，向M3发送一段12分钟Zoom会议录屏（MP4格式），要求“找出所有出现Excel窗口的片段，截取窗口内可见单元格内容，合并为CSV”。M3调用内置视觉编码器+OCR模块+表格结构识别模型，在47秒内返回含时间戳、单元格坐标的结构化CSV——该能力已通过Computer Use基准测试。而GPT-5.5与Gemini 3.1 Pro均未开放视频输入接口。

需要留意的是：视频文件必须为H.264编码、分辨率≤1920×1080，否则触发预处理失败报错，且不返回具体错误码，只提示“input format unsupported”。

智能体闭环验证：M3能自我训练其他模型

这个能力堪称“模型训练模型”。具体流程如下：

① 向M3提交4个仅完成预训练的Base模型权重（无监督阶段结束状态）；

② 指令：“在12小时内，完成数据合成→微调训练→效果评测→失败分析→重训迭代的完整闭环，目标使任一模型在GSM8K数学推理上达到≥62%准确率”；

③ M3自动调用代码沙箱生成合成数据集，启动分布式训练任务，每轮结束后用验证集打分，若未达标则修改学习率/损失函数权重/采样策略，全程无API调用中断；

④ 11小时58分，M3输出最终报告：其中2个模型达63.7%和65.1%，另2个因初始权重缺陷被主动放弃，转而生成新权重初始化方案。

这项PostTrainBench测试，目前全球仅M3与Opus 4.7完成过，但Opus需人工配置训练脚本，M3则全程自生成。差距不仅在于结果，更在于自动化程度。

来源：互联网

上一篇 Skywork写作优化：提升阅读体验的高效技巧 下一篇 Claude品牌口号提示词：让语气更贴合平台的5个技巧

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

MiniMax M3模型评测：国产大模型技术突破与国际影响

摘要

百万级上下文如何打破国际长文本处理垄断

原生多模态不是“图文拼接”，而是桌面级操作能力

智能体闭环验证：M3能自我训练其他模型

相关文章推荐