通义千问3.7国产大模型排名第一,全球前十五
摘要
阿里通义千问3 7系列模型发布,旗舰版Qwen3 7-Max在全球权威评测中表现优异,位列ArenaAI总榜
5月20日,阿里云峰会正式召开。会上,阿里巴巴集团副总裁、阿里云智能CTO周靖人发布了通义千问Qwen3.7系列大模型。旗舰版Qwen3.7-Max定位为“全能智能体基座”,在编码、推理、工具调用等关键维度取得显著突破,并在多项全球权威评测中刷新了国产模型的表现纪录。

通义千问Qwen3.7模型
Qwen3.7-Max的综合表现令人瞩目。在Arena AI全球大模型文本总榜上,它以第13名的成绩超越Gemini 3 Flash、GPT-5.5等国际模型,成为前15名中唯一的国产模型。细分能力同样突出:数学排名全球第7,编程第10,专家级应用与软件及IT领域均位列第9。视觉方面,Qwen3.7-Plus预览版在视觉总榜排名第16,助力阿里实验室视觉能力综合排名升至全球第5。在知识和逻辑推理等主流评测中,Qwen3.7系列全面领先Kimi K2.6、智谱GLM5.1、DeepSeek V4 Pro、opus4.6-Max等国内外最新模型,稳居国内首位。
工具调用与编程:长周期稳定性突破
综合排名体现模型广度,工具调用与编程能力则检验实用深度,这正是本次升级的核心。Qwen3.7编程智能体现已支持复杂工程开发,在TerminalBench 2.0测试中获69.7分,超越DS-V4-ProMax的67.9分;在SWE-Pro(60.6分)、SciCode(53.5分)等编程基准测试中保持领先。更关键的是稳定性:一项持续35小时、涉及超1000次工具调用的长周期实验中,Qwen3.7展现出稳定推理能力,实现端到端任务闭环。办公自动化场景下,SpreadsheetBench-V1得分高达87.0,同样位居行业顶尖。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。