菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 通义千问Qwen3.7-Plus多模态智能体实测
其他资讯 综合资讯

通义千问Qwen3.7-Plus多模态智能体实测

2026-06-03
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

阿里通义千问发布多模态智能体模型Qwen3 7-Plus,融合视觉、语言与Agent能力,实现从图像识

今天重点分析阿里通义千问最新发布的Qwen3.7-Plus模型。这并非简单的版本升级,而是一次将视觉感知与任务执行深度耦合的技术突破。

连续运行11小时,阿里新模型以万行代码重构“多邻国”式应用。

核心差异在于,Qwen3.7-Plus超越了传统多模态模型“识别画面内容”的边界。它致力于将界面解析、工具调用、代码生成与结果交付串联成完整链路,使AI从被动识别转向主动完成任务。

智东西实测并结合官方案例后发现,Qwen3.7-Plus在视觉逻辑推理、图像搜索、工具编排等维度展现出显著进步。但坦率地说,面对复杂页面时,图片文字渲染错误、交互相应中断、3D组件黑屏等问题依然存在,最终产出仍需人工审核与调优。距离“可完全信赖的AI执行体”尚有差距,但技术路线已经清晰。

稍早前,5月20日,阿里推出Qwen3.7系列旗舰模型Qwen3.7-Max。根据第三方机构Artificial Analysis的全球大模型综合排名,Qwen3.7-Max的Artificial Analysis Intelligence Index得分57,与GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等海外一线模型成绩相近,领先Kimi K2.6、Mimo-V2.5-Pro等国产模型,位居国产模型首位。

▲Artificial Analysis全球大模型性能榜单(图片来源:Artificial Analysis)

今日发布的Qwen3.7-Plus,正是为Qwen3.7系列补上了视觉识别这一核心模块。该模型现已在阿里云百炼平台上线,兼容OpenAI及Anthropic协议接口。开发者可直接通过API实现多模态交互、智能体任务构建及视觉编程等应用场景,也可借助Claude Code、OpenClaw或Qwen Code直接调用,无需调整已有Prompt或工具链配置。同时,Qwen Studio已开放Qwen3.7-Plus在线试用。

融合视觉、语言与Agent能力,多项评测成绩超越GPT-5.4和Gemini 3.1 Pro

Qwen3.7-Plus在Qwen3.7文本处理与Agent能力基础上,进一步整合视觉与语言理解,构建为多模态智能体模型

该模型不仅能解析图形界面、文档及真实场景,还能直接执行操作,调用命令行、自主编写代码、验证运行结果。更关键的是,千问将GUI操作、CLI调用、代码生成与自我验证封装进同一智能体循环,形成“观察、思考、编码、执行、校验”的端到端闭环。从架构设计看,这绝非简单的“增强版图片搜索引擎”。

基准测试数据提供了有力佐证。Qwen3.7-Plus在多模态推理、视觉智能体与编程、通用视觉理解三大领域表现突出。

▲Qwen3.7-Plus在12项核心基准测试中的综合表现(数据来源:通义实验室)

详细拆解:多模态推理方面,Qwen3.7-Plus在BabyVision中得分70.4/64.7,领先Gemini 3.1 Pro的55.9和GPT-5.4(xhigh)的53.1;MathVision得分90.3,与GPT-5.4(xhigh)的91分几乎持平,高于Gemini-3.1 Pro的87.4及Qwen3.6-Plus的88.0。

视觉Agent与编程方面,Qwen3.7-Plus在ScreenSpot Pro中得分79.0,超越GPT-5.4(xhigh)的67.4和Gemini 3.1 Pro的68.1;AndroidWorld得分81.0,高于Gemini-3.1 Pro的70.7。

通用视觉理解方面,Qwen3.7-Plus在RealWorldQA中得分86.9,高于Qwen3.6-Plus的85.4和GPT-5.4(xhigh)的83.8;OCR-Bench-V2英文与中文测试分别取得70.7和67.1,印证其在开放世界视觉问答、真实场景解析及OCR识别能力上的优势。

智东西第一时间验证了Qwen3.7-Plus的网页生成与视觉编程能力

首个任务为构建防晒产品网页前端设计。模型生成的页面结构完整,涵盖产品介绍、核心优势、明星产品等模块,并自动生成了配套产品图。不过实测中发现,生成图片中部分文字存在乱码页面交互功能未能生效。这表明,模型在静态页面搭建方面完成度较高,但图片内文字渲染及前端交互细节仍需人工调整。

▲Qwen3.7-Plus生成的网页效果

随后,我们要求生成“骑自行车的鹈鹕”3D像素艺术作品。首先尝试快速模式。有趣的是,Qwen3.7-Plus并未直接生成HTML代码,而是先输出一张包含鹈鹕骑车、树木、道路及春日场景的图片。之后模型才补充生成了HTML代码。但问题在于,预览时页面仅显示标题和黑色画布,3D主体未能正常渲染

▲快速模式下,Qwen3.7-Plus执行3D鹈鹕任务的表现

任务失败后,切换至思考模式重新生成,效果显著提升。5分钟后,Qwen3.7-Plus按要求生成了可运行的HTML,画面包含夜空背景、像素化鹈鹕、自行车、草地平台及动态氛围效果,并支持拖拽旋转。相比快速模式,思考模式下的代码完整性与可预览效果明显更优,已能产出一个可运行、可交互的网页作品。

▲快速模式下,Qwen3.7-Plus生成的3D像素艺术作品

总体而言,Qwen3.7-Plus在视觉创意转代码方面已具备较强可用性。但复杂前端及3D场景仍存在不稳定性,需通过思考模式、多轮迭代或人工修正来保障交付质量。这一策略,与当前多数AI工具的使用逻辑一致——“输出初稿,人工精调”。

稳定运行11小时完成App开发,并可复刻macOS Stocks应用

为测试Qwen3.7-Plus的真实落地能力,通义千问基于该模型构建了智能体系统Hybrid-Agent,并让其独立完成一款类似多邻国、百词斩的英语单词学习App的完整研发流程。这才是检验“硬实力”的关键场景。

官方测试中,Hybrid-Agent连续稳定运行超过11小时,累计生成代码超10000行触发工具调用超1000次。整个流程涵盖需求文档生成、代码编写、自动部署、测试用例创建、GUI自动化测试、多场景并行测试、产品说明更新及版本迭代等环节。这绝非简单的Demo展示,而是一次完整的“AI单兵作战”实战演练。

▲Qwen3.7-Plus设计的英语单词学习App(图片来源:通义实验室)

最终,Qwen3.7-Plus完成了App的全流程设计,具备单词本、单词消消乐、每日单词背诵、限时挑战等功能,用户可根据需求设置每日速记目标、提醒时间等。整个App完全由Qwen3.7-Plus独立完成,充分体现了模型在真实任务场景下的编程能力、工具调用能力及视觉设计能力

桌面应用场景中,千问官方还让Qwen3.7-Plus复刻了macOS原生Stocks股市应用。该案例更贴近开发者的日常操作。

复刻过程中,Qwen3.7-Plus能够自主交互原生应用,理解其UI布局与功能细节,再基于交互记录生成SwiftUI源码,并接入LongBridge真实行情API获取实时市场数据。系统能自动完成编译构建,最终复刻出功能完整的应用。

▲模型自主复刻App(图片来源:通义实验室)

值得注意的是,Qwen3.7-Plus自主执行了10项功能验证测试,包括实时行情加载、股票选择与切换、多周期视图切换、搜索过滤、详细数据面板展示等,最终全部通过。交付成果复现了原生Stocks的暗色主题、分栏布局、实时行情数据及完整交互体验。该案例充分表明,多模态智能体在观察真实软件、理解交互逻辑、生成应用代码、验证功能结果方面已具备良好的迁移能力。对于需要快速原型验证的开发者而言,这无疑是一个值得关注的方向。

找不同、查病害、画路线,看图后还能搜索与执行

视觉能力是多模态模型的基础,但Qwen3.7-Plus不仅限于“识别”,更能“展开行动”。

在找不同、华容道、迷宫、拼图等需要推理的视觉任务中,Qwen3.7-Plus会首先提取图像中的几何结构与空间约束,将视觉问题转化为可计算逻辑,随后调用代码解释器,编写并执行求解程序,形成视觉感知、空间建模、代码求解与结果校验的自动化流程。

以官方找不同案例为例,Qwen3.7-Plus能够加载图片,调整大小匹配左右图片,并生成差异区域地图,随后进行深度分析。通过代码解释器,它精确核对坐标与图像,在差异图中标注差异中心点,经多次比对与反复思考,最终找出5处不同点,准确完成任务。

▲Qwen3.7-Plus完成找不同任务(图片来源:通义实验室)

搜索增强视觉问答场景中,当问题超出图像本身时——例如识别陌生地标或分析复杂商品参数——Qwen3.7-Plus可从单图、多图或视频中提取关键实体与上下文线索,再联网检索外部知识,将视觉证据与实时信息交叉验证。这一能力使“看图”成为起点,而非终点。

一个典型案例是植物病害诊断。Qwen3.7-Plus先观察叶片上的棕褐色斑块、黄化区域及病斑边缘形态,初步分析可能的病害类型。随后,模型调用网页搜索,查找相似图片与相关资料,并将搜索结果与图片细节进行比对。经过7次检索,Qwen3.7-Plus综合图像观察、搜索资料与特征对比,给出最终判断,并整理成表格,列出病斑颜色、纹理、形状及叶片变化等关键信息。

▲Qwen3.7-Plus判断植物病害(图片来源:通义实验室)

此外,Qwen3.7-Plus还能将视觉输入直接转化为代码。针对图标、插画、动效或网页参考图,模型可将画面中的形状、颜色、布局关系转成SVG或前端代码。这相当于赋予设计师“截图变代码”的能力。

▲Qwen3.7-Plus根据参考图复刻并输出代码(图片来源:通义实验室)

在网页设计场景中,Qwen3.7-Plus可基于参考图、视频素材或设计意图,组织页面布局、编写前端代码、处理交互动效,并调用工具补全缺失素材,从而生成可运行的交互式网页原型。

▲Qwen3.7-Plus设计的网页(图片来源:通义实验室)

在更贴近真实场景的任务中,Qwen3.7-Plus也能处理复杂图表。以地铁线路图为例,模型可在密集交错的线路中定位起点与终点,识别不同线路的颜色及换乘关系,并规划出完整路径。它会沿线路逐站追踪,在换乘点切换线路,最终给出从出发站到目的站的完整乘车方案。

▲Qwen3.7-Plus根据新加坡地铁线路图规划路线(图片来源:通义实验室)

浏览器智能助手可自动比价下单,完成网页多步操作

除了模型本身的能力,通义还基于Qwen3.7-Plus构建了浏览器智能助手,并通过Qwen for Chrome插件提供使用体验。

用户安装插件后,可在浏览器侧边栏中直接与Qwen对话,授权后切换至Agent模式。在此模式下,Qwen可感知当前网页内容、理解任务意图、规划操作步骤,并在真实浏览器环境中自动执行点击、输入、跳转、配置及验证,完成页面感知、任务规划、GUI自动化执行的闭环。

一个极具代表性的场景是ECS采购自动化。面对非技术用户提出的“采购一台最便宜的云服务器”需求,Agent会登录云控制台,自动比价、选型、配置镜像与安全组并确认订单。遇到缺货或价格波动时,模型会动态调整策略,直至任务完成。

▲浏览器智能助手根据用户需求购买服务器(图片来源:通义实验室)

这意味着,未来大量需多步骤、跨网页的操作,或许真的可以交由AI处理。对于企业采购、信息收集、表单填写等场景,想象空间巨大。

结语:多模态模型正向真实任务场景迈进

从上述案例可见,Qwen3.7-Plus在视觉理解、编程、任务执行等方面的能力,已不再是“演示级”的玩具。多模态模型不仅能识别图像、理解视频、回答问题,还能进一步执行操作应用、调用工具、生成代码及验证结果等后续步骤。

这传递出一个明确信号:多模态模型的竞争焦点,正从“看得准”转向“做得成”。对开发者和企业而言,真正关键的已不是模型能识别多少张图片,而是它能否在真实的工具链与业务流程中持续执行,并交付可运行、可验证的结果。随着模型同时具备视觉理解、工具调用、代码生成及自我验证能力,AI能承担的工作正逐步渗透至软件开发、办公自动化、浏览器操作、数据处理等更具体的执行场景。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多