菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > Qwen3.7-Plus深度测评:阿里通义智能体多模态大模型
产业资讯 大模型 多模态大模型

Qwen3.7-Plus深度测评:阿里通义智能体多模态大模型

2026-06-02
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

Qwen3 7-Plus是什么 多模态大模型的竞争早已进入深水区。通义千问最新发布的Qwen3 7-Plus,本

Qwen3.7-Plus是什么

多模态大模型的竞争早已进入深水区。通义千问最新发布的Qwen3.7-Plus,本质上是一个将视觉与语言深度融合的统一智能体基座——不再区分视觉模型与语言模型,而是直接感知物理场景、解析屏幕并操控GUI、依据视觉参考生成代码,甚至能端到端导航移动应用。

值得关注的是,Qwen3.7-Plus在单一智能体循环中无缝打通GUI与CLI交互。这意味着它不仅能“看懂”和“回应”,更具备执行多步骤复杂任务的硬实力。从前端原型开发、复杂软件工程到工作流自动化,它几乎覆盖了全栈任务类型,且具备跨框架的泛化迁移能力。

Qwen3.7-Plus的主要功能

归纳下来,Qwen3.7-Plus的核心功能集中在以下几个维度:

  • 多模态交互混合智能体:统一处理图像、视频、屏幕截图、网页及文本输入,在GUI、CLI或工具环境中执行完整任务闭环。无论输入形式如何,输出都能直达目标。
  • 视觉智能体:结合视觉理解、代码解释器与搜索增强能力,解决视觉谜题、真实世界问答及复杂推理任务。它不只识别图像内容,还能深度“理解”并“推演”。
  • 视觉编程:从图像或视频直接生成SVG、网页及交互式前端代码,实现设计稿到可运行代码的端到端转化。从创意到上线,中间环节大幅压缩。
  • GUI智能体:精准理解移动端与桌面端界面,完成控件定位、任务规划及多步操作。从“看懂界面”到“操控界面”的跨越成为现实。
  • 真实世界感知与推理:覆盖真实场景、文档图表、OCR、视频及驾驶场景理解,让模型在落地应用中更加贴合实际需求。

Qwen3.7-Plus的技术原理

技术层面,以下几个突破点值得深入拆解。

视觉感知与推理的深度融合。在BabyVision、MathVision、HiPhO等高难度视觉推理基准上,Qwen3.7-Plus表现突出,展现出对图像细节、空间关系、物理常识及多步逻辑的综合理解。BabyVision上的显著提升尤其关键——它模拟了人类早期视觉认知和空间推理能力,说明模型在泛化层面做足了功夫。

视觉到代码的端到端转化机制。通过集成代码解释器,模型将视觉问题转化为可计算的表现形式,自主编写并执行代码完成求解、搜索或验证。以找不同、补图块、华容道、迷宫和拼图等任务为例,模型不仅识别图像内容,还能进行空间建模、路径搜索、状态推演,最终完成结果校验。整个过程构成了近乎完整的推理闭环。

GUI自动化与多步交互能力。模型能识别屏幕内容,定位关键UI元素、理解任务意图并完成多步操作。ScreenSpot Pro、OSWorld-Verified和AndroidWorld上的实测数据表明,它已具备从“看懂界面”到“操作界面”再到“构建界面”的完整链路。

搜索增强的多模态知识问答同样亮眼。模型将视觉输入与外部知识检索结合:先从视觉输入中提取关键实体、场景、文字及上下文线索,再通过搜索获取外部知识,最后综合视觉证据和检索结果输出答案。这有效解决了传统模型“能看懂但说不清”的痛点。

最后,视频理解与驾驶场景感知能力的增强不可忽视。模型在处理短视频和长视频中的事件、动作、时序及语义关系上进步明显,同时在LingoQA、SURDS和VLADBench等驾驶相关评测中,展现出对动态场景、交通参与者及空间关系的深度理解能力。

如何使用Qwen3.7-Plus

实际操作流程非常简洁,按以下步骤即可:

  • 访问官方平台:通过阿里云百炼或Qwen Studio官网接入模型服务。
  • 选择模型版本:在模型市场中选择Qwen3.7-Plus,按需配置调用参数。
  • 输入多模态内容:支持上传图像、视频、屏幕截图或网页链接,结合文本指令发起交互。
  • 执行任务:根据实际场景选择对应能力模式(如Visual Agent、GUI Agent、Visual Coding等),模型自动完成感知、推理与执行闭环。

Qwen3.7-Plus的核心优势

一句话概括核心竞争力:“多模态Agent闭环能力”——将看、想、写、做、验整合进统一智能体工作流,支撑复杂软件任务从理解到交付的端到端自动完成。这不是功能堆砌,而是一套真正跑通全链路的系统。

跨框架泛化能力同样是关键优势。无论通过Claude Code、OpenClaw、Qwen Code还是其他框架部署,它都能保持稳定表现。开发者无需被特定框架绑定。

视觉编程方面更是一骑绝尘。在QwenVision2Code上得分1772.0,逼近GPT-5.4的1884.0,显著领先Claude-Opus-4.6(1518.0)和Gemini-3.1 Pro(1632.0)。考虑到GPT-5.4在通用语言任务上的积累,这个差距已经微乎其微。

GUI操作能力稳居第一梯队。ScreenSpot Pro得分79.0,AndroidWorld得分81.0,在界面理解和操作任务上表现突出。

还有一个关键指标——长时自主运行能力。案例显示,Agent可持续稳定运行超过11小时,累计生成代码超过10,000行,触发调用超过1,000次。这意味着它具备真正的生产力级输出能力。

Qwen3.7-Plus的项目地址

  • 项目官网:https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的同类竞品对比

与当前市面上的同类模型对比,Qwen3.7-Plus的优势和定位一目了然。

从定位看,Qwen3.7-Plus是多模态交互混合智能体基座模型,而GPT-5.4偏向通用多模态大模型。两者方向不同,但能力有交叉。

在Vision Arena排名中,Qwen3.7-Plus全球第5、中国第一,GPT-5.4未进入前7。这已是两个梯队的较量。

具体细分能力对比如下:

  • ScreenSpot Pro(GUI定位):Qwen3.7-Plus 79.0,GPT-5.4 67.4
  • AndroidWorld(移动端操作):Qwen3.7-Plus 81.0,GPT-5.4未测试
  • QwenVision2Code(视觉编程):Qwen3.7-Plus 1772.0,GPT-5.4 1884.0
  • BabyVision(视觉推理):Qwen3.7-Plus 70.4/64.7,GPT-5.4 53.1
  • RealWorldQA(真实世界问答):Qwen3.7-Plus 86.9,GPT-5.4 83.8
  • Terminal Bench 2.0(终端编码):Qwen3.7-Plus 70.3,GPT-5.4未测试
  • SWE-bench 多语言:Qwen3.7-Plus 75.8,GPT-5.4 77.5
  • 视频理解 VideoMMMU:Qwen3.7-Plus 88.0,GPT-5.4 89.5
  • 多模态搜索 MMSearchPlus:Qwen3.7-Plus 41.4,GPT-5.4 19.7

核心优势方面,Qwen3.7-Plus的GUI操作、视觉推理、长时Agent闭环和跨框架泛化能力属于独有强项;GPT-5.4则在视觉编程、视频理解和通用语言任务上更胜一筹。

适用场景也随之分化:Qwen3.7-Plus更适合复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流;GPT-5.4更适合通用内容生成、视觉参考转代码、多语言翻译等场景。

Qwen3.7-Plus的应用场景

基于能力图谱,Qwen3.7-Plus的实际应用场景非常广泛。

  • 智能软件开发:从需求文档生成、代码编写、测试用例创建到GUI自动化测试、版本迭代的全链路APP开发,一个智能体即可完成。
  • 桌面应用复刻:自主理解原生应用UI布局与功能细节,生成对应源码并接入真实API,实现高保真应用复刻。
  • 视觉内容生成:将设计参考图转化为可执行的SVG、网页或交互式前端代码,大幅降低从视觉资产到代码资产的转化成本。
  • 多模态知识问答:结合图像、视频与网络搜索,回答开放世界的视觉问题——包括地点识别、事件背景分析、商品信息查询等。
  • 自动驾驶与具身智能:理解动态驾驶场景、交通参与者及空间关系,支撑真实世界多模态智能体与embodied场景的实际应用。

从产业趋势来看,像Qwen3.7-Plus这样的模型正在将“多模态”从展示型能力真正转化为生产力工具。这个方向值得持续跟进。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多