阿里Qwen3.7-Plus多模态智能体评测:11小时开发APP
摘要
通义实验室发布的Qwen3 7-Plus多模态智能体模型具备视觉理解、代码生成与自主操作能力,可
6月2日凌晨,通义实验室正式发布Qwen3.7-Plus多模态智能体模型。这并非仅支持文本对话的交互工具,而是具备视觉感知与行动执行能力的智能体,能直接操作图形界面、调用命令行工具、编写代码并完成自动化测试。
核心能力可概括为:看得懂、想得透、办得成。它能解析GUI布局,接管应用操作流程;同时支持CLI命令执行、代码生成与自我验证,端到端自主跑通完整任务链路。

实测中,基于Qwen3.7-Plus构建的Hybrid-Agent系统连续运行11小时以上,独立完成一款英语单词学习APP的全流程开发。累计生成超过10000行代码,触发1000余次函数调用,覆盖需求分析、代码编写、自动部署、测试用例生成、GUI自动化测试及版本迭代,全程无需人工干预。
在桌面端场景中,该智能体先分析macOS原生Stocks应用的界面结构,理解各功能模块的交互逻辑,随后自动生成SwiftUI源码,接入LongBridge实时行情API获取数据,完成编译构建,最终复刻出功能一致的应用。复刻完成后,它自主执行10项功能验证测试,全部通过。最终产出的应用包含暗色主题、分栏布局与实时行情交互,与原生版本几乎无异。

此外,Qwen3.7-Plus还具备多模态推理、搜索增强视觉问答、图像/视频转SVG矢量代码、视觉驱动网页设计等能力,甚至能在浏览器中自动完成ECS云服务器采购、运维等复杂闭环操作。在BabyVision、MathVision、ScreenSpot Pro、AndroidWorld等硬核基准测试中均取得领先成绩。
目前Qwen3.7-Plus已在阿里云百炼平台上线,提供兼容OpenAI标准API与Anthropic协议的调用方式。开发者可直接前往平台体验。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。