其他资讯视觉语言能力全面升级

阿里巴巴Qwen3.7-Plus发布视觉语言能力全面升级评测

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

6月2日，阿里巴巴千问发布Qwen3 7-Plus，实现视觉与语言深度融合，打造统一多模态智能体底

6月2日，阿里巴巴千问正式推出重磅升级——Qwen3.7-Plus。这并非一次常规迭代，而是真正将视觉与语言深度融合，构建统一的多模态智能体底座。简言之，Qwen3.7自身文本能力已相当扎实，此次全面增强视觉与语言理解，同时在编码、工具调用、生产力工作流等智能体核心维度上继续保持领先。 ![](http://img.318050.com/uploads/20260602/17803617026a1e29e65678c874455643.webp) 究竟“融会贯通”到了什么程度？该模型最大的亮点在于其作为多模态交互混合智能体的能力。具体来说，它不仅能“看懂”真实世界场景，还能读取屏幕、操控界面、依据视觉参考直接生成代码。更关键的是，它能端到端导航移动应用，结合联网知识回答视觉类问题——整个过程在一个智能体循环内无缝融合GUI（图形用户界面）与CLI（命令行界面）两种交互方式。作为全能型编码智能体，从最前端的设计原型到复杂软件工程任务，再到多步骤工作流自动化，几乎都能接管。且无论使用Claude Code、OpenClaw、Qwen Code还是其他框架部署，它都能保持稳定表现，不会因环境变化而掉链子。基于Qwen3.7-Plus构建的Hybrid-Agent智能体系统，将大模型的代码能力与GUI自动化执行深度耦合。举个实际案例：该系统曾稳定运行十余小时，全自动完成一款英语单词学习APP的完整研发闭环。整个过程累计生成超10000行代码，触发超1000次模型调用。从需求文档自动生成，到代码编写、安装部署、测试用例创建、GUI自动化测试、多场景并行测试，再到产品说明自动更新、版本自动迭代，覆盖了软件开发的每一个核心环节——这已不再是“辅助”，而是真正意义上的全链路自动化。此外，Qwen3.7-Plus在视觉推理方面同样亮点突出。它能解析地铁线路图这类复杂视觉信息，支持搜索增强的视觉问答，还能将图像或视频直接转换为SVG矢量代码，视觉驱动的网页设计也游刃有余。在浏览器Agent场景中，甚至能自动完成ECS云服务器采购、运维链路闭环等操作任务。在BabyVision、MathVision、ScreenSpot Pro、AndroidWorld等多项高难度基准测试中，表现均十分亮眼。目前，Qwen3.7-Plus已在阿里云百炼平台上线，支持OpenAI兼容API和Anthropic协议调用，开发者和企业可直接上手试用。

来源：互联网

上一篇 法院明确定义电动自行车踩踏动作幅度标准 下一篇 仓库机器人规模化部署成败关键：运营副总裁独家深度访谈

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

阿里巴巴Qwen3.7-Plus发布 视觉语言能力全面升级评测

摘要

相关文章推荐

阿里巴巴Qwen3.7-Plus发布视觉语言能力全面升级评测