产业资讯

Mobile-Agent-v3.5 – 阿里通义开源的多平台GUI Agent框架

2026-05-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Mobile-Agent-v3 5是什么如果说之前的开源GUI智能体还停留在“概念演示”阶段，那么阿里巴巴

Mobile-Agent-v3.5是什么

如果说之前的开源GUI智能体还停留在“概念演示”阶段，那么阿里巴巴通义实验室这次开源的Mobile-Agent-v3.5，则真正把这事儿推向了“工程可用”的新高度。这个新一代多平台GUI Agent框架，原生就能打通桌面、手机和浏览器三大核心场景，实现了跨越Android、Ubuntu、macOS、Windows的自动化操作。

更值得关注的是其配套的GUI-Owl-1.5模型家族。它提供了从2B到235B的多种参数规模，并且创造性地解耦出两大变体：一个是以轻量、低延迟见长的Instruct模式，另一个则是主打强规划和深度反思的Thinking模式。这种设计，直接支撑起了从端侧到云端的全链路部署需求。

性能方面，它在OSWorld-Verified、AndroidWorld、VisualWebArena等二十多项主流GUI基准测试中，拿下了开源领域的SOTA成绩。这背后，主要得益于三大核心技术的突破：混合数据飞轮解决了高质量数据从哪来的难题；统一思维链合成为模型注入了长程规划能力；而MRPO多平台强化学习算法，则巧妙化解了跨平台动作差异带来的训练不稳定问题。可以说，它从底层基座模型到上层Agent框架，为整个社区提供了一份相当完整的技术参考。

Mobile-Agent-v3.5 – 阿里通义开源的多平台GUI Agent框架

Mobile-Agent-v3.5的主要功能

真正的跨平台GUI自动化：不再局限于单一设备。它原生覆盖桌面、手机、浏览器三大平台，让对Android、Ubuntu、macOS、Windows的统一控制与自动化操作成为可能。
灵活的多参数模型覆盖：配套的GUI-Owl-1.5模型家族，参数规模从2B、4B、8B一直到32B乃至235B，为从资源受限的端侧到算力充沛的云端，提供了完整的部署方案选择。
高效的双模式推理架构：框架将Instruct（轻量低延迟）和Thinking（强规划反思）两种推理模式解耦。这意味着，你可以根据任务是追求实时响应，还是需要复杂深度推理，来灵活切换策略。
可靠的长程任务规划：通过统一思维链合成技术，系统性地为模型赋予了工具调用、记忆管理、知识查询甚至多Agent协作等高级能力，使其能够稳健地执行那些步骤繁多、逻辑复杂的长期任务。
经得起检验的基准表现：在OSWorld-Verified（56.5分）、AndroidWorld（71.6分）、VisualWebArena（46.6分）等权威评测中，其在二十多项任务上取得的SOTA成绩，充分证明了其开源领先的性能。
精准的多模态感知理解：不仅“看得到”界面上的按钮、文本框等元素，更能“理解”背后的语义和操作意图，从而实现精准的点击、输入、滑动等一系列GUI交互。
稳健的强化学习优化：采用的MRPO多平台强化学习算法，专门为了解决跨平台动作空间差异导致的训练梯度冲突而设计，有效提升了长程复杂任务训练的稳定性。

Mobile-Agent-v3.5的技术原理

混合数据飞轮：高质量数据是训练的基石。这项技术通过结合仿真环境与云端沙箱，规模化地生成带有精确标注的界面数据以及长任务轨迹，一举解决了真实环境数据采集成本高昂、规模有限的行业痛点。
统一思维链合成：要让模型具备“深谋远虑”的能力，关键在于思维链的构建。这项技术系统化地为模型注入了工具调用、记忆管理、知识检索等高级模块，使其在长程任务中能够进行规划、反思并进行自我纠错。
MRPO多平台强化学习算法：跨平台训练的最大挑战在于动作空间的差异会导致优化目标冲突。MRPO算法正是为此而生，它有效解决了由此产生的梯度冲突，以及长任务中回报稀疏、信用分配困难等问题，实现了多平台的统一高效训练。
GUI-Owl-1.5基座模型：这是整个框架的“大脑”。作为原生的多模态理解模型，它提供了完整的参数谱系，并直接支持从视觉感知到语义推理的端到端GUI交互理解。
双变体架构设计：Instruct与Thinking变体的解耦设计是框架的一大巧思。前者针对需要快速响应的场景做了极致优化，后者则专注于强化复杂任务的规划与反思能力，二者各司其职，满足不同应用需求。
端到端训练框架：从数据生成、模型预训练到强化学习优化，整个流程形成了一个高效闭环。这种设计支持智能体进行跨平台、跨任务的统一学习与知识迁移，提升了泛化能力。
开源生态兼容：基于强大的Qwen3系列架构进行优化，确保了其对主流AI开发生态的良好兼容性。开发者可以很方便地通过ModelScope或HuggingFace模型仓库进行一键部署，降低了使用门槛。

Mobile-Agent-v3.5的项目地址

Github仓库：项目的全部代码、模型及详细文档均已开源，地址是：https://github.com/X-PLUG/MobileAgent

Mobile-Agent-v3.5的应用场景

智能设备自动化：想象一下，让智能体自动操作你的手机，完成外卖订购、天气查询、日程管理或应用设置调整等一系列日常任务，彻底解放双手。
跨平台办公辅助：无论是在Windows、macOS还是Ubuntu系统上，它都能自动处理那些重复性的办公操作，比如文档格式整理、批量邮件发送、会议安排或数据录入，成为你的数字效率助手。
网页自动化测试与采集：在浏览器端，它可以自动执行Web应用的流程测试、表单填写、数据抓取或电商价格监控等任务，为开发和运营团队提供强大支持。
端侧AI助手部署：借助其提供的2B、4B等轻量级模型，完全可以在智能手机、平板甚至IoT设备端侧，部署一个低延迟、响应快的本地化GUI自动化助手。
企业流程自动化：结合RPA（机器人流程自动化）的需求，它能自动化操作ERP、CRM等企业核心系统的图形界面，将员工从繁琐的系统操作中解放出来，提升整体业务流程效率。
无障碍辅助工具：对于视障人士或行动不便的用户而言，一个能理解界面并自动完成复杂交互的智能体，能极大降低数字设备的使用门槛，具有重要的社会价值。

来源：互联网

上一篇 SkyReels V4 – 昆仑万维推出的AI多模态视频基础模型

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。