菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA
其他资讯

龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

2026-04-30
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

让AI像人类一样“冲浪”:A venir-Web如何破解网页操作的三大难题 你是否遇到过这种情况:

让AI像人类一样“冲浪”:A venir-Web如何破解网页操作的三大难题

你是否遇到过这种情况:让AI助手帮你完成一个稍复杂的网页操作,比如预订一张特定条件的机票,或者填写一份多步骤的在线表格,结果它要么点错按钮,要么在页面间迷失方向,最后只能尴尬地告诉你“任务失败”?

这正是当前许多网页智能体(Web Agent)面临的真实困境。不过,最近来自伦敦大学学院(UCL)、普林斯顿大学和爱丁堡大学的研究团队,带来了一套名为A venir-Web的新方案,目标就是让现有的多模态大模型,能真正像人类一样流畅、可靠地使用网页。

图片

问题到底出在哪?简单来说,现有的Web Agent在面对复杂的网页结构时,常常表现得像个“新手”。它们会被那些嵌套的iframe、Canvas画布或者Shadow DOM搞得晕头转向,导致“定位不准”;在执行多步骤的长程任务时,又因为缺乏对特定网站操作流程的常识,只能“盲目探索”,效率低下;更头疼的是,它们还容易“走着走着就忘了”自己到底要干什么,陷入重复错误的循环。

A venir-Web的巧妙之处在于,它本身不是一个需要从头训练的新模型,而是一套开源的、即插即用的智能体框架(Agent Harness)。在严苛的ONLINE-MIND2WEB基准测试中,它取得了53.7%的成功率,刷新了开源领域的纪录。这意味着,开发者可以轻松地将现有的大模型“装入”这个框架,立刻获得更强的网页操作能力。

图片

Web Agent 的三大难题

研究团队精准地指出了当前Web Agent落地应用的三个核心瓶颈:

元素定位不准(Inaccurate Grounding):过度依赖网页的DOM树结构,一旦遇到非标准元素(如 Canvas、嵌套 iframe)就容易失效,找不到该点的按钮。

缺乏特定站点的流程知识(Site-specific Procedural Knowledge):Agent不懂得像人类一样,先去查查“用户手册”或“攻略”,只能靠试错乱撞,成功率自然不高。

长程任务跟踪与记忆力不稳定(Unstable Memory):在跨页面操作时,容易产生“导航漂移”,忘了核心目标,甚至陷入重复错误的死循环。

针对这些痛点,A venir-Web提出了一套模块化的解决方案。由于它本身是一个框架而非模型,因此天然具备“无需训练”(training-free)的部署优势,降低了使用门槛。

A venir-Web 的 Agent Harness 核心设计

图片

经验模仿规划(Experience-Imitation Planning, EIP)

想想我们自己在操作一个不熟悉的复杂网站时,第一反应是什么?没错,通常是先搜索一下教程或攻略。A venir-Web的EIP模块正是模仿了这一人类行为。

在任务开始前,它会利用大模型自身的在线搜索能力,主动去检索目标网站的帮助中心、用户论坛或相关指南,并将这些信息转化为一个高层次的策略路线图。这种“先读攻略再上手”的方法,极大地减少了智能体的盲目探索时间,也有效规避了那些可能导致任务失败的、不可逆的导航操作。

图片

混合定位专家(Mixture of Grounding Experts, MoGE)

为了解决定位难题,MoGE模块采用了“视觉优先”的原则。它不再纠结于复杂的DOM树解析,而是将整个网页渲染画面视为一张统一的视觉画布,直接基于屏幕坐标进行交互。这种方式,天然地化解了让传统DOM解析派智能体头疼的嵌套iframe等问题。

当然,如果视觉信息模糊或不足怎么办?MoGE还准备了后手:它会触发语义结构推理作为兜底方案。这种“视觉坐标为主,语义理解为辅”的混合策略,让智能体在面对各种千奇百怪的UI设计时,都具备了更强的适应性和鲁棒性。

图片

任务跟踪清单(Task-Tracking Checklist)

为了防止智能体在执行长任务时“跑偏”,研究团队引入了结构化的任务清单机制。它将一个复杂的用户指令,分解为2到6个清晰、可验证的“原子里程碑”。每完成一步操作,系统就会利用一个轻量级模型(如Qwen-3-VL-8B)来实时更新任务状态(待处理、进行中、已完成、已失败)。这就好比给智能体配了一个随时检查进度的项目看板,确保它始终走在正确的轨道上。

图片

自适应记忆(Adaptive Memory)

长上下文带来的“幻觉”和遗忘问题如何解决?A venir-Web采用了分块递归摘要机制。它维持一个固定大小的滑动窗口,将过去的操作历史不断提炼、压缩成抽象的记忆状态。更关键的是,它还专门设置了一个“失败反思缓冲区”,确保智能体能够从过去的错误中真正吸取教训,避免在同一个地方反复跌倒。

图片

实验结果

理论设计得再好,实战表现才是硬道理。研究团队在ONLINE-MIND2WEB这个包含136个真实网站、300个实时任务的严苛基准上进行了测试。

结果令人印象深刻:以Gemini 3 Pro为核心驱动的A venir-Web,取得了53.7%的成功率。相比之前的开源标杆SeeAct(30.0%),这个提升幅度达到了23.7个百分点,堪称飞跃。

图片

不仅如此,它的表现甚至超越了Claude Computer Use 3.7(47.3%)和ACT-1(52.7%)等闭源商业产品,开始逼近OpenAI Operator(58.3%)这类顶级选手的水平。

更值得关注的是其轻量化潜力。即使完全使用开源且轻量的Qwen-3-VL-8B作为内核,A venir-Web依然取得了25.7%的成功率,这个成绩已经与早期基于GPT-4o等重型模型打造的Agent(如Browser Use的26.0%)不相上下。这充分说明,作为一套即插即用的框架,A venir-Web在资源受限的场景下,同样具备可观的实用价值。

消融实验:谁才是关键?

为了验证各个模块的贡献,研究人员进行了系统的消融实验。结果一目了然:

去除EIP(经验模仿规划)模块后,成功率从48.0%骤降至36.0%,暴跌12个百分点。这强有力地证明了,引入外部知识(如网站攻略)对于完成复杂网页任务具有决定性的意义。

去除MoGE(混合定位专家)模块后,成功率会从48.0%降至40.0%;而去除自适应记忆模块后,成功率则会进一步降至42.0%甚至36.0%。这说明,精准的定位和稳定的记忆,两者缺一不可,都是保障智能体可靠运行的基础。特别是在长程任务中,递归摘要机制有效避免了因上下文过长而导致的决策混乱。

图片

可以说,A venir-Web为构建具备人类级可靠性的通用数字助理,迈出了坚实的一步。目前,该项目代码已在GitHub上开源。这意味着,开发者无需投入巨资训练新模型,就可以直接利用这套框架,在自动化流程、软件测试乃至下一代智能助手等场景中进行探索和应用。

论文链接:https://arxiv.org/abs/2602.02468

代码链接:https://github.com/Princeton-AI2-Lab/A venir-Web

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多