其他资讯

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

2026-04-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

让AI像人类一样“冲浪”：A venir-Web如何破解网页操作的三大难题你是否遇到过这种情况：

让AI像人类一样“冲浪”：A venir-Web如何破解网页操作的三大难题

你是否遇到过这种情况：让AI助手帮你完成一个稍复杂的网页操作，比如预订一张特定条件的机票，或者填写一份多步骤的在线表格，结果它要么点错按钮，要么在页面间迷失方向，最后只能尴尬地告诉你“任务失败”？

这正是当前许多网页智能体（Web Agent）面临的真实困境。不过，最近来自伦敦大学学院（UCL）、普林斯顿大学和爱丁堡大学的研究团队，带来了一套名为A venir-Web的新方案，目标就是让现有的多模态大模型，能真正像人类一样流畅、可靠地使用网页。

问题到底出在哪？简单来说，现有的Web Agent在面对复杂的网页结构时，常常表现得像个“新手”。它们会被那些嵌套的iframe、Canvas画布或者Shadow DOM搞得晕头转向，导致“定位不准”；在执行多步骤的长程任务时，又因为缺乏对特定网站操作流程的常识，只能“盲目探索”，效率低下；更头疼的是，它们还容易“走着走着就忘了”自己到底要干什么，陷入重复错误的循环。

A venir-Web的巧妙之处在于，它本身不是一个需要从头训练的新模型，而是一套开源的、即插即用的智能体框架（Agent Harness）。在严苛的ONLINE-MIND2WEB基准测试中，它取得了53.7%的成功率，刷新了开源领域的纪录。这意味着，开发者可以轻松地将现有的大模型“装入”这个框架，立刻获得更强的网页操作能力。

Web Agent 的三大难题

研究团队精准地指出了当前Web Agent落地应用的三个核心瓶颈：

元素定位不准（Inaccurate Grounding）：过度依赖网页的DOM树结构，一旦遇到非标准元素（如 Canvas、嵌套 iframe）就容易失效，找不到该点的按钮。

缺乏特定站点的流程知识（Site-specific Procedural Knowledge）：Agent不懂得像人类一样，先去查查“用户手册”或“攻略”，只能靠试错乱撞，成功率自然不高。

长程任务跟踪与记忆力不稳定（Unstable Memory）：在跨页面操作时，容易产生“导航漂移”，忘了核心目标，甚至陷入重复错误的死循环。

针对这些痛点，A venir-Web提出了一套模块化的解决方案。由于它本身是一个框架而非模型，因此天然具备“无需训练”（training-free）的部署优势，降低了使用门槛。

A venir-Web 的 Agent Harness 核心设计

经验模仿规划（Experience-Imitation Planning, EIP）

想想我们自己在操作一个不熟悉的复杂网站时，第一反应是什么？没错，通常是先搜索一下教程或攻略。A venir-Web的EIP模块正是模仿了这一人类行为。

在任务开始前，它会利用大模型自身的在线搜索能力，主动去检索目标网站的帮助中心、用户论坛或相关指南，并将这些信息转化为一个高层次的策略路线图。这种“先读攻略再上手”的方法，极大地减少了智能体的盲目探索时间，也有效规避了那些可能导致任务失败的、不可逆的导航操作。

混合定位专家（Mixture of Grounding Experts, MoGE）

为了解决定位难题，MoGE模块采用了“视觉优先”的原则。它不再纠结于复杂的DOM树解析，而是将整个网页渲染画面视为一张统一的视觉画布，直接基于屏幕坐标进行交互。这种方式，天然地化解了让传统DOM解析派智能体头疼的嵌套iframe等问题。

当然，如果视觉信息模糊或不足怎么办？MoGE还准备了后手：它会触发语义结构推理作为兜底方案。这种“视觉坐标为主，语义理解为辅”的混合策略，让智能体在面对各种千奇百怪的UI设计时，都具备了更强的适应性和鲁棒性。

任务跟踪清单（Task-Tracking Checklist）

为了防止智能体在执行长任务时“跑偏”，研究团队引入了结构化的任务清单机制。它将一个复杂的用户指令，分解为2到6个清晰、可验证的“原子里程碑”。每完成一步操作，系统就会利用一个轻量级模型（如Qwen-3-VL-8B）来实时更新任务状态（待处理、进行中、已完成、已失败）。这就好比给智能体配了一个随时检查进度的项目看板，确保它始终走在正确的轨道上。

自适应记忆（Adaptive Memory）

长上下文带来的“幻觉”和遗忘问题如何解决？A venir-Web采用了分块递归摘要机制。它维持一个固定大小的滑动窗口，将过去的操作历史不断提炼、压缩成抽象的记忆状态。更关键的是，它还专门设置了一个“失败反思缓冲区”，确保智能体能够从过去的错误中真正吸取教训，避免在同一个地方反复跌倒。

实验结果

理论设计得再好，实战表现才是硬道理。研究团队在ONLINE-MIND2WEB这个包含136个真实网站、300个实时任务的严苛基准上进行了测试。

结果令人印象深刻：以Gemini 3 Pro为核心驱动的A venir-Web，取得了53.7%的成功率。相比之前的开源标杆SeeAct（30.0%），这个提升幅度达到了23.7个百分点，堪称飞跃。

不仅如此，它的表现甚至超越了Claude Computer Use 3.7（47.3%）和ACT-1（52.7%）等闭源商业产品，开始逼近OpenAI Operator（58.3%）这类顶级选手的水平。

更值得关注的是其轻量化潜力。即使完全使用开源且轻量的Qwen-3-VL-8B作为内核，A venir-Web依然取得了25.7%的成功率，这个成绩已经与早期基于GPT-4o等重型模型打造的Agent（如Browser Use的26.0%）不相上下。这充分说明，作为一套即插即用的框架，A venir-Web在资源受限的场景下，同样具备可观的实用价值。

消融实验：谁才是关键？

为了验证各个模块的贡献，研究人员进行了系统的消融实验。结果一目了然：

当去除EIP（经验模仿规划）模块后，成功率从48.0%骤降至36.0%，暴跌12个百分点。这强有力地证明了，引入外部知识（如网站攻略）对于完成复杂网页任务具有决定性的意义。

当去除MoGE（混合定位专家）模块后，成功率会从48.0%降至40.0%；而去除自适应记忆模块后，成功率则会进一步降至42.0%甚至36.0%。这说明，精准的定位和稳定的记忆，两者缺一不可，都是保障智能体可靠运行的基础。特别是在长程任务中，递归摘要机制有效避免了因上下文过长而导致的决策混乱。

可以说，A venir-Web为构建具备人类级可靠性的通用数字助理，迈出了坚实的一步。目前，该项目代码已在GitHub上开源。这意味着，开发者无需投入巨资训练新模型，就可以直接利用这套框架，在自动化流程、软件测试乃至下一代智能助手等场景中进行探索和应用。

论文链接：https://arxiv.org/abs/2602.02468

代码链接：https://github.com/Princeton-AI2-Lab/A venir-Web

来源：互联网

上一篇 7.6k Star！开源 AI 短视频引擎 Pixelle-Video 深度拆解 下一篇 AI推理成本失控，CIO如何自救

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。