OpenClaw眼动仪深度测评:屏幕键鼠交互新体验
摘要
OpenClaw推出桌面操控工具Peekaboo,具备像素级截图、UI元素识别与GUI自动化能力,使AI能自主
2026年5月11日,本地AI智能体框架OpenClaw正式上线了macOS专属桌面操控工具Peekaboo。这个名字听起来有点俏皮,但能力一点不含糊——像素级截图、UI元素识别、完整的GUI自动化,一个不少。说白了,就是给Agent装上了一双眼睛,让它从此看得见屏幕、点得到按钮,甚至能像人一样自主操作电脑。
要说GUI自动化,其实一直是OpenClaw在Computer Use上的最后一块短板。在此之前,Agent的交互模式基本停留在文本对话层面——虽然指令遵循和任务闭环做得相当成熟,但图形操作界面始终是人类的专属领地。Peekaboo的登场,直接把Agent拉进了下一个时代。只有真正“看见”屏幕,它们才算成为能全权接管桌面的自主执行体。
那么对普通用户来说,这到底意味着什么体验上的革新?Peekaboo又凭什么让AI真正掌控桌面?第一时间上手实测,答案比想象中更有意思。
01 接管桌面,OpenClaw 超进化
“Agent的眼睛”——听起来像是个锦上添花的附加功能,但这个描述远远低估了Peekaboo的真实分量。它真正打破的,是Agent只能被动应答的旧格局,直接将其拉入真实的桌面操作场景。
Peekaboo搭载的像素级识别能力,能自动精准标注屏幕上所有的按钮、输入框、弹窗、软件窗口等界面元素,而且完全不需要人工标记或提前适配。与此同时,它还能完美模拟人类操作逻辑,自主完成鼠标点击、文字输入、页面滚动、快捷键操控这一整套键鼠行为。
但最硬核的还是它的无依赖通用性。Peekaboo不依赖任何软件的最新API,也无需嵌入SDK做适配,这意味着所有桌面软件、网页平台都能直接兼容。它在赛博世界里留下的操作痕迹,就像是一个真实的人类用户——凡是你能操作的,它都能接手。
这实际上已经在重新定义我们操作电脑的底层逻辑。而第一个需要搞清楚的问题是:Peekaboo到底是具备真实落地能力,还是只是个噱头满满的Agent玩具?在真实的桌面环境下,我们先测试了它的复杂连续操作能力。
测试内容是一项信息检索任务。我们要求Peekaboo打开Safari浏览器,自动关闭网页弹窗干扰,然后在顶部搜索框查找「AI近期大事」,从搜索结果中打开第一条,再关闭页面。整套流程全部由OpenClaw自主完成。任务本身不算复杂,但实际操作涉及图标识别、按钮点击、弹窗检测、搜索框定位、内容输入等多项能力。
尤其是在同一个页面里执行输入内容、定位词条这类操作时,从视频记录看,Peekaboo成功规避了弹窗干扰,并适配了动态网页布局,说明它能够稳定识别复杂的软件界面。更关键的是,在多步骤连贯的桌面操作中,Peekaboo的操作逻辑非常贴合人类的使用习惯。
至此可以断定,Peekaboo绝非那种只支持单点点击的演示型工具。当然,对于GUI自动化来说,这还只是入门。真正考验落地能力的,是任务流延伸到跨软件甚至跨系统时,Peekaboo是否还能实现全流程自主操作。
于是第二项测试来了——将信息检索延伸到成果交付阶段。要求Peekaboo在Safari中搜索百度热搜榜,依次提取热搜榜、电影榜、小说榜、电视剧榜前六名的数据,然后回到桌面新建Excel表格,将采集到的四类榜单数据汇总。
结果相当利落:Peekaboo自主完成了整套长链路复合任务。浏览器部分已经在案例一中验证过,这次更值得关注的是它在浏览器、办公软件、系统桌面、文件夹、系统设置等多个平台之间的自如跳转,全程没有出现需要人工干预的卡顿。这意味着OpenClaw和Peekaboo的结合,已经具备了真实的办公自动化能力。而OpenClaw的定位,也正从AI工具的调用者,转向下一代桌面环境操作底座。在Agent普遍以调用第三方工具为核心逻辑的当下,Peekaboo让OpenClaw成了距离“接管整个电脑”最近的选手。
02 极客玩具,普通人也能上手了
长期以来,AI桌面自动化工具基本是极客群体的专属,很难走进普通用户的日常办公和生活场景。Peekaboo打破僵局的方式很简单——部署太容易了。它既可以作为MCP服务运行,一行命令行就能无缝接入OpenClaw、Codex、Claude Code或Cursor;小白用户也可以直接在ClawHub安装Peekaboo Skill,零配置上手。
事实上,GUI自动化并非全新赛道,类似产品此前并不少见。但偏偏是作为后来者的Peekaboo,踩上了新一代多模态技术的风口。UI识别曾是长期困扰这一赛道的核心瓶颈——突如其来的弹窗、页面内容变动,导致的GUI自动化翻车几乎家常便饭。而Peekaboo不绑定任何单一厂商,等于坐收多模态技术水涨船高的红利。
除此之外,过去的GUI自动化工具还得看软件厂商的脸色——系统权限牢牢握在对方手里,真正能落地的场景极其有限,强行上马的结果往往是被拉进黑名单。到最后,有能力和毅力把这些工具用起来的,也就只剩下极客群体了。
对OpenClaw而言,这不再是问题。传统方案是等着厂商开放API接口,而Peekaboo直接操作屏幕,不仅绕开了请求许可的环节,更意味着那些多年未曾更新的小众软件、从未对外开放接口的内部工具,都被一视同仁地纳入了能力范围。
多模态技术的迭代加上对封闭生态的突破,某种程度上,Peekaboo成了第一款普通人也能用的桌面自动化工具。
在把这种碘伏性的桌面操控能力交到大众手中的同时,Peekaboo另一个让人惊喜的点是它高度完善的安全性保障。隐私方面,Peekaboo虽然会对操作界面进行像素级截图,但由于全程跑在本地,屏幕画面无需上传云端。可控性方面,Peekaboo执行的每一项任务都有完整的操作记录供追溯,由手动触发启动,不支持后台静默运行,并且可以随时一键中断。多重安全机制叠加,虽然做不到绝对零风险,但操作主动权始终在用户手里,有效规避了AI后台私自操作、隐私数据泄露这些核心风险。
03 必经之路,还是权宜之计
出色的桌面操控能力之外,Peekaboo也暴露了不少GUI自动化工具常见的通病。
首先是坐标偏移。不同的显示器分辨率、窗口缩放比例下,页面元素位置的变化偶尔会导致点击坐标漂移、操作点位偏差。尽管整体识别率处于较高水平,但这仍然影响了Peekaboo在复杂任务上的完成精度。
其次是上下文遗忘。超长程任务进行到后半段时,Peekaboo常常会忘记自己之前干了什么,然后重复执行某些操作,直到卡死进程。
当然,如果看过前面的测试视频,会发现最明显的问题还是执行速度。复杂界面识别、超长任务流程都会带来比较明显的延迟,这也是GUI自动化工具的通病。一个解释是,视觉方案在执行速度上没法跟通过代码命令直接操作相比。但更值得追问的是,这是否意味着视觉方案的落地能力本身就有限?
除了操作精准性和执行速度,通过多模态理解实现的GUI自动化还意味着不小的Token成本。Peekaboo在设计之初显然考虑到了这一点,试图通过VQA定向分析和元素ID压缩来减少消耗。VQA定向分析是指多模态模型收到屏幕截图后,不返回完整图像描述,而是针对具体问题生成精简回答;元素ID压缩则是用短ID来标记界面UI元素,相比原始坐标或完整描述更加紧凑。但一旦跟代码命令方案做比较,这仍然是一笔不可忽视的成本。
在Peekaboo之前,另一个耐人寻味的例子是豆包手机助手。后者初期凭借便捷体验快速出圈,但很快因为使用安卓系统级高危权限模拟用户点击、跨应用跳转,被微信、支付宝、淘宝等主流App的风控系统识别为异常行为,导致部分跨应用操作功能受限或被迫下线,甚至一度遭到众多主流软件厂商的声讨。时至今日,其后续发展仍然面临着生态兼容与合作模式的重大不确定性。
这背后,是GUI自动化技术在权限边界、数据主权和商业利益上与现有移动生态的深层冲突。Peekaboo为规避生态壁垒而生,却无法真正绕开它。当Agent之争走向落地执行能力的较量时,速度、成本、准确性,日后都可能成为Peekaboo的命门。
视觉方案——到底是打通AI现实操作链路的必经之路,还是生态封禁被真正突破之前的权宜之计?这个问题,值得所有人拭目以待。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。