辅助资源

智谱开源 GLM-PC 基座模型 CogAgent-9B，让 AI 智能体“看懂”屏幕

2026-05-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

智谱开源全新智能体基座：CogAgent-9B 让AI真正“看懂”屏幕昨天（12月26日），智谱技术团

智谱开源全新智能体基座：CogAgent-9B 让AI真正“看懂”屏幕

昨天（12月26日），智谱技术团队在其公众号上扔出了一条重磅消息：他们开源了GLM-PC的基座模型——CogAgent-9B-20241220。这个模型基于GLM-4V-9B训练，专攻一件事：成为执行智能体任务的专家。

先划个重点：这个模型有多特别？它只需要一张屏幕截图，就能开始工作。用户下达任意任务指令，它就能结合之前的操作历史，精准预测下一步应该在图形用户界面（GUI）上做什么。什么HTML源码、文本表征，统统不需要，真正实现了“所见即所得”。

这种仅依赖截图和普适性GUI操作的能力，一下子就把应用场景打开了。从你面前的个人电脑、手机，到未来的智能汽车中控，凡是带屏幕、能交互的设备，它都有用武之地。

智谱开源 GLM-PC 基座模型 CogAgent-9B，让 AI 智能体“看懂”屏幕

话说回来，这可不是智谱第一次推出CogAgent。比起去年12月的初代版本，这次的CogAgent-9B-20241220可以说是全方位的升级。它在GUI感知能力、推理预测的准确性、动作指令的完善度，以及任务泛化性上，都有肉眼可见的显著提升。而且，现在它完美支持中英文双语的屏幕截图和交互，适用性更广了。

那么，它的工作原理到底是怎样的？模型的输入非常简洁，只有三样东西：用户的自然语言指令、已经执行过的动作记录，以及当下的GUI截图。输出则要丰富和精细得多，主要涵盖四个方面：

思考过程（Status & Plan）：这是CogAgent的“思维可见化”。它会明确输出自己是如何理解当前屏幕状态，以及如何规划下一步的，包含状态分析和行动计划两部分。有趣的是，这部分输出的详细程度还可以通过参数来调节。
下一步动作的自然语言描述（Action）：模型会用人类能看懂的自然语言，描述它打算做什么。这个描述会被加入到历史记录里，帮助模型建立起连贯的任务执行记忆。
下一步动作的结构化描述（Grounded Operation）：这才是给机器“执行”的指令。CogAgent会用类似函数调用的结构化格式，明确指出操作类型和参数，方便应用程序解析并执行。它的动作库很全面，既包括点击、输入这类基础GUI操作，也涵盖了启动应用、调用大模型这类更高级的“拟人行为”。
下一步动作的敏感性判断：这相当于一个安全阀。模型会将动作分为“一般操作”和“敏感操作”。对于像在发邮件任务中点击“发送”按钮这种可能产生不可逆后果的操作，它会特别标注出来，提醒系统需要格外谨慎。

模型好不好，最终还得看实测表现。CogAgent-9B-20241220在Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld等多个专业数据集上接受了严格测试，对手也都是GPT-4o、Claude-3.5-Sonnet、Qwen2-VL等行业内的一流模型。

智谱开源 GLM-PC 基座模型 CogAgent-9B，让 AI 智能体“看懂”屏幕

测试结果颇具说服力：CogAgent在多个关键数据集上都取得了领先的成绩。这无疑证明了，在让AI智能体“看懂”并“操作”屏幕这个新兴且关键的赛道上，它已经具备了相当强大的竞争力。

来源：互联网

上一篇 全球首个重症医疗大模型：腾讯 X 迈瑞发布“启元重症大模型”，已用于 ICU 病房 下一篇 消息称联想 CES 2025 将推出“人工智能旅行套装”，含接入 AI 大模型智能腕带 / TWS 耳机 / 吊坠

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

智谱开源 GLM-PC 基座模型 CogAgent-9B，让 AI 智能体“看懂”屏幕

摘要

智谱开源全新智能体基座：CogAgent-9B 让AI真正“看懂”屏幕

相关文章推荐