智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕
摘要
智谱开源全新智能体基座:CogAgent-9B 让AI真正“看懂”屏幕 昨天(12月26日),智谱技术团
智谱开源全新智能体基座:CogAgent-9B 让AI真正“看懂”屏幕
昨天(12月26日),智谱技术团队在其公众号上扔出了一条重磅消息:他们开源了GLM-PC的基座模型——CogAgent-9B-20241220。这个模型基于GLM-4V-9B训练,专攻一件事:成为执行智能体任务的专家。
先划个重点:这个模型有多特别?它只需要一张屏幕截图,就能开始工作。用户下达任意任务指令,它就能结合之前的操作历史,精准预测下一步应该在图形用户界面(GUI)上做什么。什么HTML源码、文本表征,统统不需要,真正实现了“所见即所得”。
这种仅依赖截图和普适性GUI操作的能力,一下子就把应用场景打开了。从你面前的个人电脑、手机,到未来的智能汽车中控,凡是带屏幕、能交互的设备,它都有用武之地。

话说回来,这可不是智谱第一次推出CogAgent。比起去年12月的初代版本,这次的CogAgent-9B-20241220可以说是全方位的升级。它在GUI感知能力、推理预测的准确性、动作指令的完善度,以及任务泛化性上,都有肉眼可见的显著提升。而且,现在它完美支持中英文双语的屏幕截图和交互,适用性更广了。
那么,它的工作原理到底是怎样的?模型的输入非常简洁,只有三样东西:用户的自然语言指令、已经执行过的动作记录,以及当下的GUI截图。输出则要丰富和精细得多,主要涵盖四个方面:
- 思考过程(Status & Plan):这是CogAgent的“思维可见化”。它会明确输出自己是如何理解当前屏幕状态,以及如何规划下一步的,包含状态分析和行动计划两部分。有趣的是,这部分输出的详细程度还可以通过参数来调节。
- 下一步动作的自然语言描述(Action):模型会用人类能看懂的自然语言,描述它打算做什么。这个描述会被加入到历史记录里,帮助模型建立起连贯的任务执行记忆。
- 下一步动作的结构化描述(Grounded Operation):这才是给机器“执行”的指令。CogAgent会用类似函数调用的结构化格式,明确指出操作类型和参数,方便应用程序解析并执行。它的动作库很全面,既包括点击、输入这类基础GUI操作,也涵盖了启动应用、调用大模型这类更高级的“拟人行为”。
- 下一步动作的敏感性判断:这相当于一个安全阀。模型会将动作分为“一般操作”和“敏感操作”。对于像在发邮件任务中点击“发送”按钮这种可能产生不可逆后果的操作,它会特别标注出来,提醒系统需要格外谨慎。
模型好不好,最终还得看实测表现。CogAgent-9B-20241220在Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld等多个专业数据集上接受了严格测试,对手也都是GPT-4o、Claude-3.5-Sonnet、Qwen2-VL等行业内的一流模型。

测试结果颇具说服力:CogAgent在多个关键数据集上都取得了领先的成绩。这无疑证明了,在让AI智能体“看懂”并“操作”屏幕这个新兴且关键的赛道上,它已经具备了相当强大的竞争力。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。