辅助资源

自主操作电脑的多模态 Agent 升级，智谱 GLM-PC 开放体验

2026-05-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

北京智谱推出GLM-PC，多模态Agent开放体验新年伊始，AI领域便传来新动态。1月23日，北京智

新年伊始，AI领域便传来新动态。1月23日，北京智谱华章科技有限公司正式宣布，旗下智谱GLM-PC开放体验。官方将其定位为“自主操作电脑的多模态Agent再升级”，向公众揭开了这款智能助手的面纱。

自主操作电脑的多模态 Agent 升级，智谱 GLM-PC 开放体验

简单来说，GLM-PC是基于智谱自家的多模态大模型CogAgent开发的，其最大亮点在于，堪称全球首个面向公众、回车即用的电脑智能体（agent）。这意味着，它不再是一个只能对话的工具，而是能够像真人一样，“看”懂电脑屏幕并动手“操作”计算机，实实在在地帮用户处理各种工作任务。

回顾一下时间线：GLM-PC v1.0版本其实早在2024年11月29日就已发布并开启内测。而此次开放体验的版本，则带来了几项重要更新：最新推出的「深度思考」模式、新增了专攻逻辑推理和代码生成的功能模块，并且，对Windows系统的支持也正式上线了，这无疑大大拓宽了其应用场景。

那么，这个电脑智能体究竟能做什么？根据官方披露的信息，它的能力主要聚焦在两大核心模块上。

这可以看作是GLM-PC的“大脑”或“左脑”，负责思考和规划。其工作的精妙之处，在于一个完整的闭环流程：

规划先行：面对一个任务目标，它并不是贸然行动，而是会先综合分析目标与现有资源，生成一份清晰的执行路线图。更厉害的是，它能将复杂的宏观任务自动拆解成一系列可管理、可执行的子任务，让整个操作路径一目了然。
循环推进：规划完成后，代码生成模块随即启动。它会进入一个逻辑循环，按部就班地执行每个子步骤，逐步向最终目标推进。这种循环机制确保了任务执行的精确性和高度自动化，实现了从指令输入到结果输出的完整闭环，过程中基本无需人工插手。
长考与纠错：这或许是智能体摆脱“机械感”的关键。它具备实时调整、反思修正和自我纠错的能力。比如，当执行流程因外部变化意外中断时，它能重新规划路径；当遇到信息不足无法决断时，它甚至会主动与用户交互，通过提问来完善方案。这种“长思考”能力，让它的行动显得更为可靠和灵活。

这部分则像是GLM-PC的“眼睛”和“右脑”，负责观察和理解。要让机器操作图形界面，这一步是基础，其技术要点包括：

GUI图像理解：它能够准确识别图形用户界面中的各种元素，比如按钮、图标、菜单布局等，并且能理解这些元素的功能和交互逻辑。换句话说，它不仅“看到”了，还“看懂”了。
用户行为认知：结合对当前界面的理解，以及学习用户的历史操作习惯，它能智能推测并推荐用户接下来可能想进行的操作，让交互变得更贴心。
图像语义解析：面对复杂的截图或图表，它能进行深入的语义分析，提取其中的关键信息。无论是图片中的文字、特殊标识，还是数据可视化图表里隐藏的趋势和指标，都难不倒它。
多模态信息融合：这才是其认知能力的精髓。它能将视觉图像信息与界面上的文字信息融合在一起，形成一个全面的感知结果。例如，同时识别出一个按钮的位置、形状和上面标注的“确认”文字，从而为“左脑”的决策和操作计划提供最精准的输入。

综合来看，智谱GLM-PC的亮相，不仅仅是一个新工具的发布，更像是将“智能体（Agent）”这一抽象概念，进行了一次具体化、实操化的落地演示。它如何改变我们与电脑协作的方式，值得持续关注。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。