Agent趋势权威榜单:AI原生时代港大黄超解读
摘要
AIAgent发展需构建Agent原生基础设施,通过轻量化设计、命令行接口替代图形界面,实现数字
Agent时代的基础设施:不是让AI适应人,而是让数字世界说AI的语言
AI Agent演进至今,一个底层问题逐渐凸显:我们需要构建怎样的基础设施?香港大学助理教授黄超的论断直指核心——与其强迫Agent不断适配人类,不如为Agent重新设计数字世界的交互协议。
在一次行业分享中,黄超系统复盘了团队过去两年在AI Agent领域的沉淀与实践。他们的首要动作,是将Agent做“轻”做“薄”。
当看到OpenClaw发布时包含43万行代码(目前已超100万),他们选择逆向操作——以极简方式开源通用Agent nanobot。结果反响远超预期:连续100天每日迭代更新,下载量突破20万次,被DeepSeek列为全球15个推荐Agent之一,并在OpenRouter平台的通用Agent榜单中升至第四。
轻量化仅是第一步。接下来团队计划用nanobot挑战更长程、更复杂的任务,验证Agent在真实生产环境中的持续执行能力。这里的长程任务不仅指运行时长,更关键的是任务链路复杂度——需要跨越多个软件生态、调用异构工具组合,要求Agent具备跨域协调与持续决策的综合素养。
这背后映射出他们对Agent能力边界的深度思考:真正的生产力Agent不能仅停留在对话与代码生成,必须能熟练操控复杂软件生态,在动态环境中自我进化,并在集群协作中创造价值。基于将Agent从“AI助手”升级为“数字劳动力”的愿景,他们提出CLI-Anything。
核心洞察很清晰:与其让Agent费力学习人类界面,不如让软件原生支持Agent语言。通过将专业软件重新封装为命令行接口,Agent能直接驱动3D建模、设计工具、多媒体编辑等原本需要大量人类学习成本的复杂应用。黄超认为,相比GUI,CLI才是真正AI原生的Computer Use方式。这不只是技术选型,更是交互范式的根本重构——从让AI适应人类工具,转向让数字世界说AI的语言。
除了Agent-native接口这一基础设施层,团队同样重视Agent自进化能力的构建。毕竟仅有好的接口还不够,Agent还需要在使用过程中持续学习和自我优化。
当前自进化研究主要分为Internal和External两条路线。Internal模式专注于优化Agent内核——升级框架、调整参数、改进推理链路,但这种内向型进化往往受限于特定场景,难以实现真正的跨域迁移。相比之下,External模式采用技能积累策略,通过不断扩充和优化工具库,逐步构建具有协同效应的Agent生态。这种外向型进化更符合“重新设计数字世界”的理念——不是让单个Agent变得更聪明,而是让整个Agent网络变得更强大。
为验证这种协同进化模式的可行性,他们设计了一个AI自动化科研实验:让8个Agent协调8张H100显卡进行分布式模型训练。实验结果证实,在合理的任务分发架构下,Agent集群确实能显著提升生产效率。但当进一步扩展Agent规模时,边际收益开始递减,甚至出现协调开销超过性能增益的临界点。这揭示Agent Swarm的Scaling Law远比想象中复杂,可能存在一个最优的临界规模,超过这个阈值反而会产生负收益。如何定位这个平衡点,仍是重新设计Agent协作生态的核心挑战。
Agent的核心架构:一个优雅的ReAct循环
Agent的整体架构并不复杂,本质就是一个ReAct框架:Reasoning做规划→Action调用工具→Observation获取反馈,整个流程就是一个while循环。通用Agent的能力并非全部来自复杂的架构设计,而是来自推理、执行、反馈这一基本认知循环的有效实现。
ReAct架构的泛化性源自其模块化解耦:reasoning处理抽象推理,action负责具体执行,observation提供环境反馈。Agent面对新任务时,通过重组已有的推理策略和行动原语来适应新环境,实现真正的跨域泛化能力。
长程任务的本质挑战不在于执行时间,而在于复杂性的指数级增长。成功的Agent不是避免错误,而是预期错误并实现优雅降级,能够主动设计、持续监控和动态优化整个执行过程,这正是将AI助手升级为强生产力协作者的核心所在。
Agent需要learning from real tasks,在错误中不断学习、感知自己错在哪里,才能真正节约Token成本。这揭示了一个核心矛盾:研究Agent往往专注于探索能力上界,却忽略了Token本身就是实际成本约束。
面向Computer Use Agent,GUI模式开销大且准确度受限,CLI可能是通用Agent进行computer use更优的软件交互方式。Agent自进化可通过workflow优化、skill沉淀和模型参数调优几条路线推进,其中基于skill的进化范式展现出最强的泛化性,但在Tool-Use层面仍面临核心挑战。
从nanobot出发:大道至简的Agent设计哲学
看到OpenClaw发布时包含43万行代码,团队意识到通用Agent的核心技术其实不需要那么复杂。nanobot的初衷是希望以最轻量化的方式将Agent技术开放给社区,既能方便开发者进行二次开发,也可以作为学习Agent技术的入门。没想到nanobot收到了超出预期的关注,他们坚持了连续100天的日更迭代,不断整合社区在各个场景下的反馈和需求。目前下载量已超过20万次,被DeepSeek选为全球15个推荐Agent之一,也在OpenRouter平台的通用Agent榜单中排到第四名。
这个过程也体现了Agent系统设计的大道至简哲学:很多关键技术的突破也来自将复杂问题简单化。当前Agent的一些技术难点也在通过巧妙的设计被逐步化解。
有了通用Agent后,下一步挑战是将其从简单的AI助手升级为AI强生产力工具。目前Agent虽然消耗大量token,但实际能很好落地的任务仍局限在coding和research等少数场景。当下Agent面临的一些核心挑战:
第一,长程任务的鲁棒性
长程任务的难点不在于时间长或步骤多,而在于场景的复杂性和多样性。在丰富的工具调用场景中,任何一步错误都可能导致整体失败,这需要更强的harness设计来保障任务的连续性。
第二,从错误中学习的自进化能力
Agent需要实现learning from real task,在失败中识别错误模式并优化策略。这不仅能提升成功率,更重要的是能显著降低token消耗。当前大家都在探索Agent的性能上界,却忽略了成本控制。未来的Agent必须实现“自负盈亏”——在追求能力边界的同时,考虑token经济性。真正的突破将来自于在复杂任务中保持高成功率的同时,大幅降低计算成本。
第三,持续性环境与上下文对齐
简单的sandbox已经不够了,Agent需要一个完整的计算环境——文件系统、数据存储、交互界面这些都得有。现在sandbox每次新建loop就重置,对长程任务很不友好。Human-Agent对齐也存在现实问题:如果能写出超详细的文档,告诉Agent在什么情况下调用什么工具,Agent干活质量挺好。但现实中谁能写出这样的文档?
核心难题在于,人都很懒,怎么在有限的交互中让Agent理解我们的真实意图。这不只是技术问题,更是怎么设计交互——用最少的沟通,传递最准确的上下文。Agent harness需要更聪明的环境管理,也要更会“读懂”人的意思,而不是指望人类提供完美的任务描述。
用nanobot开发一款完整的马里奥游戏,验证了Agent在长程任务中的表现。这个过程暴露了一个关键问题:Agent需要在每一步都做好测试和evaluation,才能保证整个流程的可靠性。ToC vs ToB的容错差异很明显——ToC场景用户对精度容忍度较高,但ToB对Agent的交付能力要求极其严格。这意味着面向企业的Agent必须具备生产级的稳定性和准确性。
从游戏开发这样的复杂软件工程中可以看出,真正具备生产力的Agent不仅要能写代码,更要能做系统性的测试、调试和迭代。这种端到端的能力才是Agent从“玩具”向“工具”转变的关键。
重新定义交互范式:CLI才是Agent-native的Computer Use
要让Agent从助手升级为真正的AI生产力工具,仅有Agent本体是不够的,关键在于构建一套Agent-native的软件交互生态。我们的日常工作高度依赖Office套件、设计软件、3D建模工具等专业应用,但现有的通用Agent很难与这些软件建立有效连接。
过去几年,Computer Use主要依赖GUI路径——让Agent模仿人类的视觉感知和鼠标操作。然而这种“拟人化”方案存在两个根本性缺陷:一是成本过高(每次交互都需要处理复杂的多模态输入链),二是可靠性受限(基于多模态分析的像素级精准点击,对当下AI来说本身就是挑战)。
问题的核心在于,GUI天然是为人类认知模式设计的交互语言,强制Agent去适配人类界面,本质上是一种“削足适履”的妥协。真正的突破可能需要我们重新思考交互范式——不是教会Agent使用人类工具,而是为Agent重新定义数字世界的交互协议。
与其让Agent学会用鼠标,不如让软件学会说Agent的语言——CLI可能更是Agent-native的Computer Use方式。
为什么不一定要让AI像人一样操作界面?AI完全可以有自己更高效的交互模式。所以他们做了CLI Anything,把各种软件包装成命令行接口,让Agent直接通过CLI操作,而不是费力模拟人类点击。现在CLI Hub上已经有80个软件,31个分类。未来软件使用应该是CLI+GUI的混合模式:Agent通过CLI高效完成复杂任务,人类通过GUI享受直观体验。
想想看,Agent直接用命令行操作3D建模、设计软件这些专业工具,用户不用学复杂软件,开发者也不用写一堆API文档。这种分工更合理——同一个软件,给AI提供CLI接口干活,给人类提供GUI界面享受,各自用最适合的方式,这才是真正的AI-native架构。
自进化:skill-based路线才是方向
为什么Agent需要自进化?因为希望它在复杂任务中能总结经验、沉淀价值信息。目前有三种自进化路线:适应环境(迭代workflow和harness)、技能沉淀(把经验总结成可复用的skill)、参数更新(把Agentic任务的能力通过reward学到模型参数里)。第一和第三种路线都有泛化性差的问题——针对特定场景进化的Agent很难复用到其他地方。
所以团队选择第二种路线,做了Open Space来实现skill-based的Agent自进化。但现实中基于skill的进化也面临几个核心挑战:第一,高质量skill稀缺;第二,精准匹配困难——比如做量化交易,skill库里有市场级、股票级、一级市场、二级市场各种粒度,到底该选哪个?第三,粒度管理复杂——不同层级的skill如何有效组织和检索。从MCP演进到skill,这些根本问题并没有解决。他们希望借鉴wiki的检索机制来管理skill,解决多粒度匹配的挑战,这样才能实现真正有效的自进化。
在来自44个行业、一共220个任务上测试Agent进化前后的差别,发现token消耗显著减少,任务完成度明显提升。更重要的是,Agent能通过学习大幅降低自己的运行成本。
Agent Swarm实验:3-5个是临界点
接下来他们做了个更大胆的实验:用8个Agent调用8张H100显卡,去训练一个大语言模型。23小时内模型性能提升了6%,工作量相当于一个博士3周的活。这个实验验证了Agent Swarm的可行性,但发现关键洞察:3-5个Agent就够了,更多不见得更好。目前行业还没摸清Agent数量的scaling law。
当下除了coding,很多Agent Swarm场景缺乏有效的质量验证,很难判断最优配置。关键问题不是堆数量,而是在特定任务复杂度下,需要多少Agent以及如何分工。与人类团队不同,Agent协作成本更低、沟通延迟几乎为零,这可能重新定义最优团队规模。但paradox是:零沟通成本理论上支持更大规模协作,实际效果却可能在小规模达到峰值。这暗示Agent协作的瓶颈不在沟通,而在任务分解、冲突协调的复杂度、上下文对齐,以及每个步骤的精准验证。Agent越多,这些隐性成本可能呈指数级增长。
还有个有趣发现:学生们在vibe coding时,会把Agent集群的协同过程可视化——任务分发、完成、交互全流程都能看到。这不只是炫技,而是在碎片化的工作时间里提供情绪价值,让等待变得有趣。
科研赋能:加速试错,但无法加速验证
他们做了AI researcher Agent来赋能科研。核心价值很明确:如果以前一周只能试错一种算法,现在一周能试几十种。科研本质就是试错和信息关联,Agent能大幅加速这个过程,特别是帮新手快速梳理领域信息。但关键挑战在于如何探索出高质量的科研成果。科研的质量验证往往也很挑战,因为真正有价值的科研发现可能需要几个月甚至几年才能被验证。这带来一个悖论:Agent能加速试错,但无法加速验证。我们可能陷入“快速产出低质量假设”的陷阱,而不是“深入探索高质量洞察”。
这就是整个Agent生态的布局:从nanobot单体Agent,到computer use、Agent协同和自进化,希望能突破现有Agent的边界。未来Agent的价值不只在于单点突破,而在于整个生态协同。从团队在开源项目上的持续迭代,以及整个开源社区的贡献来看,目前AI Agent很多技术还处在百花齐放的阶段,开源往往能够让大家更好地一起探索技术边界,避免各自闭门造车。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。