热点资讯

Agent趋势权威榜单：AI原生时代港大黄超解读

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

AIAgent发展需构建Agent原生基础设施，通过轻量化设计、命令行接口替代图形界面，实现数字

Agent时代的基础设施：不是让AI适应人，而是让数字世界说AI的语言

AI Agent演进至今，一个底层问题逐渐凸显：我们需要构建怎样的基础设施？香港大学助理教授黄超的论断直指核心——与其强迫Agent不断适配人类，不如为Agent重新设计数字世界的交互协议。

在一次行业分享中，黄超系统复盘了团队过去两年在AI Agent领域的沉淀与实践。他们的首要动作，是将Agent做“轻”做“薄”。

当看到OpenClaw发布时包含43万行代码（目前已超100万），他们选择逆向操作——以极简方式开源通用Agent nanobot。结果反响远超预期：连续100天每日迭代更新，下载量突破20万次，被DeepSeek列为全球15个推荐Agent之一，并在OpenRouter平台的通用Agent榜单中升至第四。

轻量化仅是第一步。接下来团队计划用nanobot挑战更长程、更复杂的任务，验证Agent在真实生产环境中的持续执行能力。这里的长程任务不仅指运行时长，更关键的是任务链路复杂度——需要跨越多个软件生态、调用异构工具组合，要求Agent具备跨域协调与持续决策的综合素养。

这背后映射出他们对Agent能力边界的深度思考：真正的生产力Agent不能仅停留在对话与代码生成，必须能熟练操控复杂软件生态，在动态环境中自我进化，并在集群协作中创造价值。基于将Agent从“AI助手”升级为“数字劳动力”的愿景，他们提出CLI-Anything。

核心洞察很清晰：与其让Agent费力学习人类界面，不如让软件原生支持Agent语言。通过将专业软件重新封装为命令行接口，Agent能直接驱动3D建模、设计工具、多媒体编辑等原本需要大量人类学习成本的复杂应用。黄超认为，相比GUI，CLI才是真正AI原生的Computer Use方式。这不只是技术选型，更是交互范式的根本重构——从让AI适应人类工具，转向让数字世界说AI的语言。

除了Agent-native接口这一基础设施层，团队同样重视Agent自进化能力的构建。毕竟仅有好的接口还不够，Agent还需要在使用过程中持续学习和自我优化。

当前自进化研究主要分为Internal和External两条路线。Internal模式专注于优化Agent内核——升级框架、调整参数、改进推理链路，但这种内向型进化往往受限于特定场景，难以实现真正的跨域迁移。相比之下，External模式采用技能积累策略，通过不断扩充和优化工具库，逐步构建具有协同效应的Agent生态。这种外向型进化更符合“重新设计数字世界”的理念——不是让单个Agent变得更聪明，而是让整个Agent网络变得更强大。

为验证这种协同进化模式的可行性，他们设计了一个AI自动化科研实验：让8个Agent协调8张H100显卡进行分布式模型训练。实验结果证实，在合理的任务分发架构下，Agent集群确实能显著提升生产效率。但当进一步扩展Agent规模时，边际收益开始递减，甚至出现协调开销超过性能增益的临界点。这揭示Agent Swarm的Scaling Law远比想象中复杂，可能存在一个最优的临界规模，超过这个阈值反而会产生负收益。如何定位这个平衡点，仍是重新设计Agent协作生态的核心挑战。

Agent的核心架构：一个优雅的ReAct循环

Agent的整体架构并不复杂，本质就是一个ReAct框架：Reasoning做规划→Action调用工具→Observation获取反馈，整个流程就是一个while循环。通用Agent的能力并非全部来自复杂的架构设计，而是来自推理、执行、反馈这一基本认知循环的有效实现。

ReAct架构的泛化性源自其模块化解耦：reasoning处理抽象推理，action负责具体执行，observation提供环境反馈。Agent面对新任务时，通过重组已有的推理策略和行动原语来适应新环境，实现真正的跨域泛化能力。

长程任务的本质挑战不在于执行时间，而在于复杂性的指数级增长。成功的Agent不是避免错误，而是预期错误并实现优雅降级，能够主动设计、持续监控和动态优化整个执行过程，这正是将AI助手升级为强生产力协作者的核心所在。

Agent需要learning from real tasks，在错误中不断学习、感知自己错在哪里，才能真正节约Token成本。这揭示了一个核心矛盾：研究Agent往往专注于探索能力上界，却忽略了Token本身就是实际成本约束。

面向Computer Use Agent，GUI模式开销大且准确度受限，CLI可能是通用Agent进行computer use更优的软件交互方式。Agent自进化可通过workflow优化、skill沉淀和模型参数调优几条路线推进，其中基于skill的进化范式展现出最强的泛化性，但在Tool-Use层面仍面临核心挑战。

从nanobot出发：大道至简的Agent设计哲学

看到OpenClaw发布时包含43万行代码，团队意识到通用Agent的核心技术其实不需要那么复杂。nanobot的初衷是希望以最轻量化的方式将Agent技术开放给社区，既能方便开发者进行二次开发，也可以作为学习Agent技术的入门。没想到nanobot收到了超出预期的关注，他们坚持了连续100天的日更迭代，不断整合社区在各个场景下的反馈和需求。目前下载量已超过20万次，被DeepSeek选为全球15个推荐Agent之一，也在OpenRouter平台的通用Agent榜单中排到第四名。

这个过程也体现了Agent系统设计的大道至简哲学：很多关键技术的突破也来自将复杂问题简单化。当前Agent的一些技术难点也在通过巧妙的设计被逐步化解。

有了通用Agent后，下一步挑战是将其从简单的AI助手升级为AI强生产力工具。目前Agent虽然消耗大量token，但实际能很好落地的任务仍局限在coding和research等少数场景。当下Agent面临的一些核心挑战：

第一，长程任务的鲁棒性

长程任务的难点不在于时间长或步骤多，而在于场景的复杂性和多样性。在丰富的工具调用场景中，任何一步错误都可能导致整体失败，这需要更强的harness设计来保障任务的连续性。

第二，从错误中学习的自进化能力

Agent需要实现learning from real task，在失败中识别错误模式并优化策略。这不仅能提升成功率，更重要的是能显著降低token消耗。当前大家都在探索Agent的性能上界，却忽略了成本控制。未来的Agent必须实现“自负盈亏”——在追求能力边界的同时，考虑token经济性。真正的突破将来自于在复杂任务中保持高成功率的同时，大幅降低计算成本。

第三，持续性环境与上下文对齐

简单的sandbox已经不够了，Agent需要一个完整的计算环境——文件系统、数据存储、交互界面这些都得有。现在sandbox每次新建loop就重置，对长程任务很不友好。Human-Agent对齐也存在现实问题：如果能写出超详细的文档，告诉Agent在什么情况下调用什么工具，Agent干活质量挺好。但现实中谁能写出这样的文档？

核心难题在于，人都很懒，怎么在有限的交互中让Agent理解我们的真实意图。这不只是技术问题，更是怎么设计交互——用最少的沟通，传递最准确的上下文。Agent harness需要更聪明的环境管理，也要更会“读懂”人的意思，而不是指望人类提供完美的任务描述。

用nanobot开发一款完整的马里奥游戏，验证了Agent在长程任务中的表现。这个过程暴露了一个关键问题：Agent需要在每一步都做好测试和evaluation，才能保证整个流程的可靠性。ToC vs ToB的容错差异很明显——ToC场景用户对精度容忍度较高，但ToB对Agent的交付能力要求极其严格。这意味着面向企业的Agent必须具备生产级的稳定性和准确性。

从游戏开发这样的复杂软件工程中可以看出，真正具备生产力的Agent不仅要能写代码，更要能做系统性的测试、调试和迭代。这种端到端的能力才是Agent从“玩具”向“工具”转变的关键。

重新定义交互范式：CLI才是Agent-native的Computer Use

要让Agent从助手升级为真正的AI生产力工具，仅有Agent本体是不够的，关键在于构建一套Agent-native的软件交互生态。我们的日常工作高度依赖Office套件、设计软件、3D建模工具等专业应用，但现有的通用Agent很难与这些软件建立有效连接。

过去几年，Computer Use主要依赖GUI路径——让Agent模仿人类的视觉感知和鼠标操作。然而这种“拟人化”方案存在两个根本性缺陷：一是成本过高（每次交互都需要处理复杂的多模态输入链），二是可靠性受限（基于多模态分析的像素级精准点击，对当下AI来说本身就是挑战）。

问题的核心在于，GUI天然是为人类认知模式设计的交互语言，强制Agent去适配人类界面，本质上是一种“削足适履”的妥协。真正的突破可能需要我们重新思考交互范式——不是教会Agent使用人类工具，而是为Agent重新定义数字世界的交互协议。

与其让Agent学会用鼠标，不如让软件学会说Agent的语言——CLI可能更是Agent-native的Computer Use方式。

为什么不一定要让AI像人一样操作界面？AI完全可以有自己更高效的交互模式。所以他们做了CLI Anything，把各种软件包装成命令行接口，让Agent直接通过CLI操作，而不是费力模拟人类点击。现在CLI Hub上已经有80个软件，31个分类。未来软件使用应该是CLI+GUI的混合模式：Agent通过CLI高效完成复杂任务，人类通过GUI享受直观体验。

想想看，Agent直接用命令行操作3D建模、设计软件这些专业工具，用户不用学复杂软件，开发者也不用写一堆API文档。这种分工更合理——同一个软件，给AI提供CLI接口干活，给人类提供GUI界面享受，各自用最适合的方式，这才是真正的AI-native架构。

自进化：skill-based路线才是方向

为什么Agent需要自进化？因为希望它在复杂任务中能总结经验、沉淀价值信息。目前有三种自进化路线：适应环境（迭代workflow和harness）、技能沉淀（把经验总结成可复用的skill）、参数更新（把Agentic任务的能力通过reward学到模型参数里）。第一和第三种路线都有泛化性差的问题——针对特定场景进化的Agent很难复用到其他地方。

所以团队选择第二种路线，做了Open Space来实现skill-based的Agent自进化。但现实中基于skill的进化也面临几个核心挑战：第一，高质量skill稀缺；第二，精准匹配困难——比如做量化交易，skill库里有市场级、股票级、一级市场、二级市场各种粒度，到底该选哪个？第三，粒度管理复杂——不同层级的skill如何有效组织和检索。从MCP演进到skill，这些根本问题并没有解决。他们希望借鉴wiki的检索机制来管理skill，解决多粒度匹配的挑战，这样才能实现真正有效的自进化。

在来自44个行业、一共220个任务上测试Agent进化前后的差别，发现token消耗显著减少，任务完成度明显提升。更重要的是，Agent能通过学习大幅降低自己的运行成本。

Agent Swarm实验：3-5个是临界点

接下来他们做了个更大胆的实验：用8个Agent调用8张H100显卡，去训练一个大语言模型。23小时内模型性能提升了6%，工作量相当于一个博士3周的活。这个实验验证了Agent Swarm的可行性，但发现关键洞察：3-5个Agent就够了，更多不见得更好。目前行业还没摸清Agent数量的scaling law。

当下除了coding，很多Agent Swarm场景缺乏有效的质量验证，很难判断最优配置。关键问题不是堆数量，而是在特定任务复杂度下，需要多少Agent以及如何分工。与人类团队不同，Agent协作成本更低、沟通延迟几乎为零，这可能重新定义最优团队规模。但paradox是：零沟通成本理论上支持更大规模协作，实际效果却可能在小规模达到峰值。这暗示Agent协作的瓶颈不在沟通，而在任务分解、冲突协调的复杂度、上下文对齐，以及每个步骤的精准验证。Agent越多，这些隐性成本可能呈指数级增长。

还有个有趣发现：学生们在vibe coding时，会把Agent集群的协同过程可视化——任务分发、完成、交互全流程都能看到。这不只是炫技，而是在碎片化的工作时间里提供情绪价值，让等待变得有趣。

科研赋能：加速试错，但无法加速验证

他们做了AI researcher Agent来赋能科研。核心价值很明确：如果以前一周只能试错一种算法，现在一周能试几十种。科研本质就是试错和信息关联，Agent能大幅加速这个过程，特别是帮新手快速梳理领域信息。但关键挑战在于如何探索出高质量的科研成果。科研的质量验证往往也很挑战，因为真正有价值的科研发现可能需要几个月甚至几年才能被验证。这带来一个悖论：Agent能加速试错，但无法加速验证。我们可能陷入“快速产出低质量假设”的陷阱，而不是“深入探索高质量洞察”。

这就是整个Agent生态的布局：从nanobot单体Agent，到computer use、Agent协同和自进化，希望能突破现有Agent的边界。未来Agent的价值不只在于单点突破，而在于整个生态协同。从团队在开源项目上的持续迭代，以及整个开源社区的贡献来看，目前AI Agent很多技术还处在百花齐放的阶段，开源往往能够让大家更好地一起探索技术边界，避免各自闭门造车。

来源：互联网

上一篇 扩散模型在线策略蒸馏新范式复旦通义万相联合发布 下一篇 Vibe Coding实战场景测评：避坑指南与推荐

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。