观智源大会Agent分论坛精华:AI智能体趋势与案例
摘要
智源大会Agent分论坛体验最差,民科味浓,多数报告局限于纯LLMAgent或纯RL控制机器人,严重
TLDR
原本期待看到LLM与RL结合的智能体前沿进展,实际体验却是“LLM Agent报告”+“RL报告”+一位RL研究者对当下LLM Agent研究的尖锐批评。

Agent分论坛的观看体验是全场最差的,民科气息最浓厚。其他论坛会快速略过的细节,在这里被大篇幅展开,整体观感如同本科毕业答辩的加长版。
推荐等级:不建议观看。实在无聊想看也不拦着。
本文无任何技术干货,纯属个人吐槽。
论坛尾声,一位做RL的讲者对当前LLM Agent研究现状的吐槽值得一看:
https://www.bilibili.com/video/BV1JZ421M7RD/
吐槽正篇
1、整体观感
这次完整追踪了智源大会的五个分论坛和一个线上报告:全体大会、大语言模型、大模型产业技术、意识与通用人工智能,以及Agent。一轮看下来,Agent分论坛的体验最差。
大部分工作的深度和工作量,说高可以,说低也行——说它们像清华本科生的毕业设计也毫不违和。与其他论坛相比,Agent分论坛的档次明显低了一大截,民科味过重,甚至拉低了智源大会的整体水准。意识与通用人工智能那边虽然讲得不深,但内容扎实,只是受限于时间无法展开,权当科普。Agent分会场恰恰相反——既不深入,也不高端,反而絮絮叨叨地纠缠在完全不重要的细枝末节上。
每位报告人含答疑的1小时时长实在太长。以这样的内容密度,其他论坛给30分钟都绰绰有余。
原本期望通过智源这个窗口,看到一些最前沿的LLM+RL可自我提升的Agent方案,结果整场要么是纯LLM Agent的报告,要么是纯RL控制机器人的报告,完全没有交叉融合的部分。更讽刺的是,最后一位RL报告人站在自身角度狠狠吐槽了当前LLM Agent研究的“低劣”,堪称点睛之笔。片段见:
https://www.bilibili.com/video/BV1JZ421M7RD/
前三位讲LLM Agent的报告人,只有一位有教职(助理教授),另外两位分别是博后和在读博士。这让人困惑:是有教职的学者没做这个方向?不愿参会?还是根本拿不出内容?
最后一位做RL的人,报告大部分时间在讲纯RL控制机器人,后面一点点将LLM作为语义理解模块用于RL Agent,最后是对LLM Agent研究的吐槽。全程看下来,不禁怀疑:这位到底是来干什么的?
2、观后反思
连智源大会都只能邀请到这种水平的内容,说明大家真的不必期待能够结合RL的强能力Agent能在短期内落地——学界都还没做出来。
而且整个会场的民科氛围,让有追求的人最好别说自己做的事算Agent。“你才做Agent,你们全家都做Agent”。这话说得有点狠,但放在智源这个平台上,这些报告在其他地方至少算中等偏上,在这里却被衬托得一言难尽。
3、报告1的吐槽
第一个报告来自ChatDev的作者。考虑到ChatDev的影响力以及与会场主持人刘知远的关系(ChatDev作者列表里就有刘知远,见 https://arxiv.org/abs/2307.07924),这倒正常。但奇怪的是,既然有关系,怎么没顺带帮面壁做点宣传?其他会场可是大方地给自家公司做PR。
ChatDev推出这么久,至今没听说“能自己开公司,全靠ChatDev低成本写代码,大幅压低2B软件服务报价”。当然,AutoGPT和BabyAGI也做不到,学术原型无法落地才是常态。现在别再吹ChatDev了,把它当成靶子,说正在努力研究更好的方案,反而更能赢得好感。
Co-Learning有点新意,但这些想法在应用层的人中早就被考虑过。仍不看好落地,只是学术占坑的demo。
从开始提Multi Agent的scaling law时,民科味就开始变浓。更可笑的是拿出S曲线——大部分领域不都是S曲线么?无论是理论价值还是实用价值,这能蹭上scaling law的边吗?用S曲线做拟合,数值稳定性和预测准确率又能好到哪里去?
4、报告2的吐槽
如果说报告1还是学界王婆卖瓜的常见模式,报告2就开始彻底放飞了——因为它讲的是LLM Agent OS。
后面一大段内容说Agent OS可以像“现在操作系统一样去管进程的调度”一样去管Agent的调度。满眼工程特性,而且大多对标传统OS。这事真的需要一个新Agent OS来做吗?传统OS做不到吗?
整个思路不能说毫无创新,但主体完全对标传统OS,基本抹杀了细节上的价值。很符合去年一些投资人的视角,大概挺适合申请经费。从实际角度出发,这东西是绝对不会考虑的。
5、报告3的吐槽
报告3来自CAMEL的作者,一位在读博士。CAMEL的主要学术价值在于提出时间早,现在早已完成历史使命。
报告整体感觉与ChatDev类似,前面塞了一大段历史回顾来凑时间,同样提到了Multi Agent的scaling law。对了,报告主题还叫“Finding the scaling law of agents”。要不是CAMEL这种有点名气的项目作者,我都以为自己打开了某个论文预讲会的视频,甚至内容可能还不如预讲会的观感。
6、报告4
报告4来自一位做传统RL的人。内容倒没什么可吐槽的,无论是内容还是PPT的信息量都回归正常水准。
但会让人第一反应是:为什么这个主题会出现在这个论坛?然后才意识到,原来Agent本来是从RL借来的词,RL才是更正统的,虽然现在没人关心这个了。(机器人公司:你说啥?)
那么,正经做RL的人能给出一个LLM和RL的有机结合方案吗?不能,依然只能把LLM作为语义理解组件加入机器人Agent中。(机器人公司:这就够了吧)大家期望的那种靠RL来优化LLM Agent的方案,仍然没有,死心吧。
颇为搞笑的是,这个报告末尾,主讲人也吐槽了一番目前LLM Agent研究的烂现状。虽然很认同这段话,但感觉就是来砸场子的,特别是碰巧放在了整个分会场的末尾。
A、结语
很不喜欢用Agent这个词,因为它的概念已经完全混淆,而且“在沟通中使用Agent这个词”与“这个人对LLM应用认知的专业度”已呈负相关。但从写文章,特别是拟标题的角度,又不得不用,否则大家更get不到意思。去年年中用“基于LLM的程序”这样的词,结果发现大家根本不知道在说什么。
所以在沟通时,请直接谈要讨论的具体问题或领域。“你才做AI Agent,你们全家都做AI Agent。”
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。