AI合作写论文实测:DeepSeek与双AI表现
摘要
DeepSeek研究员陈德里与两个AI合著综述,系统梳理自主科研智能体领域,提出L1至L5自主等级
“借助 CodeAgent,我终于可以重新捡起很多过去因为精力不足而搁置的事情了,写博客就是其中之一。这篇博客大概 1% 是我写的,99% 是 Agent 写的”。
最近,DeepSeek 的研究员陈德里(Deli Chen)在社交平台上分享了一篇由 AI 智能体深度参与完成的综述文章《从副驾驶到同事:自主科研智能体综述》。

这篇文章更像是一次兴趣驱动的尝试,用陈德里自己的话说,一方面是出于好玩,另一方面也是为了测试他开发的“Deli AutoResearch SKILL”智能体框架。因此,它并非一篇严格意义上的学术论文,观点也仅代表个人探索。
整个创作过程本身就是一个有趣的实验。这篇综述迭代了6轮,初稿由智能体在76分钟内生成,总耗时约6天。期间经历了108轮人机交互,消耗了约64.8万 tokens,最终产出了一份46页、包含103篇已核验参考文献、7张图和4张表的LaTeX文档。
完成这项工作后,陈德里抛出了一个颇为犀利的观察:Code Agent 正在让计算机科学论文发生“疯狂通胀”。过去需要耗费一个月精力的同类工作,如今在人类“总CPU时间”不到两小时的情况下就能完成框架搭建和核心内容生成。

更有意思的是这篇论文的“作者”构成。除了作为第一作者的人类研究员陈德里,另外两位“合著者”分别是负责文字的DeepSeek-V4-Pro和负责图像的GPT-Image2。换句话说,这是一篇由人类研究员指挥AI,共同完成的关于AI如何做科研的综述。

研究者本身成为了研究对象。这篇综述系统性地梳理了一个正在混乱中高速生长的领域——自主科研智能体。其核心目标是:给AI一个科研目标,它能独立完成从假设提出、实验设计、代码执行、结果分析到论文撰写的完整循环,全程无需人类步步审批。
这早已不是科幻设想。过去18个月里,衡量软件工程能力的SWE-bench基准上,AI解决真实GitHub问题的比率从不足5%攀升至70%以上;已有系统能以每篇15美元的成本产出完整学术论文并通过人类初审;更有系统在无人引导的情况下,发现了超越已知边界的新数学构造。

AI正在从“研究工具”变成“研究者”本身,速度之快超乎许多人的预料。
背景:从“副驾驶”到“同事”的转变
要理解这场变革,不妨先想想传统科研助理的角色:你给他一个课题,他能帮你检索文献、整理表格、执行代码。但每一步都需要你明确指令,遇到问题他会停下来等你,他不会主动思考“接下来研究什么更有价值”。
这就是过去几年AI扮演的角色——副驾驶。方向盘,始终牢牢握在人类手里。
而现在,一场“交权实验”正在进行。新一代智能体系统正尝试独立跑完完整的科研闭环:提出假设、设计实验、执行代码、分析结果、撰写报告,甚至自我审阅和迭代。整个过程,无需人类在每一个环节点头批准。
这种转变有多迅猛?研究者们的描述是“迅速而决定性”,短短18个月,便从工具进化到了具备部分自主能力的“同事”。当然,“同事”的能力也天差地别。有的系统只是能跑完一段代码不报错;有的则可以在机器人实验室里独自合成化合物。要给这片混乱的版图建立秩序,首先需要一套统一的语言。这正是这篇综述试图提供的核心价值。

核心贡献一:为“自主程度”建立五级分类
这篇综述最重要的贡献之一,是提出了一套从L1到L5的自主等级分类体系,巧妙地类比了汽车驾驶的自动化标准。

L1(自动补全)是最常见的状态。GitHub Copilot、各类代码补全工具都在此列。AI预测下一行代码,但人类掌控一切方向。生产力提升约30%至55%,代价是毫无自主性。
L2(任务执行)是现在大多数人用ChatGPT、Claude日常交互的层级。AI能分解任务、调用工具,但每一步都需要人类点头认可。人是策略决策者,AI是执行者。
L3(多步自主,设有检查点)是当前主流“智能体编程工具”的位置,比如Claude Code、Cursor Agent。AI能在设定的检查节点前独立执行数十步操作,出了预定范围才来找人确认。人类保持战略监督,但不必过问每个细节。
L4(端到端全自动)是当前技术前沿。Devin、SWE-Agent、AI Scientist都在这里。给它一个科研目标,它能独立工作数小时乃至数天,产出完整成果。人类只需要在最后评估结果。综述中分析的17个主要系统,最高均处于L4。
L5(自主设定研究议程)目前仍是“愿景”。这一层级的系统不只执行研究,还能自己选择研究什么问题、分配资源、在数周到数月的时间跨度里持续积累知识。没有任何现有系统完整实现了L5,但一些苗头已经出现。

这套分类清晰地描绘了一条演化路径:从“帮你干活”到“替你思考”,每一级之间横亘着什么样的技术鸿沟。

核心贡献二:四种架构模式的得与失
知道“系统自主到什么程度”还不够,还需要理解“它是怎么做到的”。综述归纳了当前主流的四种智能体架构范式。

单智能体循环,是最简洁的形态:一个模型反复进行“计划—行动—观察—反思”。就像一位独自工作的研究员,想好了就动手,看到结果再调整。好处是简单可控,缺点是遇到复杂任务容易触及能力上限,如同一个人同时负责所有工种,精力很快耗尽。

多智能体协作,相当于组建一个团队。不同智能体分工扮演不同角色,相互审核和补充。MetaGPT走得更远:它将标准作业流程编码进多智能体协作中,就像一家软件公司,产品经理、架构师、工程师、测试员各司其职,通过规范化文档交接。结果是任务完成率从67%跃升至100%。
层级编排,是“管理者-执行者”模式的技术实现。一个高层智能体分解目标、分配任务,多个专项子智能体各自负责具体执行并汇报结果。Claude Code采用这一架构:主智能体维持全局规划,遇到文件编辑或网页搜索等具体任务,便派出子智能体独立完成,避免无关信息干扰主体判断。
工具增强执行,是“给智能体配备外部手脚”——代码执行环境、网络浏览、数据库查询、实验室机器人控制接口等。例如ChemCrow集成了18种化学专用工具,让模型从“知道怎么回答化学问题”升级到“能真正操作化学流程”,将化学问题的正确率从原始GPT-4的不足30%提升至75%。
这四种架构各有擅长,没有哪一种能全面碾压其他。现实中最强大的系统,往往是将它们混合使用:层级编排负责统筹,工具增强负责执行,多智能体协作负责质量审核,单智能体循环负责具体推理。
核心贡献三:直面六大未解难题
综述最显诚意的部分,在于它直面了这个领域仍悬而未决的核心困境。

认知循环陷阱:智能体陷入死循环——反复执行同一个失败操作,却意识不到自己在原地打转。AutoGPT因此声名狼藉。目前没有通用的系统性解决方案,大多数“反循环”机制依赖特定任务的手工调参。
上下文窗口限制:模型的“工作记忆”是有限的。一次长时间科研会话可能产生十万个以上的词元,超出窗口范围的早期信息便永久消失。层级编排能缓解这个问题,但仍难以实现真正跨会话的“研究记忆”。
新颖性评估:AI产出的研究成果,如何判断它是否真正新颖?引用量预测受社会因素干扰,语义相似度又无法区分“新颖”和“偏僻冷门”。目前能做到客观验证的,只有像FunSearch那样用程序输出量化衡量的极少数领域。
可重现性危机:同样的系统、同样的任务,每次运行结果可能大相径庭。基准测试上的性能数字,标准差动辄达到5%至15%。如何在随机性和严谨性之间找到平衡,目前尚无定论。

安全与伦理:能自主设计化学合成方案的系统,同样可能被引向危险化合物。这不只是“加一个过滤器”就能解决的工程问题,而是一个根本性的架构矛盾——对益处有用的能力,往往和对害处有用的能力难以分离。
成本与可及性:解决一个SWE-bench任务的API费用,约在5至50美元之间;完整的科研流程则可能消耗数百至数千美元。最强大的基础模型仍是专有且昂贵的。如果自主科研能力只属于资源雄厚的机构,那么它加速的,也可能是科研不平等而非科研本身。
结语
这篇覆盖了超过95篇论文、详细分析了17个主要系统的综述,结论清醒而审慎:当前最好的系统处于L4,L5仍是愿景;代码类任务已有相当成熟的自动化能力,但真正意义上的开放科学发现仍停留在演示阶段。
论文的最后写道:“L5自主研究——能够自主制定长期研究议程的智能体——是一个‘何时’而非‘是否’的问题。研究社区的任务是确保这一转变伴随着充分的理解、适当的保障,以及公平的收益分配。”

这句话出自一位参与构建了前沿AI模型的研究员和两个AI。他们共同写下了这段对自身未来发展的警示。这本身,就是一件值得细细品味的事。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。