模型技术

AI合作写论文实测：DeepSeek与双AI表现

2026-05-28

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

DeepSeek研究员陈德里与两个AI合著综述，系统梳理自主科研智能体领域，提出L1至L5自主等级

“借助 CodeAgent，我终于可以重新捡起很多过去因为精力不足而搁置的事情了，写博客就是其中之一。这篇博客大概 1% 是我写的，99% 是 Agent 写的”。

最近，DeepSeek 的研究员陈德里（Deli Chen）在社交平台上分享了一篇由 AI 智能体深度参与完成的综述文章《从副驾驶到同事：自主科研智能体综述》。

这篇文章更像是一次兴趣驱动的尝试，用陈德里自己的话说，一方面是出于好玩，另一方面也是为了测试他开发的“Deli AutoResearch SKILL”智能体框架。因此，它并非一篇严格意义上的学术论文，观点也仅代表个人探索。

整个创作过程本身就是一个有趣的实验。这篇综述迭代了6轮，初稿由智能体在76分钟内生成，总耗时约6天。期间经历了108轮人机交互，消耗了约64.8万 tokens，最终产出了一份46页、包含103篇已核验参考文献、7张图和4张表的LaTeX文档。

完成这项工作后，陈德里抛出了一个颇为犀利的观察：Code Agent 正在让计算机科学论文发生“疯狂通胀”。过去需要耗费一个月精力的同类工作，如今在人类“总CPU时间”不到两小时的情况下就能完成框架搭建和核心内容生成。

更有意思的是这篇论文的“作者”构成。除了作为第一作者的人类研究员陈德里，另外两位“合著者”分别是负责文字的DeepSeek-V4-Pro和负责图像的GPT-Image2。换句话说，这是一篇由人类研究员指挥AI，共同完成的关于AI如何做科研的综述。

研究者本身成为了研究对象。这篇综述系统性地梳理了一个正在混乱中高速生长的领域——自主科研智能体。其核心目标是：给AI一个科研目标，它能独立完成从假设提出、实验设计、代码执行、结果分析到论文撰写的完整循环，全程无需人类步步审批。

这早已不是科幻设想。过去18个月里，衡量软件工程能力的SWE-bench基准上，AI解决真实GitHub问题的比率从不足5%攀升至70%以上；已有系统能以每篇15美元的成本产出完整学术论文并通过人类初审；更有系统在无人引导的情况下，发现了超越已知边界的新数学构造。

AI正在从“研究工具”变成“研究者”本身，速度之快超乎许多人的预料。

背景：从“副驾驶”到“同事”的转变

要理解这场变革，不妨先想想传统科研助理的角色：你给他一个课题，他能帮你检索文献、整理表格、执行代码。但每一步都需要你明确指令，遇到问题他会停下来等你，他不会主动思考“接下来研究什么更有价值”。

这就是过去几年AI扮演的角色——副驾驶。方向盘，始终牢牢握在人类手里。

而现在，一场“交权实验”正在进行。新一代智能体系统正尝试独立跑完完整的科研闭环：提出假设、设计实验、执行代码、分析结果、撰写报告，甚至自我审阅和迭代。整个过程，无需人类在每一个环节点头批准。

这种转变有多迅猛？研究者们的描述是“迅速而决定性”，短短18个月，便从工具进化到了具备部分自主能力的“同事”。当然，“同事”的能力也天差地别。有的系统只是能跑完一段代码不报错；有的则可以在机器人实验室里独自合成化合物。要给这片混乱的版图建立秩序，首先需要一套统一的语言。这正是这篇综述试图提供的核心价值。

核心贡献一：为“自主程度”建立五级分类

这篇综述最重要的贡献之一，是提出了一套从L1到L5的自主等级分类体系，巧妙地类比了汽车驾驶的自动化标准。

L1（自动补全）是最常见的状态。GitHub Copilot、各类代码补全工具都在此列。AI预测下一行代码，但人类掌控一切方向。生产力提升约30%至55%，代价是毫无自主性。

L2（任务执行）是现在大多数人用ChatGPT、Claude日常交互的层级。AI能分解任务、调用工具，但每一步都需要人类点头认可。人是策略决策者，AI是执行者。

L3（多步自主，设有检查点）是当前主流“智能体编程工具”的位置，比如Claude Code、Cursor Agent。AI能在设定的检查节点前独立执行数十步操作，出了预定范围才来找人确认。人类保持战略监督，但不必过问每个细节。

L4（端到端全自动）是当前技术前沿。Devin、SWE-Agent、AI Scientist都在这里。给它一个科研目标，它能独立工作数小时乃至数天，产出完整成果。人类只需要在最后评估结果。综述中分析的17个主要系统，最高均处于L4。

L5（自主设定研究议程）目前仍是“愿景”。这一层级的系统不只执行研究，还能自己选择研究什么问题、分配资源、在数周到数月的时间跨度里持续积累知识。没有任何现有系统完整实现了L5，但一些苗头已经出现。

这套分类清晰地描绘了一条演化路径：从“帮你干活”到“替你思考”，每一级之间横亘着什么样的技术鸿沟。

核心贡献二：四种架构模式的得与失

知道“系统自主到什么程度”还不够，还需要理解“它是怎么做到的”。综述归纳了当前主流的四种智能体架构范式。

单智能体循环，是最简洁的形态：一个模型反复进行“计划—行动—观察—反思”。就像一位独自工作的研究员，想好了就动手，看到结果再调整。好处是简单可控，缺点是遇到复杂任务容易触及能力上限，如同一个人同时负责所有工种，精力很快耗尽。

多智能体协作，相当于组建一个团队。不同智能体分工扮演不同角色，相互审核和补充。MetaGPT走得更远：它将标准作业流程编码进多智能体协作中，就像一家软件公司，产品经理、架构师、工程师、测试员各司其职，通过规范化文档交接。结果是任务完成率从67%跃升至100%。

层级编排，是“管理者-执行者”模式的技术实现。一个高层智能体分解目标、分配任务，多个专项子智能体各自负责具体执行并汇报结果。Claude Code采用这一架构：主智能体维持全局规划，遇到文件编辑或网页搜索等具体任务，便派出子智能体独立完成，避免无关信息干扰主体判断。

工具增强执行，是“给智能体配备外部手脚”——代码执行环境、网络浏览、数据库查询、实验室机器人控制接口等。例如ChemCrow集成了18种化学专用工具，让模型从“知道怎么回答化学问题”升级到“能真正操作化学流程”，将化学问题的正确率从原始GPT-4的不足30%提升至75%。

这四种架构各有擅长，没有哪一种能全面碾压其他。现实中最强大的系统，往往是将它们混合使用：层级编排负责统筹，工具增强负责执行，多智能体协作负责质量审核，单智能体循环负责具体推理。

核心贡献三：直面六大未解难题

综述最显诚意的部分，在于它直面了这个领域仍悬而未决的核心困境。

认知循环陷阱：智能体陷入死循环——反复执行同一个失败操作，却意识不到自己在原地打转。AutoGPT因此声名狼藉。目前没有通用的系统性解决方案，大多数“反循环”机制依赖特定任务的手工调参。

上下文窗口限制：模型的“工作记忆”是有限的。一次长时间科研会话可能产生十万个以上的词元，超出窗口范围的早期信息便永久消失。层级编排能缓解这个问题，但仍难以实现真正跨会话的“研究记忆”。

新颖性评估：AI产出的研究成果，如何判断它是否真正新颖？引用量预测受社会因素干扰，语义相似度又无法区分“新颖”和“偏僻冷门”。目前能做到客观验证的，只有像FunSearch那样用程序输出量化衡量的极少数领域。

可重现性危机：同样的系统、同样的任务，每次运行结果可能大相径庭。基准测试上的性能数字，标准差动辄达到5%至15%。如何在随机性和严谨性之间找到平衡，目前尚无定论。

安全与伦理：能自主设计化学合成方案的系统，同样可能被引向危险化合物。这不只是“加一个过滤器”就能解决的工程问题，而是一个根本性的架构矛盾——对益处有用的能力，往往和对害处有用的能力难以分离。

成本与可及性：解决一个SWE-bench任务的API费用，约在5至50美元之间；完整的科研流程则可能消耗数百至数千美元。最强大的基础模型仍是专有且昂贵的。如果自主科研能力只属于资源雄厚的机构，那么它加速的，也可能是科研不平等而非科研本身。

结语

这篇覆盖了超过95篇论文、详细分析了17个主要系统的综述，结论清醒而审慎：当前最好的系统处于L4，L5仍是愿景；代码类任务已有相当成熟的自动化能力，但真正意义上的开放科学发现仍停留在演示阶段。

论文的最后写道：“L5自主研究——能够自主制定长期研究议程的智能体——是一个‘何时’而非‘是否’的问题。研究社区的任务是确保这一转变伴随着充分的理解、适当的保障，以及公平的收益分配。”

这句话出自一位参与构建了前沿AI模型的研究员和两个AI。他们共同写下了这段对自身未来发展的警示。这本身，就是一件值得细细品味的事。

来源：互联网

上一篇 龙虾养殖难题？AI智能诊断系统精准解决停食问题 下一篇 Codex最全实战指南开源：榜单与精华教程

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

AI合作写论文实测：DeepSeek与双AI表现

摘要

背景：从“副驾驶”到“同事”的转变

核心贡献一：为“自主程度”建立五级分类

核心贡献二：四种架构模式的得与失

核心贡献三：直面六大未解难题

结语

相关文章推荐