其他资讯

陈德里DeliAutoResearch实测：人类只动脑2小时写论文

2026-05-28

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

一篇关于AI自主研究智能体的综述论文，在学术圈引起了不小的讨论。但更引人注目的，是

一篇关于AI自主研究智能体的综述论文，在学术圈引起了不小的讨论。但更引人注目的，是这篇论文的“作者”构成。

论文的主要执笔者，DeepSeek研究员陈德里，在个人博客中透露了一个惊人的细节：这篇内容详实、结构严谨的综述，99%的内容是由AI智能体完成的，他自己只贡献了大约1%。

整个过程，他动用了自己开发的技能“DeliAutoResearch”，以DeepSeek-V4-Pro为核心进行研究和写作，用GPT-Image2来绘制图表。从初稿到终稿，论文共迭代了6个版本，总耗时6天。期间进行了约108轮Agent调用，消耗了64.8万token，最终生成了2234行LaTeX代码。

成果是一篇包含103个已验证参考文献、长达46页（538KB）的论文，其中包含了7个图表和4个表格。

那么，这篇“人机合作”的论文到底讲了什么？核心是试图为当前混乱的“自动研究智能体”领域建立一个清晰的分类框架——一个类似于自动驾驶的L1-L5自主度分级体系。

通过分析四大主流架构模式，论文在可扩展性、成本和可靠性等维度上进行了对比。同时，基于一个六维特征矩阵，深入剖析了17个主流系统。最后，还前瞻性地提出了六大开放性问题及其对应的研究方向。

陈德里对此感触颇深。他认为，代码智能体的出现，正在导致计算机科学领域的论文数量呈指数级膨胀。过去需要至少一个月才能完成的文献综述工作，现在，他个人投入的“碳基大脑CPU时间”不到2小时。当然，他也附上了一句必要的免责声明：文中所有观点仅代表个人，与任何组织无关。

DeepSeek研究员与V4 Pro合写的论文

基础大模型的飞速发展，正推动AI工具从单纯的研究辅助，转向具备一定自主性的研究主体。然而，这个新兴领域目前面临着一系列挑战：缺乏统一框架、术语混乱、评估标准不一。

正是为了厘清这团乱麻，陈德里和他的AI“合著者们”提出了这个L1-L5自主分级体系。它巧妙地借鉴了自动驾驶的SAE分级标准，为AI智能体领域绘制了一张清晰的“能力光谱图”。

L1 自动补全：这是最基础的级别，早期的GitHub Copilot就是典型代表，功能是预测并补全程序员下一行代码。
L2 任务执行：以配备了各种工具的ChatGPT/Claude等聊天机器人为代表。它们可以分解任务，但每一步执行都需要人类的明确批准。
L3 多步骤执行：这是当前的主流级别，例如Claude Code、Cursor Agent。它们能够自主执行10到100个步骤，只在关键决策点请求人类审核。
L4 受限领域全自主：在此级别，人类仅需提供研究目标和评估最终成果。智能体可以独立完成多步实验、代码编写和论文撰写，但尚无法自主选择研究问题。目前行业前沿已初步触及此级别。
L5 完全自主研究议程：这是理想的终极状态，智能体可以自主选题、分配资源、长期积累知识并进行跨领域持续研究。论文指出，实现L5的核心瓶颈在于“持续知识积累”、“可靠自我评估”和“架构规模化”，目前这仍是一个设想。

论文特别强调，迈向L5的真正瓶颈或许不在于模型本身的智力，而在于上述这些“系统级”能力。

除了按自主性分级，论文还从架构角度归纳了四种主流模式：

单智能体循环：以早期研究如ReAct、Reflexion、LATS、思维树（ToT）为代表。单一模型进行“推理-行动-观察”的循环迭代，优点是简单高效，但处理复杂任务的能力有限。
多智能体协作：以CAMEL、AutoGen、MetaGPT等早期框架为代表。通过多个智能体分工协作、多视角交叉验证来提升效果，但代价是成本较高，且智能体间的沟通容易陷入混乱。
分层调度：以Claude Code和Devin为代表。采用分层规划、任务分解的策略，特别适合长周期、高复杂度的研究任务。
工具增强执行：以SWE-Agent等为代表。其核心能力边界由集成的工具决定，如代码执行环境、网页浏览器、API/数据库、多模态工具等。这里，智能体-计算机接口（ACI）的设计直接决定了系统性能的上限。

这四种模式并无绝对的优劣之分，关键在于与任务场景匹配。简单短任务可选低成本易实现的单智能体循环；需要多视角纠错的复杂分工可选多智能体协作；长时程复杂研究适合强规划、易监管的分层调度；而需要深度对接外部环境的任务，则依赖于工具增强执行。

当然，在实际应用中，混合架构正成为趋势，旨在结合多种模式的优势。

基于这套研究框架，论文横向对比了当前17个常见的自主研究智能体系统。分析揭示，该领域已经从早期通用但脆弱的研究原型，演进到了L4级别的、在受限领域内高度专用的系统。其中，代码智能体的成熟度最高，而科学发现智能体也已开始产出可验证的新发现。

然而，要迈向L5完全自主，三大核心瓶颈依然横亘在前：持续知识积累、可靠自我评估，以及架构的规模化。

论文最后部分颇具启发性，提出了六大亟待解决的开放性问题：

认知循环陷阱：智能体可能陷入重复无效的策略循环，缺乏自我终止或调整的能力。
上下文限制：模型固定的上下文窗口（从4K到1M token不等）难以支撑需要长期记忆和大量背景知识的研究任务。
创新性评估：目前缺乏自动化方法来有效衡量一项研究的原创性与实质价值。
可复现性：模型的随机性、对提示词的敏感性，导致实验结果难以稳定复现，这挑战了科学的基石。
安全与伦理：包括技术的“双用途”风险、智能体自主提升可能带来的失控风险，以及对学术诚信的冲击。
成本问题：单个复杂任务成本可能高达50美元以上，高昂的成本可能加剧科研资源的不平等。

One More Thing

陈德里在博客中还分享了一个个人视角。高强度的工作曾让他精力透支，不得不搁置了许多事情，比如维护博客和持续写作。

而现在，AI智能体让他有机会将这些“搁置项”重新捡起来。除了这篇综述论文，他还利用智能体高效更新了个人主页。

这一切都指向一个正在发生的转变：有了智能体的辅助，人类的角色正逐渐从任务的“执行者”，转变为更高层次的“发起者”与“评估者”。研究的生产范式，或许正在被重新定义。

来源：互联网

上一篇 郑州量子产业十五五规划建设成果转化聚集示范基地与科技示范城市 下一篇 dll缺失修复排行榜：实测3种有效方法

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

陈德里DeliAutoResearch实测：人类只动脑2小时写论文

摘要

DeepSeek研究员与V4 Pro合写的论文

One More Thing

相关文章推荐