菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 陈德里DeliAutoResearch实测:人类只动脑2小时写论文
其他资讯

陈德里DeliAutoResearch实测:人类只动脑2小时写论文

2026-05-28
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

一篇关于AI自主研究智能体的综述论文,在学术圈引起了不小的讨论。但更引人注目的,是

一篇关于AI自主研究智能体的综述论文,在学术圈引起了不小的讨论。但更引人注目的,是这篇论文的“作者”构成。

论文的主要执笔者,DeepSeek研究员陈德里,在个人博客中透露了一个惊人的细节:这篇内容详实、结构严谨的综述,99%的内容是由AI智能体完成的,他自己只贡献了大约1%。

整个过程,他动用了自己开发的技能“DeliAutoResearch”,以DeepSeek-V4-Pro为核心进行研究和写作,用GPT-Image2来绘制图表。从初稿到终稿,论文共迭代了6个版本,总耗时6天。期间进行了约108轮Agent调用,消耗了64.8万token,最终生成了2234行LaTeX代码。

成果是一篇包含103个已验证参考文献、长达46页(538KB)的论文,其中包含了7个图表和4个表格。

那么,这篇“人机合作”的论文到底讲了什么?核心是试图为当前混乱的“自动研究智能体”领域建立一个清晰的分类框架——一个类似于自动驾驶的L1-L5自主度分级体系。

通过分析四大主流架构模式,论文在可扩展性、成本和可靠性等维度上进行了对比。同时,基于一个六维特征矩阵,深入剖析了17个主流系统。最后,还前瞻性地提出了六大开放性问题及其对应的研究方向。

陈德里对此感触颇深。他认为,代码智能体的出现,正在导致计算机科学领域的论文数量呈指数级膨胀。过去需要至少一个月才能完成的文献综述工作,现在,他个人投入的“碳基大脑CPU时间”不到2小时。当然,他也附上了一句必要的免责声明:文中所有观点仅代表个人,与任何组织无关。

DeepSeek研究员与V4 Pro合写的论文

基础大模型的飞速发展,正推动AI工具从单纯的研究辅助,转向具备一定自主性的研究主体。然而,这个新兴领域目前面临着一系列挑战:缺乏统一框架、术语混乱、评估标准不一。

正是为了厘清这团乱麻,陈德里和他的AI“合著者们”提出了这个L1-L5自主分级体系。它巧妙地借鉴了自动驾驶的SAE分级标准,为AI智能体领域绘制了一张清晰的“能力光谱图”。

  • L1 自动补全:这是最基础的级别,早期的GitHub Copilot就是典型代表,功能是预测并补全程序员下一行代码。
  • L2 任务执行:以配备了各种工具的ChatGPT/Claude等聊天机器人为代表。它们可以分解任务,但每一步执行都需要人类的明确批准。
  • L3 多步骤执行:这是当前的主流级别,例如Claude Code、Cursor Agent。它们能够自主执行10到100个步骤,只在关键决策点请求人类审核。
  • L4 受限领域全自主:在此级别,人类仅需提供研究目标和评估最终成果。智能体可以独立完成多步实验、代码编写和论文撰写,但尚无法自主选择研究问题。目前行业前沿已初步触及此级别。
  • L5 完全自主研究议程:这是理想的终极状态,智能体可以自主选题、分配资源、长期积累知识并进行跨领域持续研究。论文指出,实现L5的核心瓶颈在于“持续知识积累”、“可靠自我评估”和“架构规模化”,目前这仍是一个设想。

论文特别强调,迈向L5的真正瓶颈或许不在于模型本身的智力,而在于上述这些“系统级”能力。

除了按自主性分级,论文还从架构角度归纳了四种主流模式:

  • 单智能体循环:以早期研究如ReAct、Reflexion、LATS、思维树(ToT)为代表。单一模型进行“推理-行动-观察”的循环迭代,优点是简单高效,但处理复杂任务的能力有限。
  • 多智能体协作:以CAMEL、AutoGen、MetaGPT等早期框架为代表。通过多个智能体分工协作、多视角交叉验证来提升效果,但代价是成本较高,且智能体间的沟通容易陷入混乱。
  • 分层调度:以Claude Code和Devin为代表。采用分层规划、任务分解的策略,特别适合长周期、高复杂度的研究任务。
  • 工具增强执行:以SWE-Agent等为代表。其核心能力边界由集成的工具决定,如代码执行环境、网页浏览器、API/数据库、多模态工具等。这里,智能体-计算机接口(ACI)的设计直接决定了系统性能的上限。

这四种模式并无绝对的优劣之分,关键在于与任务场景匹配。简单短任务可选低成本易实现的单智能体循环;需要多视角纠错的复杂分工可选多智能体协作;长时程复杂研究适合强规划、易监管的分层调度;而需要深度对接外部环境的任务,则依赖于工具增强执行。

当然,在实际应用中,混合架构正成为趋势,旨在结合多种模式的优势。

基于这套研究框架,论文横向对比了当前17个常见的自主研究智能体系统。分析揭示,该领域已经从早期通用但脆弱的研究原型,演进到了L4级别的、在受限领域内高度专用的系统。其中,代码智能体的成熟度最高,而科学发现智能体也已开始产出可验证的新发现。

然而,要迈向L5完全自主,三大核心瓶颈依然横亘在前:持续知识积累、可靠自我评估,以及架构的规模化。

论文最后部分颇具启发性,提出了六大亟待解决的开放性问题:

  • 认知循环陷阱:智能体可能陷入重复无效的策略循环,缺乏自我终止或调整的能力。
  • 上下文限制:模型固定的上下文窗口(从4K到1M token不等)难以支撑需要长期记忆和大量背景知识的研究任务。
  • 创新性评估:目前缺乏自动化方法来有效衡量一项研究的原创性与实质价值。
  • 可复现性:模型的随机性、对提示词的敏感性,导致实验结果难以稳定复现,这挑战了科学的基石。
  • 安全与伦理:包括技术的“双用途”风险、智能体自主提升可能带来的失控风险,以及对学术诚信的冲击。
  • 成本问题:单个复杂任务成本可能高达50美元以上,高昂的成本可能加剧科研资源的不平等。

One More Thing

陈德里在博客中还分享了一个个人视角。高强度的工作曾让他精力透支,不得不搁置了许多事情,比如维护博客和持续写作。

而现在,AI智能体让他有机会将这些“搁置项”重新捡起来。除了这篇综述论文,他还利用智能体高效更新了个人主页。

这一切都指向一个正在发生的转变:有了智能体的辅助,人类的角色正逐渐从任务的“执行者”,转变为更高层次的“发起者”与“评估者”。研究的生产范式,或许正在被重新定义。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多