DeepSeek AI论文评测:DeliAutoResearch技能进化至8分
摘要
DeepSeek研究员陈德里(Deli Chen)与其AI协作的第二篇学术成果今日正式发布。 论文地址:http
DeepSeek研究员陈德里(Deli Chen)与其AI协作的第二篇学术成果今日正式发布。

论文地址:https://victorchen96.github.io/continual_learning_survey.pdf
本论文核心聚焦持续学习(continual learning)与自我迭代(self-iteration)。陈德里认为,这无疑是AI迈向AGI进程中必须攻克的关卡。
因arXiv当前政策禁止将AI列为作者,陈德里不得不将实际贡献论文99%工作的DeepSeek-V4-Pro(文字生成)和GPT-Image-2(图像生成)从作者名单移至脚注。
论文核心判断直截了当:未来AI系统不会固守一组冻结参数,而是演进为具备持续学习、自我更新与自我迭代能力的动态系统。
底层逻辑并不复杂:上下文管理与文档化记忆固然能辅助模型维持注意力、留存任务经验,但注意力窗口终有饱和之时。届时必须将知识与经验参数化,以减轻认知负载。
值得关注的是,这不仅是论文主题的拓展,更是陈德里构建的自主科研智能体框架DeliAutoResearch SKILL本身的迭代实验。

来源:https://x.com/victor207755822/status/2060315686329778432
陈德里透露,本轮模拟同行评审得分达到8分,较上一篇论文的6分有显著进步。更为关键的是,生成过程中模型首次尝试调用更高级语言模型,自主设计并执行实验——这是此前版本未能实现的能力。
系统进化的另一证据来自论文公开的生产数据对比。陈德里在第二张图中比较了两篇论文的生成流程:从第一篇到第二篇,随着SKILL持续迭代,交互轮数锐减,而总token消耗大幅攀升——这恰恰是积极信号!表明SKILL正向更高自主性迈进。
换言之,人工干预减少,系统自主思考与执行的比例增加。对于自动化科研工作流而言,这正是迈向更高自主性的核心指标。

陈德里表示,他期待不久后DeliAutoResearch SKILL能产出大师级学术写作。但他也坦言,仔细审阅论文的关键部分后,仍发现不少改进余地。
若完全由他亲笔撰写,论文质量可能更高,但产出效率将大幅降低。鉴于当前核心目标并非雕琢单篇论文,而是持续迭代DeliAutoResearch SKILL本身,他决定保留论文中略显粗糙之处,将其作为系统持续进化的反馈素材。

接下来,我们解析这篇论文的核心内容。
为何要统一持续学习与自我改进?
论文指出,传统研究常将持续学习与自我改进视为两个独立方向,但二者实际上聚焦同一底层问题:模型如何在获取新信息或新目标后更新自身,同时不破坏已有能力?
持续学习关注模型如何顺序适应新任务或新数据;自我改进关注模型如何自主提升能力。二者技术挑战高度重合:均需在分布变化下稳定优化,保留已有表征,权衡探索与利用,并在无固定测试集条件下评估进展。
因此,作者认为下一代LLM训练管线势必融合外部数据流与模型自生成训练信号,构建紧密耦合的反馈循环。换言之,统一研究这两个方向并非图方便,而是必然要求。
核心贡献一:三轴统一分类框架
本论文主要贡献之一,是提出首个同时涵盖大语言模型持续学习与自我改进的分类框架,并组织为三个正交维度:
- 更新什么:更新对象为知识、技能、对齐能力或推理能力;
- 如何更新:采用何种方法类别;
- 何时更新:更新时机为离线阶段、周期性阶段、在线阶段或由特定事件触发。
该三轴框架(见下图)可精确刻画任何部署后的学习系统,并揭示不同方法间此前未被充分辨识的关联。

核心贡献二:五大方法类别系统分析
论文系统梳理了100余篇文献,归纳为五类方法:基于正则化的持续学习、回放与经验管理、参数高效与模块化方法、自我改进与自博弈、在线自适应方法。每类方法均形式化描述核心机制、分析理论特性并对比代表性方案。
核心贡献三:自我改进收敛条件的形式化刻画
论文对迭代式自我改进在何种条件下能保证收敛而非发散进行了形式化分析,并将来自自博弈、迭代蒸馏、Constitutional AI等方向分散的理论结果统一至同一框架。
论文指出,自我改进代表范式转变:模型能力提升正从依赖人类监督转向模型自主驱动。所涉方法覆盖广泛——从训练阶段的自博弈(通过多轮迭代修改权重)、推理阶段的推理增强(提升单次预测质量),到理论分析(界定自我改进的能力边界)……
这些方法的共性在于均需某种grounding signal——即可靠的锚定信号。该信号可以是验证器、宪法原则集、人类偏好数据,或问题自身的结构。缺乏锚定信号,自我改进循环终将退化。
如下图所示,自我改进的轨迹不取决于生成机制的复杂度,而取决于评估信号的质量及其相对于模型自身的独立性。

核心贡献四:六大开放挑战
最后,论文指出生成式模型持续学习走向成熟过程中亟待解决的六个关键问题,并基于系统分析揭示的研究空白,为每个问题指明未来研究方向。
大模型规模能否解决灾难性遗忘:更大模型确实可能更不易遗忘,但规模并非根治方案。随着任务持续增加,即使大模型也会面临容量、干扰和对齐漂移问题。未来需研究大模型规模如何影响稳定性-可塑性权衡,以及是否存在可预测的Scaling Law。
自我改进的理论极限:模型能否无限自我提升?何时收敛?何时坍塌?这无疑是核心理论问题。尤其在缺乏外部验证器的语言任务中,模型易陷入自我确认——不断强化已相信的pattern,而不一定趋近真实目标。
多模态持续学习:未来模型不仅处理文本,还需处理图像、音频、视频和行动数据。多模态模型持续学习时,一个模态的更新可能波及另一模态。例如更新视觉生成能力可能影响语言理解;更新语言对齐可能影响图像生成行为。如何跨模态保留能力是未来研究的关键挑战。
安全的持续对齐:模型持续学习时,安全边界必须同步保持,但任何更新都可能削弱原有对齐能力。因此论文呼吁开发“可证明安全”的持续对齐机制:模型增强的同时,安全约束不能被遗忘或绕过。
部署时“实时学习”:实时服务要求低延迟与高稳定性,而在线学习需计算梯度、更新参数、验证质量、避免回归,两者“天然冲突”。实际部署需设计分层更新机制:哪些变化即时处理?哪些延迟批处理?哪些必须经安全审查后方可写入参数?
与Agent框架结合:智能体在长期任务中积累经验,如工具调用结果、失败教训、用户偏好、环境反馈等。问题在于:何时将短期经验写入长期记忆?何时更新参数?哪些经验属偶然事件,哪些代表稳定规律?
论文认为,未来需要层级记忆架构,使Agent同时具备短期情节记忆与长期参数知识,同时需要多智能体持续学习机制,让多个Agent共享并整合经验。
结语
论文最终判断是:持续学习与自我改进正走向融合。真正有前景的方向是构建一种模型——既能吸收外部世界新知识,也能通过自我反思、自我验证与自我搜索优化学习策略;既能变得更强,又能保持稳定与安全。
简而言之:不只是训练规模扩大,而是能否在不遗忘、不失控的前提下,持续学习、持续对齐、持续自我进化……
对于这篇“AI撰写的论文”,你有何看法?欢迎在评论区分享观点。
参考链接:
https://x.com/victor207755822/status/2060315686329778432
https://victorchen96.github.io/continual_learning_survey.pdf
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。