材料基座模型权威测评:超级递归智能体40项实验SOTA
摘要
2026年,AI领域正在打开一扇新的大门——自我进化。这扇门一旦推开,通往AGI的路径就可能
2026年,AI领域正在打开一扇新的大门——自我进化。这扇门一旦推开,通往AGI的路径就可能被大幅缩短。
一个关键判断是:AI的自我进化能力,正在成为突破当前Scaling瓶颈的核心突破口。这个观点并非一家之言,硅谷在去年年末就已经达成了共识。Anthropic联合创始人Jack Clark甚至给出了一个具体的时间表——他认为到2028年底,递归自进化发生的概率高达60%。换句话说,AI很快就能自己改造自己了。

就在上周,OpenAI公开招募“递归自我改进安全研究员”,年薪开到44万美元,目标很明确——寻找能推动递归式自我改进落地的技术执行者。而在AI for Science(AI4S)领域,动作更密集。Nature连发三篇AI科研智能体论文:Google DeepMind的Co-Scientist在急性髓系白血病药物筛选中命中了3个阳性候选分子;FutureHouse的Robin系统自主完成了从假设生成到实验验证的完整闭环;Google的ERA引擎能并行生成数千个代码变体进行计算实验。
这些进展指向同一个方向:AI智能体的自我迭代飞轮正在启动。这个飞轮需要智能体自主完成从代码重构、数据清洗到模型训练的全流程,最终独立产出超越人类精心设计的SOTA模型。而第一步,已经在材料科学领域迈出。

深度原理团队发布的Materials Property Axiom(MPA)模型,就是这一趋势的典型样本。它由团队自研的AI Scientist平台MIRA通过递归自训练产出,在40项实验性质预测任务中全面刷新了SOTA,平均MAE降低10%,最高降幅达51%。研究报告显示,在整个研究流程中,MIRA承担了关键工作:开展初步研究、适配并更新骨干基础模型、自动化训练与评估循环、分析实验结果,并撰写报告初稿。

这或许是目前为止“AI for AI”概念最有说服力的一次落地。
前SOTA的暴力美学
要理解MPA的突破意义,得先看看它之前的行业标杆。2026年3月,上海科学智能研究院发布了Suiren-1.0,一个参数量达1.8B的分子基座模型家族,一举击败长期霸榜的UniMol系列。320张NVIDIA H800 GPU、7000万条量子化学级别的分子构象数据——Suiren走的是典型的“暴力美学”路线。
但Suiren有一个结构性盲区。它的训练数据和优化目标主要围绕计算性质展开,也就是那些可以通过量子化学软件批量算出来的性质。而在实际的材料研发中,真正决定一个分子能不能用的,是实验性质:沸点、闪点、毒性、溶解度等。实验性质预测的难点在于:数据天然稀疏,一次实验可能耗时数天;噪声大,不同实验室测出来的值可能不同;而且不同性质背后的物理机制完全不同。靠堆数据和堆参数,解决不了这种物理多样性带来的迁移难题。
MPA正是从这个切口切入的。
递归自训练:MIRA从自主科研到新SOTA的诞生
AutoResearch架构:从自动化科研开始
MPA的诞生过程,与传统“人类设计实验、手动调参、反复试错”的模式截然不同。深度原理团队构建了一套基于MIRA的AutoResearch架构。在这个架构中,人类科学家只需参与意图说明和阶段性审核,AI科研智能体即可全自主完成从文献调研、代码实现、数据处理到模型训练的完整科研管线。

MIRA在这套架构中扮演的角色类似于一个全栈科研员:它能理解研究目标,自主拆解任务,调用计算资源执行实验,分析中间结果并据此调整策略。整个过程形成递归闭环,每一轮迭代的输出成为下一轮的输入,模型性能在自主循环中持续攀升。这和Self-Improving Agent的研究方向不谋而合,但深度原理将其落地到了一个可量化验证的科学问题上。
自主重构:AI改写AI的代码
AI科研同样需要先动脑子后动手。举个例子,团队向MIRA抛出一个开放性问题:“考虑到目前已经具备3D分子结构和实验性质标签,最可行的多性质预测模型是什么?”

MIRA启动了一个系统性的brainstorm,分析当时可选的所有路径后,认为UniMol系列的3D预训练编码器是最合理的起点。

它给出了几条改进路径,最终推荐了保留UniMol-v2的3D Transformer骨架,增加多构象感知能力和面向实验性质的对齐训练方案。这个决策过程完全由MIRA自主完成,人类研究员的角色是提出问题和确认方向。
随后,MIRA对现有的分子基座模型代码进行自主重构。这个过程包括:识别架构中的冗余模块,重新设计数据流管线以适配三阶段训练框架,以及将预训练、中间训练和后训练三个阶段的接口标准化。重构后的代码库成为MPA三阶段训练框架的工程基础。值得强调的是,这种代码级的自主重构能力,正是MIRA区别于任何一个科研工具的关键——它操作的对象不仅是超参数空间,而是整个模型架构和训练管线的源代码。
自主清理:AI的“科研直觉”
在准备训练数据的过程中,MIRA展现出了一种接近人类科研直觉的能力:自主发现数据中的系统性问题。MPA的下游基准包含40个实验性质预测任务,数据来源涵盖OPERA、Yaws手册、CRC化学物理手册、TDC、MoleculeNet等多个公开数据库。这些数据集由不同团队在不同时期整理,存在单位不一致、重复样本、标签噪声等问题。
MIRA在数据预处理阶段自主执行了多阶段清洗管线。更关键的是,它能够基于物理常识判断数据的合理性。例如,当某个分子的沸点数据与其分子量和官能团组成明显不匹配时,MIRA会将其标记为可疑数据点并从训练集中移除。这种能力在传统流程中需要领域专家花数周人工审查,MIRA把它变成了自动化流程的一部分。
自主设计:三阶段训练框架的诞生
完成代码重构和数据清洗后,MIRA进入了最核心的环节:自主设计和迭代训练策略。MPA最终采用的三阶段训练框架——预训练、物理对齐中间训练、下游后训练——其核心设计思想来自一个类比:大语言模型的训练范式。在LLM中,广泛的预训练之后是领域对齐的中间训练,最后是任务特定的微调。MIRA将这一范式迁移到材料基座模型,但做了一个关键的物理学改造:中间训练的监督信号必须与下游目标共享物理机制。

预训练阶段:基于PubChem-xTB数据集(约6400万分子结构),采用几何恢复的3D自监督目标,让模型学习通用的分子空间表征。物理对齐中间训练:这是MPA的核心创新。MIRA在迭代过程中发现,并非所有辅助任务都能提升下游性能,只有与目标性质共享物理机制的辅助监督才有效。

后训练阶段:MIRA在迭代中还自主发现了两个关键改进。第一,将MSE损失替换为Huber损失,在scaffold split下带来2.65%的MAE降低,有效抑制了实验数据中异常值的干扰。第二,设计了混合读出头(hybrid readout),将注意力池化分支与原子加和分支结合。

注意力分支提供灵活的非加和分子摘要,适合强度性质;加和分支强制原子级分解,适合广延性质。可学习系数α让模型自动适配不同性质的物理结构。这个设计的精妙之处在于,它将物理先验编码进了模型架构本身。对于热力学量(生成焓、燃烧焓、热容等),加和分支提供了天然匹配的归纳偏置,scaffold split下MAE降低高达21.38%。对于非加和性质(闪点等),注意力分支则占据主导。
最终战绩
MPA的最终版本,配合三阶段训练框架,交出了一份漂亮的成绩单:

与仅进行预训练的模型结构相比,40个实验性质中38个获得提升,平均误差降低14.0%。热力学性质优势最突出:燃烧焓误差降低51.1%,吉布斯自由能降低31.6%。与Suiren正面对决:40个可比端点中赢下35个,平均误差再降5.4%。分布外泛化鲁棒性最强:面对全新分子骨架时,MPA的性能退化仅25.7%,而Suiren为31.8%。
最后一点尤其值得关注。在实际材料发现中,你要预测的往往是从未见过的新分子。MPA在这种“真正的考试”中表现最稳,这才是它对产业界最有价值的地方。
迭代实录:进化的飞轮已经转动
前面那些干净利落的模型架构和SOTA成果,背后是MIRA在一个月时间内尝试的上百轮“假设→验证→调整”循环。每一轮,MIRA根据之前的结果自主决定下一步做什么。上百轮尝试贯穿了数据整合与计算、模型架构调整、训练策略迭代、损失函数设计、超参数优化,以及推理阶段的优化与增强。其中,数据、模型架构、损失函数及推理阶段的升级成就了MPA的SOTA表现。
在数据侧,MIRA做了三次有效的尝试。它分析模型表现后判断:模型从预训练直接跳到下游微调,中间缺了一层“物理直觉”。为此,MIRA使用deep research和计算化学相关的技能,得到了理论计算的热力学、偶极矩等数据。在此基础上,它从文献中获取了油水分配系数(logP)数据集,并自主完成了一个关键步骤:将基准测试中间出现过的分子从训练集中剔除,以避免数据泄漏风险。在这三次数据叠加中,MPA实现了MAE降低6.5%、7.5%,最终降低8.4%的表现。
到这里,MIRA做出了一个关键判断:继续堆数据的边际收益在递减,应该转向模型结构的改进。它发现下游微调阶段只用了简单的多层感知机(MLP)做预测头,还有很大的改进空间。在接下来的十几轮迭代中,MIRA在模型结构方面做了两次有效的尝试。第一次改进中,它将MLP替换为多头注意力机制,MAE又降低了1.8%。第二次改进中,它发现了一个物理层面的规律:40个实验性质,有一部分具有“广延性”(性质值随分子大小线性缩放),另一部分则是“强度性质”(和分子大小无关)。因此,在多头注意力之外,MIRA增加了一条原子级embedding经过残差网络后求和的通路,显式表达了广延性质“各部分之和等于整体”的物理规律。这个发现让MAE继续降低至12.3%。模型学会了“什么性质该用什么物理假设”。
在损失函数和模型推理侧,MIRA在迭代中发现了两种有效的策略。一种是将损失函数从MSE换成Smooth L1(Huber损失),这降低了少数极端值对模型训练的拖累,使得MAE又降低了1.3%。另一种是在推理阶段加入多构象信息聚合,有效提升了模型在构象相关性质上的表现。最终,MAE降低至14.6%。

如果AI能在材料科学这样一个高度专业化的领域自主完成从0到SOTA的全流程,那它在其他科学领域呢?在AI for AI本身呢?MIRA做的事情,本质上是用AI来改进AI:它重构了一个AI模型的代码,优化了训练数据,迭代了训练策略,最终产出了一个更强的AI模型。人类在这里的角色已经从“执行者”变成了“目标设定者”。AI在用AI做原料,产出更好的AI。
这个飞轮一旦转动起来,每一圈都会比上一圈转得更快。从Coding Agent自动写代码,到Research Agent自动做科研,再到Self-Improving Agent自动改进自身,AI智能体的能力边界正在以加速度向外扩展。每一次成功的递归迭代,都在缩短我们与AGI之间的距离。递归进化的齿轮已经转动,AGI可能比预想的来得更快。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。