进阶教程
真实
MPA材料基座模型
MPA材料基座模型:物理对齐助力实验预测
摘要
MPA材料基座模型采用三阶段训练,通过中期训练的物理对齐缩小理论计算与真实实验差距,
从理论计算到真实实验的预测鸿沟
材料性质预测长期面临一个根本性挑战:模型在标准基准测试中表现优异,却难以直接应用于真实场景。理论计算数据如同教科书——结构规整、噪声可控,模型能从中习得“结构-性质”的基础映射关系。而真实实验数据则更像街头实战,充斥着样品质量波动、测试条件漂移、仪器系统误差等不可控因素。工业界需要预测的性质远不止单一标准指标,往往涉及多维度、多尺度耦合。因此,材料AI模型必须具备“举一反三”的迁移能力,在理论计算与真实实验之间建立稳定的桥梁。 这正是MPA设计的核心目标:通过一套更系统、更严谨的训练范式,让模型不仅记忆结构特征,更要真正掌握与真实性质预测相关的底层物理规律。借鉴LLM三阶段训练,进行物理对齐


Hybrid Readout:面向实验性质预测的后训练结构
除了训练流程,MPA的另一大亮点在于后训练阶段引入的**混合读出(Hybrid Readout)**。 不同材料性质在物理结构上差异显著。有些性质如沸点、生物活性,更依赖材料的整体表征;另一些如生成焓、热容,则具有明显的“加和”特征——整体数值由各原子或局部结构的贡献累积而成。若对所有性质采用同一种“读法”,模型将被迫同时学习两套截然不同的规律,导致训练难度和数据需求量陡增。
在更接近真实研发的场景中提升更明显
为了验证MPA设计的有效性,研究团队开展了严格的消融实验。对照组使用相同的预训练检查点,但跳过mid-training和Hybrid Readout,直接进行微调。结果清晰:在40个真实实验性质预测任务中,完整版MPA在随机划分下有38个任务的预测结果得到改善,平均误差降低14.0%;而在更具挑战性的骨架划分下,同样有38个任务提升,平均误差降低14.6%。

让材料基座模型走向可持续迭代
MPA的意义不止于一个刷榜的模型,它为材料基座模型提供了一条更可持续、更具扩展性的训练路线。过去,不同性质预测任务往往各自为战,从模型搭建、数据清洗到参数调优,重复劳动过多,积累的知识也难以沉淀。MPA尝试将第一性原理计算数据、高质量实验数据和任务导向的后训练整合到一个统一框架中。随着数据和任务类型的不断增长,模型能够通过中期训练和实验反馈持续“自我进化”。 这条路径与当前LLM的进化史高度一致。能力的跃升不仅来自预训练规模的扩大,更来自有效的训练、对齐和后训练。 “之前材料基座大模型的scaling效应不明显,很可能就是预训练和复杂下游任务不匹配造成的。” **「深度原理Deep Principle」创始人兼CTO段辰儒**一语中的。“现在MPA通过mid-training的物理对齐解决了这个问题。下一步就是扩大模型参数,并收集更大量、更多样的一手数据。” 目前,MPA已作为核心能力接入「深度原理Deep Principle」的智能体产品。可以预见,随着计算数据、实验数据和自动化实验能力的持续增长,材料基座模型将从单点性质预测工具,逐步进化为支撑整个材料研发闭环的基础设施。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。