美团开源 LongCat-Flash-Prover:参数规模5600亿的数学定理证明专家 美团近期正式开源了LongCat-Fl

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
美团近期正式开源了LongCat-Flash-Prover,这是一个专门针对形式化数学证明任务设计的大型语言模型。它基于MoE架构构建,总参数量达到5677亿,旨在自动解决并验证复杂的数学定理证明问题。
为了保障生成推理的严谨可靠,该模型的核心在于其混合专家迭代框架。该框架被设计用于产出高质量、可验证的形式化证明轨迹,其本质是引导模型生成结构化的、符合逻辑规则的推理步骤。
模型深度整合了Lean4定理证明器,并应用了一套基于抽象语法树的多阶段严格验证流程。这一技术组合对推理的中间和最终输出施加了严格的语法与逻辑约束,从而系统性抑制了模型在演绎过程中产生的“幻觉”输出。
模型的训练始于一个数据自生成过程:其混合专家迭代框架本身被用于创建初始的“冷启动”训练数据,缓解了高质量形式化证明数据稀缺的核心瓶颈。
在随后的强化学习精调阶段,研究团队引入了HisPO算法以稳定MoE模型在长序列、高复杂度任务上的优化过程。关键性的创新在于集成了定理一致性与合法性检测机制。该机制作为奖励模型的一部分,主动识别并惩罚模型的“奖励黑客”行为,即那些形式上符合奖励信号但逻辑或语义上无效的推导,确保了训练目标与真实证明能力的一致性。
在MiniF2F-Test数学证明基准上,该模型取得了97.1%的通过率,且平均仅需72次推理尝试,展现了高精度与高效率。
在更具挑战性的PutnamBench基准上(该基准改编自普特南数学竞赛试题),LongCat-Flash-Prover成功解决了41.5%的问题,平均消耗118次推理尝试。这两项成绩均超越了现有公开模型,确立了该领域新的性能标杆。
项目代码、模型权重及相关技术文档已开放,可通过以下渠道获取:
GitHub:https://github.com/meituan-longcat/LongCat-Flash-Prover
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。
版权投诉请发邮件到 cn486com#outlook.com (把#改成@),我们会尽快处理
Copyright © 2019-2020 菜鸟下载(www.cn486.com).All Reserved | 备案号:湘ICP备2023003002号-8
本站资源均收集整理于互联网,其著作权归原作者所有,如有侵犯你的版权,请来信告知,我们将及时下架删除相应资源