菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 阿里通义FIPO算法深度测评:32B模型推理性能超越o1-mini
产业资讯

阿里通义FIPO算法深度测评:32B模型推理性能超越o1-mini

2026-05-24
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

大模型后训练领域近期出现了一项关键技术突破。阿里通义实验室智能计算团队正式开源了

大模型后训练领域近期出现了一项关键技术突破。阿里通义实验室智能计算团队正式开源了新型算法FIPO(Future-KL Influenced Policy Optimization)。该技术的核心是引入“Future-KL”机制,旨在系统性解决纯强化学习(Pure RL)训练中常见的推理长度停滞难题。

在处理长文本推理或复杂逻辑任务时,传统强化学习方法的优化目标往往不够精确。模型面对冗长的思维链(CoT)时,难以精准识别影响最终结果的关键决策节点。这类似于仅依据最终答案对错来指导学生解题,却无法对其推理过程中的核心步骤进行针对性反馈,导致学习效率受限。

FIPO算法通过差异化分配未来关键Token的奖励,引导模型建立更具前瞻性的生成策略。该机制训练模型在生成每一步时,不仅评估当前动作的即时收益,更需量化其对后续推理路径及最终结果的潜在影响。这种对“思考过程”的细粒度优化,显著提升了训练样本的利用效率和模型收敛速度。

实证数据验证了其有效性。在32B参数规模的纯强化学习基准测试中,集成FIPO的模型在推理能力上实现了对同规模主流模型的超越,包括DeepSeek-Zero-MATH与OpenAI的o1-mini。这一结果表明,在数学推理与复杂逻辑等高阶能力赛道上,基于创新后训练方法的模型正展现出显著的性能优势。

当前大模型竞争的焦点已从预训练阶段的规模扩张,转向推理对齐与能力涌现的深度优化。FIPO算法的价值不仅在于提供了一个高效的后训练工具,更在于其揭示了下一代模型演进的关键路径:对模型内部推理过程进行可量化的评估与优化,将成为提升模型认知深度的核心技术。

这一进展也标志着,在构建具备深度推理能力的模型体系方面,开源社区与国内领先实验室正在形成独特且具有持续演进能力的技术路线。后续的技术迭代与生态应用值得业界密切关注。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多