菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > SFT与RL融合策略:动态优化机制深度解析与实战指南
其他资讯

SFT与RL融合策略:动态优化机制深度解析与实战指南

2026-05-15
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

在大模型推理能力提升的后训练阶段,监督微调(SFT)与强化学习(RL)是两种核心优化范

在大模型推理能力提升的后训练阶段,监督微调(SFT)与强化学习(RL)是两种核心优化范式。SFT以其稳定性和高效性著称,能快速吸收高质量示范数据;RL则具备更强的探索潜力,旨在驱动模型实现更复杂的泛化推理。然而,一个长期困扰业界的核心痛点在于:这两种信号在统计特性上存在本质差异,导致多数现有方案仅停留在将两种损失函数机械混合的层面,难以实现深度协同。

为从根本上破解这一协同难题,研究团队提出了DYPO(动态策略优化)方法。其设计哲学直指问题核心:既然SFT与RL的学习信号在偏差与方差特性上截然不同,那么应如何设计优化流程,才能在维持监督学习稳定性的同时,充分释放强化学习的探索能力?

△ 图1:DYPO的整体框架

如图1所示,DYPO流程始于一个关键决策点:模型首先依据一组轨迹采样(rollout)的结果,动态评估每个训练样本所处的学习阶段,进而为其分配监督路径、强化学习路径,或选择暂时跳过。

SFT和RL为什么很难真正协同

若将大模型后训练类比为“指导学生解题”,SFT与RL的特性差异便清晰可见。

SFT如同教师直接讲解标准答案。其优势在于学习路径明确、收敛过程稳定可控。但潜在风险是模型易陷入模式化记忆,面对问题变体时,其泛化能力可能受限。

RL则更接近让学生自主尝试,并依据得分反馈不断调整策略。其优势在于能激发模型的探索与推理能力。但缺点同样显著:训练过程波动大,在奖励信号稀疏的场景下,模型策略容易偏离甚至失稳。

从优化理论视角看,这对应着经典的偏差-方差权衡:

  • SFT:低方差,高偏差。 其梯度源于静态高质量数据,更新噪声小、稳定性高,但天然倾向于拟合示范数据分布,从而压缩了模型的探索空间。
  • RL:低偏差,高方差。 其更新由奖励信号驱动,更贴近策略优化的本质目标,但受采样随机性与奖励稀疏性影响,梯度方差较高,易导致训练波动。

症结正在于此。许多统一训练方法虽同时调用SFT与RL,却默认对所有样本采用相同的处理方式。然而,不同样本蕴含的学习信号价值差异显著:

  • 已掌握样本: 模型在多次rollout中均能正确解答。对此类样本持续训练,收益边际递减。
  • 困难样本: 模型在多次rollout中均告失败。此时直接进行RL优化,往往难以获得有效的正向奖励信号。
  • 中等难度样本: 模型在rollout中表现出部分成功与部分失败。这类样本位于“学习前沿”,既表明模型已触及问题门槛,又保留了区分正负轨迹的优化空间,价值最高。

因此,本研究旨在解决的核心问题并非“是否合并SFT与RL”,而是更进一步的:如何根据样本所处的具体学习阶段,为其匹配最适宜的优化路径,从而在稳定性与探索性之间达成更优平衡?

△ 图2:SFT与RL的偏差—方差矛盾

SFT训练更稳定,但偏差较高;RL偏差较低,但训练过程方差大、波动明显。

DYPO如何同时处理偏差和方差问题

基于上述洞察,DYPO应运而生。其核心思想并非叠加复杂流程,而是先通过rollout结果诊断样本的学习阶段,再为其动态路由至最匹配的优化路径。

具体而言,DYPO会针对每个提示词生成一组rollout轨迹,并依据其成败情况将样本动态分类:

  1. 简单样本: 一组rollout全部成功。表明模型已熟练掌握,直接跳过以避免无效计算。
  2. 困难样本: 一组rollout全部失败。表明模型缺乏必要先验知识,直接进行RL优化难度大。对此,DYPO采用多教师蒸馏,引入多个教师模型,让学生从多种合理推理轨迹中提炼共通模式,以此降低单一教师引入的特定偏差,为模型建立可靠基础。
  3. 中等样本: 一组rollout结果混合(部分成功、部分失败)。这正是最具优化价值的“学习前沿”。此类样本适合进行RL优化。为缓解标准RL的高方差问题,团队在GRPO基础上引入了组对齐损失(GAL)

GAL的核心机制,是利用同一组rollout中成功与失败轨迹的对比,显式地将模型拉近正确轨迹、推离错误轨迹。这使得RL更新不再单纯依赖高噪声的奖励信号,而是额外获得了一层稳定的相对对齐约束。换言之,GAL并非简单叠加损失项,而是在RL更新过程中扮演了动态方差抑制器的角色。

从理论层面总结,DYPO的设计逻辑是针对SFT与RL各自的缺陷精准施策:

  • 针对困难样本的高偏差问题,采用多教师蒸馏。 多个教师的协同可抵消个体偏差,使整体监督偏差随教师数量增加而下降。
  • 针对中等样本的高方差问题,引入组对齐损失(GAL)。 其混合目标的梯度方差严格小于纯GRPO,且随着模型区分能力的提升,GAL自身的方差会自然衰减。

由此可见,DYPO并非简单拼接SFT与RL,而是在结构上将“高偏差的监督学习”与“高方差的强化学习”分别安置在最适宜的样本上进行处理。因此,它更像是一种重构后训练流程的方法论,而非单一的训练技巧。

△ 图3:GAL的直观机制

如图3所示,GAL利用同一组rollout中已存在的正负样本对,将模型向正确轨迹拉近,同时将错误轨迹推开。

实验结果

研究团队在数学与逻辑推理场景下进行了系统评估,基础模型包括Qwen2.5-Math-7B和Qwen3-4B-Base,评测任务覆盖AIME 2024/2025、AMC、MATH-500、Minerva,以及更侧重分布外泛化的ARC-c和GPQA-Diamond。

对于此类工作,最终性能得分固然重要,但更值得关注的是其优势的具体体现。

在Qwen2.5-Math-7B上,与传统SFT→RL顺序流水线相比,DYPO的表现如下:

  • 在五个复杂推理基准上的平均得分从47.7提升至52.5,绝对提升4.8个百分点。
  • 在分布外任务上,平均得分从48.3大幅跃升至61.6,绝对提升13.3个百分点。

这一提升具备整体性与稳健性。尤其在GPQA-Diamond这类强调迁移推理能力的任务上,DYPO取得了最佳结果,表明其学到的并非仅仅是贴近训练数据分布的模板。

△ 图4:Qwen2.5-Math-7B上的整体结果对比

如图所示,DYPO在复杂推理与分布外任务上均展现出综合优势。

在Qwen3-4B-Base上,类似的优势趋势依然稳固。DYPO:

  • 在分布内任务上的平均得分达到66.9,显著高于SFT→RL的56.1。
  • 在分布外任务上的平均得分达到68.5,同样高于后者的52.6。

这表明其收益主要源于动态分流机制本身,而非依赖于特定骨干模型。

此外,消融实验进一步验证了方法的有效性。即便将第二个教师模型替换为能力更弱的Qwen3-8B,DYPO依然能将AIME 25的得分从22.0提升到27.8,将GPQA-Diamond的得分从30.8提升到39.4。这证明其性能提升并非单纯依赖“注入更强的教师数据”,而是其动态路由与低方差优化机制发挥了关键作用。

除了最终性能,研究还分析了DYPO的训练稳定性。作者追踪了训练过程中离线数据占比、奖励值及策略熵的变化。一个有趣的现象是,DYPO并非在初始阶段就强行推动强探索,而是随着模型能力提升,逐步降低对监督信号的依赖,实现从“依靠教师引导”到“依赖策略自主探索”的自然过渡。这一过程类似于一种自适应的课程学习策略。

△ 图5:训练动态分析

如图所示,随着训练推进,DYPO逐步减少对离线监督的依赖,同时维持了健康的策略多样性。

观察梯度范数可以发现,标准GRPO的梯度曲线通常存在剧烈震荡,而DYPO的曲线则平滑得多。这种差异直接关系到训练稳定性:持续的梯度大幅摆动易导致训练发散,并增加超参数调优难度。DYPO表现出的平滑性,证实其对RL部分的高方差更新施加了有效约束。

△ 图6:梯度范数对比

如图6所示,与标准GRPO相比,DYPO的更新轨迹更平滑,训练过程更易控制。

总结

DYPO的核心贡献并非证明SFT与RL可以合并使用,而是回答了它们应当如何协同工作。它提供了一种侧重于“训练过程组织方式”的新范式。

现有研究已认识到,单纯依赖监督或强化学习均难以将大模型推理能力推向新的高度。但核心挑战并非设计更复杂的目标函数,而在于不同学习阶段、不同样本所暴露的信号价值本就存在差异。

DYPO的创新在于将优化逻辑前置:先诊断样本的学习阶段,再匹配优化路径。由此,SFT负责稳固模型基础,RL负责拓展模型边界,二者各司其职,而非无差别地混合信号。

当然,这项工作也存在其边界。目前主要验证场景集中于数学与逻辑推理,对于开放式对话、创意生成等任务的有效性尚待进一步探索。同时,为稳定评估样本难度,每个提示词需生成8条rollout,这也带来了额外的计算开销。

对于持续提升大模型推理能力这一目标而言,DYPO并非终点,但它无疑指出了一个值得深入探索的新方向。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多