其他资讯

SFT与RL融合策略：动态优化机制深度解析与实战指南

2026-05-15

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

在大模型推理能力提升的后训练阶段，监督微调（SFT）与强化学习（RL）是两种核心优化范

在大模型推理能力提升的后训练阶段，监督微调（SFT）与强化学习（RL）是两种核心优化范式。SFT以其稳定性和高效性著称，能快速吸收高质量示范数据；RL则具备更强的探索潜力，旨在驱动模型实现更复杂的泛化推理。然而，一个长期困扰业界的核心痛点在于：这两种信号在统计特性上存在本质差异，导致多数现有方案仅停留在将两种损失函数机械混合的层面，难以实现深度协同。

为从根本上破解这一协同难题，研究团队提出了DYPO（动态策略优化）方法。其设计哲学直指问题核心：既然SFT与RL的学习信号在偏差与方差特性上截然不同，那么应如何设计优化流程，才能在维持监督学习稳定性的同时，充分释放强化学习的探索能力？

△ 图1：DYPO的整体框架

如图1所示，DYPO流程始于一个关键决策点：模型首先依据一组轨迹采样（rollout）的结果，动态评估每个训练样本所处的学习阶段，进而为其分配监督路径、强化学习路径，或选择暂时跳过。

SFT和RL为什么很难真正协同

若将大模型后训练类比为“指导学生解题”，SFT与RL的特性差异便清晰可见。

SFT如同教师直接讲解标准答案。其优势在于学习路径明确、收敛过程稳定可控。但潜在风险是模型易陷入模式化记忆，面对问题变体时，其泛化能力可能受限。

RL则更接近让学生自主尝试，并依据得分反馈不断调整策略。其优势在于能激发模型的探索与推理能力。但缺点同样显著：训练过程波动大，在奖励信号稀疏的场景下，模型策略容易偏离甚至失稳。

从优化理论视角看，这对应着经典的偏差-方差权衡：

SFT：低方差，高偏差。 其梯度源于静态高质量数据，更新噪声小、稳定性高，但天然倾向于拟合示范数据分布，从而压缩了模型的探索空间。
RL：低偏差，高方差。 其更新由奖励信号驱动，更贴近策略优化的本质目标，但受采样随机性与奖励稀疏性影响，梯度方差较高，易导致训练波动。

症结正在于此。许多统一训练方法虽同时调用SFT与RL，却默认对所有样本采用相同的处理方式。然而，不同样本蕴含的学习信号价值差异显著：

已掌握样本： 模型在多次rollout中均能正确解答。对此类样本持续训练，收益边际递减。
困难样本： 模型在多次rollout中均告失败。此时直接进行RL优化，往往难以获得有效的正向奖励信号。
中等难度样本： 模型在rollout中表现出部分成功与部分失败。这类样本位于“学习前沿”，既表明模型已触及问题门槛，又保留了区分正负轨迹的优化空间，价值最高。

因此，本研究旨在解决的核心问题并非“是否合并SFT与RL”，而是更进一步的：如何根据样本所处的具体学习阶段，为其匹配最适宜的优化路径，从而在稳定性与探索性之间达成更优平衡？

△ 图2：SFT与RL的偏差—方差矛盾

SFT训练更稳定，但偏差较高；RL偏差较低，但训练过程方差大、波动明显。

DYPO如何同时处理偏差和方差问题

基于上述洞察，DYPO应运而生。其核心思想并非叠加复杂流程，而是先通过rollout结果诊断样本的学习阶段，再为其动态路由至最匹配的优化路径。

具体而言，DYPO会针对每个提示词生成一组rollout轨迹，并依据其成败情况将样本动态分类：

简单样本： 一组rollout全部成功。表明模型已熟练掌握，直接跳过以避免无效计算。
困难样本： 一组rollout全部失败。表明模型缺乏必要先验知识，直接进行RL优化难度大。对此，DYPO采用多教师蒸馏，引入多个教师模型，让学生从多种合理推理轨迹中提炼共通模式，以此降低单一教师引入的特定偏差，为模型建立可靠基础。
中等样本： 一组rollout结果混合（部分成功、部分失败）。这正是最具优化价值的“学习前沿”。此类样本适合进行RL优化。为缓解标准RL的高方差问题，团队在GRPO基础上引入了组对齐损失（GAL）。

GAL的核心机制，是利用同一组rollout中成功与失败轨迹的对比，显式地将模型拉近正确轨迹、推离错误轨迹。这使得RL更新不再单纯依赖高噪声的奖励信号，而是额外获得了一层稳定的相对对齐约束。换言之，GAL并非简单叠加损失项，而是在RL更新过程中扮演了动态方差抑制器的角色。

从理论层面总结，DYPO的设计逻辑是针对SFT与RL各自的缺陷精准施策：

针对困难样本的高偏差问题，采用多教师蒸馏。 多个教师的协同可抵消个体偏差，使整体监督偏差随教师数量增加而下降。
针对中等样本的高方差问题，引入组对齐损失（GAL）。 其混合目标的梯度方差严格小于纯GRPO，且随着模型区分能力的提升，GAL自身的方差会自然衰减。

由此可见，DYPO并非简单拼接SFT与RL，而是在结构上将“高偏差的监督学习”与“高方差的强化学习”分别安置在最适宜的样本上进行处理。因此，它更像是一种重构后训练流程的方法论，而非单一的训练技巧。

△ 图3：GAL的直观机制

如图3所示，GAL利用同一组rollout中已存在的正负样本对，将模型向正确轨迹拉近，同时将错误轨迹推开。

实验结果

研究团队在数学与逻辑推理场景下进行了系统评估，基础模型包括Qwen2.5-Math-7B和Qwen3-4B-Base，评测任务覆盖AIME 2024/2025、AMC、MATH-500、Minerva，以及更侧重分布外泛化的ARC-c和GPQA-Diamond。

对于此类工作，最终性能得分固然重要，但更值得关注的是其优势的具体体现。

在Qwen2.5-Math-7B上，与传统SFT→RL顺序流水线相比，DYPO的表现如下：

在五个复杂推理基准上的平均得分从47.7提升至52.5，绝对提升4.8个百分点。
在分布外任务上，平均得分从48.3大幅跃升至61.6，绝对提升13.3个百分点。

这一提升具备整体性与稳健性。尤其在GPQA-Diamond这类强调迁移推理能力的任务上，DYPO取得了最佳结果，表明其学到的并非仅仅是贴近训练数据分布的模板。

△ 图4：Qwen2.5-Math-7B上的整体结果对比

如图所示，DYPO在复杂推理与分布外任务上均展现出综合优势。

在Qwen3-4B-Base上，类似的优势趋势依然稳固。DYPO：

在分布内任务上的平均得分达到66.9，显著高于SFT→RL的56.1。
在分布外任务上的平均得分达到68.5，同样高于后者的52.6。

这表明其收益主要源于动态分流机制本身，而非依赖于特定骨干模型。

此外，消融实验进一步验证了方法的有效性。即便将第二个教师模型替换为能力更弱的Qwen3-8B，DYPO依然能将AIME 25的得分从22.0提升到27.8，将GPQA-Diamond的得分从30.8提升到39.4。这证明其性能提升并非单纯依赖“注入更强的教师数据”，而是其动态路由与低方差优化机制发挥了关键作用。

除了最终性能，研究还分析了DYPO的训练稳定性。作者追踪了训练过程中离线数据占比、奖励值及策略熵的变化。一个有趣的现象是，DYPO并非在初始阶段就强行推动强探索，而是随着模型能力提升，逐步降低对监督信号的依赖，实现从“依靠教师引导”到“依赖策略自主探索”的自然过渡。这一过程类似于一种自适应的课程学习策略。

△ 图5：训练动态分析

如图所示，随着训练推进，DYPO逐步减少对离线监督的依赖，同时维持了健康的策略多样性。

观察梯度范数可以发现，标准GRPO的梯度曲线通常存在剧烈震荡，而DYPO的曲线则平滑得多。这种差异直接关系到训练稳定性：持续的梯度大幅摆动易导致训练发散，并增加超参数调优难度。DYPO表现出的平滑性，证实其对RL部分的高方差更新施加了有效约束。

△ 图6：梯度范数对比

如图6所示，与标准GRPO相比，DYPO的更新轨迹更平滑，训练过程更易控制。

总结

DYPO的核心贡献并非证明SFT与RL可以合并使用，而是回答了它们应当如何协同工作。它提供了一种侧重于“训练过程组织方式”的新范式。

现有研究已认识到，单纯依赖监督或强化学习均难以将大模型推理能力推向新的高度。但核心挑战并非设计更复杂的目标函数，而在于不同学习阶段、不同样本所暴露的信号价值本就存在差异。

DYPO的创新在于将优化逻辑前置：先诊断样本的学习阶段，再匹配优化路径。由此，SFT负责稳固模型基础，RL负责拓展模型边界，二者各司其职，而非无差别地混合信号。

当然，这项工作也存在其边界。目前主要验证场景集中于数学与逻辑推理，对于开放式对话、创意生成等任务的有效性尚待进一步探索。同时，为稳定评估样本难度，每个提示词需生成8条rollout，这也带来了额外的计算开销。

对于持续提升大模型推理能力这一目标而言，DYPO并非终点，但它无疑指出了一个值得深入探索的新方向。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

来源：互联网

上一篇 Perplexity Skill开发进阶指南：Agent开发者必读的实战教程 下一篇 MCP与A2A协议深度解析：AI Agent通信的标准化革命

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

SFT与RL融合策略：动态优化机制深度解析与实战指南

摘要

SFT和RL为什么很难真正协同

DYPO如何同时处理偏差和方差问题

实验结果

总结

相关文章推荐