热点资讯

扩散模型在线策略蒸馏新范式复旦通义万相联合发布

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

近年来，扩散模型的单任务强化学习在文本生成质量、构图准确度与画面美学优化上均取得

近年来，扩散模型的单任务强化学习在文本生成质量、构图准确度与画面美学优化上均取得了实质性突破。然而，将这些能力整合至同一模型时，训练复杂度急剧攀升——多任务间的优化目标相互干扰，常导致性能此消彼长，训练稳定性难以维持。

复旦大学与阿里巴巴通义万相联合团队提出了一种创新解法。其核心洞察在于：多任务强化学习不应被视为统一优化问题，而应解耦为两个独立阶段——各任务独立的在线策略探索，以及后续的多任务能力融合。

基于这一思路，他们提出了 DiffusionOPD，为扩散模型的在线策略蒸馏（On-Policy Distillation）提供了统一理论视角，并构建了完整的理论与实验体系。

具体而言：先为每个任务独立训练一个“专家教师”模型，再通过在线策略蒸馏将这些教师的能力高效转移至统一的学生模型。最终的学生模型可在构图、OCR、美学等多任务上实现均衡且优异的表现。

论文标题：DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
论文地址：https://arxiv.org/abs/2605.15055
项目主页：https://quanhaol.github.io/DiffusionOPD-site/
代码链接：https://github.com/ali-vilab/DiffusionOPD

01 多任务强化学习的现有方案及其局限

过去常见的多任务强化学习方法主要有两类，各自存在明显短板。

联合多任务 RL（Joint Multi-Task Optimization）：直接使用现成RL算法（如DiffusionNFT、GRPO）联合优化多个任务。该范式面临两个典型问题：一是奖励冲突，不同任务的优化方向相互对抗；二是任务失衡，简单任务主导训练过程，复杂任务难以充分学习。

级联 RL（Cascade RL）：按阶段依次训练不同任务。虽能缓解任务冲突，但训练流程繁琐——每个阶段的超参数和策略需单独调优，且极易发生灾难性遗忘，后续任务训练会覆盖先前已习得的能力。

图1：（a）相比所有多任务强化学习基线方法，DiffusionOPD 展现出显著更快的收敛速度以及更高的性能上限。（b）在包括 GenEval、OCR 与美学在内的多个任务领域中，DiffusionOPD 均优于所有基线方法。

02 DiffusionOPD: 单任务探索 + 多任务整合

DiffusionOPD 的解决方案简洁直接：多任务强化学习不应作为统一优化问题处理，而应解耦为两个独立过程——单任务在线策略探索与多任务能力整合。

整体训练分为两个阶段：

Stage 1 · 单任务教师独立训练：针对不同任务（如 GenEval、OCR、Aesthetic 等），分别使用现有 diffusion RL 方法训练对应的“专家教师”模型。其中 GenEval 任务采用 DiffusionNFT，OCR 与美学任务采用 GRPO-Guard。由于每位教师只负责单一任务，天然避免了跨任务干扰。
Stage 2 · 在线策略蒸馏：多任务能力集成至学生模型：从预训练扩散模型初始化统一的学生模型，再通过在线策略蒸馏融合多任务能力。训练时，学生模型根据不同任务自行生成去噪轨迹；在学生生成的每个去噪状态下，由对应任务的教师模型提供监督信号。如此一来，学生模型无需对所有任务重新探索，而是直接学习各教师的策略与能力，实现高效的多任务能力融合。

03 扩散模型领域 OPD 的目标函数推导

在 LLM 中，在线策略蒸馏的做法很自然：学生模型先按自身策略生成 token，然后教师模型在学生访问到的每个 token 状态上提供监督。由于语言模型本身是离散 token 分布，可直接对每步 token distribution 进行 KL 蒸馏。

但扩散模型不同——它不是离散 token 序列，而是连续状态的去噪过程。

因此，作者首先将扩散的去噪过程重新视为连续状态马尔可夫链。在此视角下，每一步去噪 transition 对应一个 Gaussian transition kernel；学生模型和教师模型分别定义各自的 transition distribution：

接着，论文进一步推导发现：由于 student 和 teacher 的 transition covariance 相同，整个扩散版 OPD 目标的 reverse KL 可写为完全解析、无 Monte-Carlo 方差的均值匹配损失：

作者进一步指出，该框架同时统一了 stochastic SDE sampler 与 deterministic ODE sampler。在 ODE 情况下，目标退化为均值之间的 L2 匹配。

04 与 PPO-style policy gradient 的比较

一个自然想法是：将教师视为“过程奖励模型”，把 KL 损失看作每步去噪的 dense reward，计算 advantage 后套用 PPO 损失函数。

DiffusionOPD 论文严格证明：直接闭式 KL 与 PPO-style policy gradient 在期望意义下梯度完全相等。但 PPO 的梯度中多出一项 score-function 项，该项与高斯噪声成正比，期望为零但方差不为零。换言之，PPO 估计天然比闭式 KL 更“嘈杂”。

更关键的是，PPO 形式依赖 logprob 与 ratio 的计算，因此在 ODE 确定性采样器下无法定义，仅支持 SDE sampler。

05 实验结果

1. 与多任务强化学习方法的对比

定量效果对比：

训练曲线对比：

定性效果对比：

图2：与多任务强化学习方法及单任务教师模型的定性对比。每个案例分两行展示：第一行从左至右依次为 DiffusionOPD（本文方法）、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT；第二行从左至右依次为输入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成结果。

2. 蒸馏方法消融

作者还设计了一组有意义的对照实验：固定同一批专家教师，分别使用 DiffusionOPD、DMD、TDM、SFT 蒸馏到同一个学生模型，在控制变量下对比各方法在“多任务能力整合”场景中的适用性。

训练曲线对比：

曲线表明：在相同教师和采样设置下，DiffusionOPD 在收敛速度和性能上限上均显著更优。

定性效果对比：

图3：与不同蒸馏方法的定性对比结果。从左至右依次为：DiffusionOPD（本文方法）、DMD、TDM 和 SFT。

3. Loss 形式及 Sampler Type 消融

图6：损失函数形式与采样器噪声水平的消融实验。当噪声水平设为 0 时，SDE sampler 退化为 ODE sampler。实验结果表明：PPO-style policy gradient 的表现逊于相同噪声水平下的 closed-form KL objective；此外，更低的噪声水平能带来更快的收敛速度和更高的性能上限。

来源：互联网

上一篇 通义灵码Java多线程并发编程AI建议榜 下一篇 Agent趋势权威榜单：AI原生时代港大黄超解读

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

扩散模型在线策略蒸馏新范式 复旦通义万相联合发布

摘要