菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 扩散模型在线策略蒸馏新范式 复旦通义万相联合发布
热点资讯

扩散模型在线策略蒸馏新范式 复旦通义万相联合发布

2026-05-31
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

近年来,扩散模型的单任务强化学习在文本生成质量、构图准确度与画面美学优化上均取得

近年来,扩散模型的单任务强化学习在文本生成质量、构图准确度与画面美学优化上均取得了实质性突破。然而,将这些能力整合至同一模型时,训练复杂度急剧攀升——多任务间的优化目标相互干扰,常导致性能此消彼长,训练稳定性难以维持。

复旦大学与阿里巴巴通义万相联合团队提出了一种创新解法。其核心洞察在于:多任务强化学习不应被视为统一优化问题,而应解耦为两个独立阶段——各任务独立的在线策略探索,以及后续的多任务能力融合。

基于这一思路,他们提出了 DiffusionOPD,为扩散模型的在线策略蒸馏(On-Policy Distillation)提供了统一理论视角,并构建了完整的理论与实验体系。

具体而言:先为每个任务独立训练一个“专家教师”模型,再通过在线策略蒸馏将这些教师的能力高效转移至统一的学生模型。最终的学生模型可在构图、OCR、美学等多任务上实现均衡且优异的表现。

  • 论文标题:DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
  • 论文地址:https://arxiv.org/abs/2605.15055
  • 项目主页:https://quanhaol.github.io/DiffusionOPD-site/
  • 代码链接:https://github.com/ali-vilab/DiffusionOPD

01 多任务强化学习的现有方案及其局限

过去常见的多任务强化学习方法主要有两类,各自存在明显短板。

联合多任务 RL(Joint Multi-Task Optimization):直接使用现成RL算法(如DiffusionNFT、GRPO)联合优化多个任务。该范式面临两个典型问题:一是奖励冲突,不同任务的优化方向相互对抗;二是任务失衡,简单任务主导训练过程,复杂任务难以充分学习。

级联 RL(Cascade RL):按阶段依次训练不同任务。虽能缓解任务冲突,但训练流程繁琐——每个阶段的超参数和策略需单独调优,且极易发生灾难性遗忘,后续任务训练会覆盖先前已习得的能力。

图1:(a)相比所有多任务强化学习基线方法,DiffusionOPD 展现出显著更快的收敛速度以及更高的性能上限。(b)在包括 GenEval、OCR 与美学在内的多个任务领域中,DiffusionOPD 均优于所有基线方法。

02 DiffusionOPD: 单任务探索 + 多任务整合

DiffusionOPD 的解决方案简洁直接:多任务强化学习不应作为统一优化问题处理,而应解耦为两个独立过程——单任务在线策略探索与多任务能力整合。

整体训练分为两个阶段:

  • Stage 1 · 单任务教师独立训练:针对不同任务(如 GenEval、OCR、Aesthetic 等),分别使用现有 diffusion RL 方法训练对应的“专家教师”模型。其中 GenEval 任务采用 DiffusionNFT,OCR 与美学任务采用 GRPO-Guard。由于每位教师只负责单一任务,天然避免了跨任务干扰。
  • Stage 2 · 在线策略蒸馏:多任务能力集成至学生模型:从预训练扩散模型初始化统一的学生模型,再通过在线策略蒸馏融合多任务能力。训练时,学生模型根据不同任务自行生成去噪轨迹;在学生生成的每个去噪状态下,由对应任务的教师模型提供监督信号。如此一来,学生模型无需对所有任务重新探索,而是直接学习各教师的策略与能力,实现高效的多任务能力融合。

03 扩散模型领域 OPD 的目标函数推导

在 LLM 中,在线策略蒸馏的做法很自然:学生模型先按自身策略生成 token,然后教师模型在学生访问到的每个 token 状态上提供监督。由于语言模型本身是离散 token 分布,可直接对每步 token distribution 进行 KL 蒸馏。

但扩散模型不同——它不是离散 token 序列,而是连续状态的去噪过程。

因此,作者首先将扩散的去噪过程重新视为连续状态马尔可夫链。在此视角下,每一步去噪 transition 对应一个 Gaussian transition kernel;学生模型和教师模型分别定义各自的 transition distribution:

接着,论文进一步推导发现:由于 student 和 teacher 的 transition covariance 相同,整个扩散版 OPD 目标的 reverse KL 可写为完全解析、无 Monte-Carlo 方差的均值匹配损失:

作者进一步指出,该框架同时统一了 stochastic SDE sampler 与 deterministic ODE sampler。在 ODE 情况下,目标退化为均值之间的 L2 匹配。

04 与 PPO-style policy gradient 的比较

一个自然想法是:将教师视为“过程奖励模型”,把 KL 损失看作每步去噪的 dense reward,计算 advantage 后套用 PPO 损失函数。

DiffusionOPD 论文严格证明:直接闭式 KL 与 PPO-style policy gradient 在期望意义下梯度完全相等。但 PPO 的梯度中多出一项 score-function 项,该项与高斯噪声成正比,期望为零但方差不为零。换言之,PPO 估计天然比闭式 KL 更“嘈杂”。

更关键的是,PPO 形式依赖 logprob 与 ratio 的计算,因此在 ODE 确定性采样器下无法定义,仅支持 SDE sampler。

05 实验结果

1. 与多任务强化学习方法的对比

定量效果对比:

训练曲线对比:

定性效果对比:

图2:与多任务强化学习方法及单任务教师模型的定性对比。每个案例分两行展示:第一行从左至右依次为 DiffusionOPD(本文方法)、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT;第二行从左至右依次为输入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成结果。

2. 蒸馏方法消融

作者还设计了一组有意义的对照实验:固定同一批专家教师,分别使用 DiffusionOPD、DMD、TDM、SFT 蒸馏到同一个学生模型,在控制变量下对比各方法在“多任务能力整合”场景中的适用性。

训练曲线对比:

曲线表明:在相同教师和采样设置下,DiffusionOPD 在收敛速度和性能上限上均显著更优。

定性效果对比:

图3:与不同蒸馏方法的定性对比结果。从左至右依次为:DiffusionOPD(本文方法)、DMD、TDM 和 SFT。

3. Loss 形式及 Sampler Type 消融

图6:损失函数形式与采样器噪声水平的消融实验。当噪声水平设为 0 时,SDE sampler 退化为 ODE sampler。实验结果表明:PPO-style policy gradient 的表现逊于相同噪声水平下的 closed-form KL objective;此外,更低的噪声水平能带来更快的收敛速度和更高的性能上限。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多