其他资讯

复旦大学联手阿里开源多技能AI绘图模型，技术解析与性能测评

2026-05-22

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

复旦大学与阿里巴巴团队提出DiffusionOPD方法，通过独立训练构图、文字渲染等专家模型，再

这项由复旦大学与阿里巴巴集团万象团队联合开展的研究，以预印本形式于2026年5月14日发布在arXiv平台，论文编号为arXiv:2605.15055。

复旦大学与阿里巴巴联手：让AI绘图模型同时

如今，用AI生成图片已非难事。输入一段文字，几秒后便能得到一张画面。这背后，是名为“扩散模型”的AI系统在驱动。过去几年，研究者们通过“强化学习”等技术，已经能让这类模型在单项技能上精益求精——比如提升画面美感、增强文字渲染的准确性，或者更好地理解空间指令。

但现实需求往往更贪心：用户希望同一个模型既能画得好看，又能准确写字，还能正确理解“把苹果放在篮子左边”这样的复杂描述。这就像要求一位厨师不能只会做一道菜，而必须是精通各系的全才。现有的训练方法面对这种“全能”要求时，常常陷入两难：要么多个任务同时训练，互相干扰，效果越练越乱；要么只能分阶段依次训练，耗时费力，并且新任务学会了，旧任务却可能被遗忘。

针对这一核心痛点，复旦大学与阿里的研究团队提出了一种名为DiffusionOPD的新方法，其中OPD代表“在线策略蒸馏”。他们用一个颇为巧妙的思路，尝试从根本上解决上述难题，并在多项权威评测中取得了当前最佳的综合表现。

一、培养“全能选手”的困境与破局

不妨用一个比喻来理解这个难题。假设要培养一位能同时精通川菜、粤菜和法餐的厨师，通常有两种路径。

第一种是“混着学”：让学徒同时接触三种菜系。这听起来高效，但问题立刻浮现——川菜的麻辣与法餐的清淡在训练方向上可能直接冲突。更棘手的是，如果粤菜相对容易上手，学徒很可能将大部分精力投入其中，导致法餐始终学不好。这正是AI训练中典型的“跨任务干扰”和“任务难度失衡”问题。

第二种是“依次学”：先专攻川菜一个月，再转向粤菜，最后学法餐。这避免了同时学习的冲突，却引入了另一个著名难题——“灾难性遗忘”。当学徒全力学习法餐时，之前掌握的川菜技能很可能大幅退化。在AI领域，这种现象同样普遍，且这种顺序训练方式需要极其精细的阶段设计，流程繁琐。

DiffusionOPD的核心破局思路在于：将这两个步骤彻底解耦。先为每个任务独立培养一位“专科大师”，再由一位“全能学徒”同时向所有大师学习。专科大师们只需心无旁骛地深耕自己的领域，互不干扰；而全能学徒的学习过程，也不再是从零摸索，而是直接汲取大师们已经提炼出的经验精华。如此一来，既规避了多任务并行训练的混乱，也根除了顺序训练中的遗忘问题。

二、灵感来源：向语言模型“借”方法

这一思路并非凭空创造。在大语言模型（例如ChatGPT这类模型）领域，一种名为“在线策略蒸馏”的训练方法已被证明行之有效。其核心精神在于：学生的学习场景，不应是老师演示的理想范例，而应基于学生自己实际生成的内容，由老师来指点每一步如何改进。

举个例子，传统的学习如同“临摹字帖”——老师写一个字，学生照着描。而在线策略蒸馏则更像是：学生自己先写一个字，写完后老师针对其笔画中实际存在的问题，指出“这一笔应该这样运笔，那一划力道要轻一些”。这种方式的最大优势在于，指导始终对准学生实际会犯的错误，针对性极强。

研究团队的首要工作，就是将这套为离散文本生成设计的方法，成功地迁移到连续图像生成的扩散模型上。这并非易事，因为两者工作机制有本质不同：文字生成是从有限的词汇表中挑选下一个词，而扩散模型的每一步，是在连续的像素空间中进行近乎无限的细微调整。

三、核心机制：图像生成的“去噪之旅”

要理解DiffusionOPD的数学之美，需要先简单了解扩散模型的工作原理。一张AI图片的生成，可以想象成从一团随机噪点出发，一步步去除杂质，最终雕刻出清晰图像的过程——如同雕塑家面对原石，逐刀剔除多余部分，让作品逐渐显现。

这个“去噪”过程被分为许多步骤。每一步，模型都需要预测“下一步应该朝哪个方向调整”。在数学上，这被表述为一个从当前状态转移到下一个状态的概率分布，研究者称之为“马尔可夫链上的高斯转移核”。

这里有一个关键发现：在任意一步，学生模型和老师模型虽然会预测不同的“调整方向”，但它们在此过程中引入的随机性大小是完全相同的。就好比两位雕塑家在同一个步骤使用相同力度的凿子，只是下凿的位置略有差异。由于随机性部分一致，两者之间的差异就 solely 取决于各自预测的“调整方向均值”之间的距离。

这一发现至关重要。它意味着，衡量学生与老师在某一生成步骤上的差异，可以被一个极其简洁的数学公式精确表达——即两者预测的“均值”之间距离的平方，除以该步骤随机幅度的平方。这个量被称为“KL散度”的闭合形式，无需任何近似或随机采样，可直接精确计算。

于是，整个训练目标变得异常清晰：沿着学生模型自己走出的那条“去噪轨迹”，在每一步都让其预测方向尽量靠近对应老师的预测方向，并将所有步骤的差距累加，最终最小化这个总差距。

四、方法对比：为何不选用更流行的PPO？

熟悉AI训练的读者可能会问：强化学习中非常流行的PPO（近端策略优化）算法已被广泛用于扩散模型训练，为何这里要另辟蹊径？

研究团队对此进行了深入的数学分析。他们发现，若将每一步的KL散度视为奖励信号，再用PPO进行优化，表面可行，实则存在一个深层问题：PPO的梯度计算中，除了一个有用的“方向梯度”项，还会多出一个额外的项，其形式为“随机噪声乘以梯度”。

从数学期望上看，这个多余项的平均值为零——即它不会系统性指错方向。但其存在会极大地增加每次梯度估计的方差（抖动）。这就像在黑暗中用手电筒寻路，虽然光源的平均照射方向正确，但光束本身剧烈晃动，导致前进过程缓慢且容易偏离。

相比之下，直接优化那个可精确计算的KL散度闭合形式，其梯度完全来源于确定性的预测均值，没有任何额外噪声干扰。两种方法在理论期望上等价，但一个“稳”，一个“抖”，训练效果自然高下立判。

此外，PPO框架依赖于“随机策略”的概念——模型需能为每个动作输出一个概率密度。但对于扩散模型中常用的确定性ODE采样器而言，根本不存在这样的概率密度，PPO便无法直接应用。而直接优化KL散度的方法，对随机性的SDE采样器和确定性的ODE采样器都完全兼容，提供了一个更通用的训练框架。

五、训练流程：清晰的“两阶段”流水线

整个DiffusionOPD的训练流程分为两个阶段，堪称“先培养专家，再锻造全才”。

第一阶段：独立培养专科教师。 研究团队为三类核心任务分别训练了专门的模型： 1. 构图理解任务： 使用GenEval评测体系，衡量模型理解“苹果在篮子左边”等空间关系的能力。该教师模型采用DiffusionNFT算法训练，因其在该任务上收敛更快、性能上限更高。 2. 文字渲染任务： 衡量模型在图片中准确生成指定文字的能力。该教师模型采用GRPO-Guard算法训练，原因是DiffusionNFT在此任务上容易“走捷径”——通过扭曲图像背景而非真正学会写字来刷高分数。 3. 美观度任务： 综合PickScore、ClipScore和HPSv2.1三个评分维度。同样使用GRPO-Guard训练。三位“教师”独立训练，互不干扰，各自专注于成为领域内的顶尖专家。

第二阶段：全能学徒的在线学习。 学生模型从一个通用的预训练扩散模型出发，以轮询方式依次向每位老师学习。具体流程如下：针对某个任务，先从对应的提示词数据集中取一批描述，用当前的学生模型（参数不更新）执行一次完整的图像生成，得到一条“在线轨迹”。接着，让对应的教师模型在这条轨迹的每个状态点上进行预测，并计算每一步学生与教师预测均值之间的差距，将所有步骤的差距汇总为该任务的损失。依次对三个任务完成上述计算后，将三个损失相加，进行一次统一的反向传播来更新学生模型的参数。这种“完成一整轮循环再更新”的方式，确保了每次参数更新都均衡地反映了所有任务的需求，避免了模型偏向任一特定任务。

六、实验结果：性能与效率的双重提升

研究团队在一套综合评测体系上进行了对比实验，该体系覆盖两类规则奖励和六类模型奖励，基础模型为Stable Diffusion 3.5 Medium（分辨率512×512）。

规则类奖励包括GenEval（构图理解，满分1.0）和OCR（文字渲染，满分1.0）。模型类奖励包括PickScore（人类偏好评分）、ClipScore（图文匹配度）、HPSv2.1（另一种人类偏好评分）、Aesthetics（美观度，满分10分）、ImageReward（图像综合奖励）和UnifiedReward（多模态统一奖励）。

对比基准涵盖了多个层次： - 单任务教师： 验证了专家模型的专精特性。例如，构图教师的GenEval高达0.96，但美观度仅5.24；文字教师的OCR达0.93，但GenEval仅0.65；美观教师的PickScore达24.02，但GenEval仅0.49。 - 多任务联合训练： 包括Multi-Task GRPO-Guard和Multi-Task NFT，两者均需约130小时GPU时间，综合平均分分别为0.763和0.715。 - 级联训练： 即Cascade NFT，依次在三个任务上顺序微调，耗时约148小时，综合平均分达0.851。表现已相当不错，但仍受困于灾难性遗忘，且流程最繁琐。

DiffusionOPD的结果脱颖而出：综合平均分达到0.929，超越所有基准。 具体来看，GenEval为0.96（与单任务专家持平），OCR为0.94，PickScore为23.99，HPSv2.1为0.342，Aesthetics为6.15，ImageReward为1.50，UnifiedReward为3.50。更重要的是其效率：DiffusionOPD总训练时间为教师最长训练时间（美观教师85.75小时）加上蒸馏训练时间（11.26小时），合计约97小时，远少于级联NFT的148小时，也少于联合训练方法的约130小时。

从收敛曲线观察，多任务联合训练方法的PickScore增长曲线明显比单任务教师的曲线平缓，证实了多任务干扰严重拖慢学习速度。而DiffusionOPD的曲线则从一开始就呈现快速爬升趋势，最终稳定在0.914附近，甚至略高于级联NFT的0.903。

七、消融实验：验证关键设计选择

研究团队通过一系列控制变量实验，验证了方法中关键设计的有效性。

第一组：不同蒸馏方法对比。 在相同的教师模型和在线轨迹采样方式下，对比了DMD（分布匹配蒸馏）、TDM（轨迹分布匹配）、SFT（有监督微调，即学生直接模仿老师生成的图片）以及DiffusionOPD。其中SFT是离线的。结果显示，DiffusionOPD在GenEval、OCR和PickScore三个指标上均取得了最快的收敛速度和最高的性能上限，尤其在训练早期便显著领先。

第二组：损失函数形式对比。 在相同的采样噪声水平下，对比直接优化闭合形式KL散度与使用PPO风格策略梯度的效果。结果与理论分析一致：在相同噪声水平下，闭合KL目标比PPO方法收敛更快、最终分数更高，证实减少梯度方差带来了实际收益。

第三组：采样器噪声水平对比。 测试了不同噪声水平（a=0.7, 0.5, 0.3）以及完全无噪声的ODE采样器（a=0）。结果非常清晰：噪声水平越低，收敛速度越快，最终性能越高。使用ODE采样器的版本，其训练效率比噪声水平为0.7的SDE版本高出约五倍。这与理论高度吻合——噪声越小，每一步的KL估计越精确，梯度信号越干净。这也解释了为何DiffusionOPD默认采用确定性ODE采样器进行蒸馏训练。

总结与展望

归根结底，DiffusionOPD做了一件符合直觉的事：先让各路高手在各自领域登峰造极，再让一位学徒同时跟随所有高手练习，并且练习场景完全基于学徒自己的实际操作，而非机械模仿高手的完美范本。这种思路在实践中带来了训练速度与最终性能的双重提升，其背后更有严谨的数学原理作为支撑。

对于普通用户而言，这项研究意味着未来的AI绘图工具有望在单一模型内，同时实现更精准的文字渲染、更合理的空间构图和更高的视觉美观度，无需为不同需求频繁切换模型。当然，目前该方法主要在512×512分辨率的SD3.5-Medium模型上得到验证，能否平滑扩展至更大规模模型和更高分辨率，仍是值得探索的开放问题。此外，教师模型的质量天花板直接决定了学生所能达到的高度，如何培养出更强大的单任务专家，也是该框架未来发展的重要方向。

Q&A

Q1：DiffusionOPD和普通多任务强化学习有何本质区别？
A：普通多任务强化学习让一个模型同时学习多个任务，不同任务的训练信号会相互干扰，且模型容易偏向简单任务。DiffusionOPD则先为每个任务训练独立的专家模型，再让一个统一的学生模型沿着自己生成的轨迹，逐步向各专家模型对齐。专家训练互不干扰，学生学习有迹可循，从而实现了更快的训练速度和更好的综合效果。

Q2：扩散模型训练中“在线策略”和“离线策略”有何区别？
A：离线策略是教师预先生成一批样本（图片），学生进行模仿学习，如同“临摹字帖”。在线策略则是学生自己先走一遍生成过程，教师针对学生实际生成的每一步轨迹给出改进建议。DiffusionOPD采用在线策略，使得指导始终对准学生实际犯错之处，因此比离线方式更具针对性，收敛更快。

Q3：DiffusionOPD为何默认使用ODE采样器而非SDE采样器？
A：SDE采样器每一步都会注入额外的随机噪声，导致训练梯度的估计产生较大方差（抖动），如同在颠簸路面行车。ODE采样器不引入额外噪声，每一步的梯度信号更为干净稳定。实验表明，使用ODE采样器比使用高噪声SDE采样器的训练效率高出约五倍，因此被设为默认选项。

来源：互联网

上一篇 OpenAI新加坡AI实验室投资2.34亿美元，海外布局首站深度解析 下一篇 腾讯会议AI同传功能深度测评：3秒低延迟与音色模仿实测

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。