菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 复旦大学联手阿里开源多技能AI绘图模型,技术解析与性能测评
其他资讯

复旦大学联手阿里开源多技能AI绘图模型,技术解析与性能测评

2026-05-22
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

复旦大学与阿里巴巴团队提出DiffusionOPD方法,通过独立训练构图、文字渲染等专家模型,再

这项由复旦大学与阿里巴巴集团万象团队联合开展的研究,以预印本形式于2026年5月14日发布在arXiv平台,论文编号为arXiv:2605.15055。

复旦大学与阿里巴巴联手:让AI绘图模型同时

如今,用AI生成图片已非难事。输入一段文字,几秒后便能得到一张画面。这背后,是名为“扩散模型”的AI系统在驱动。过去几年,研究者们通过“强化学习”等技术,已经能让这类模型在单项技能上精益求精——比如提升画面美感、增强文字渲染的准确性,或者更好地理解空间指令。

但现实需求往往更贪心:用户希望同一个模型既能画得好看,又能准确写字,还能正确理解“把苹果放在篮子左边”这样的复杂描述。这就像要求一位厨师不能只会做一道菜,而必须是精通各系的全才。现有的训练方法面对这种“全能”要求时,常常陷入两难:要么多个任务同时训练,互相干扰,效果越练越乱;要么只能分阶段依次训练,耗时费力,并且新任务学会了,旧任务却可能被遗忘。

针对这一核心痛点,复旦大学与阿里的研究团队提出了一种名为DiffusionOPD的新方法,其中OPD代表“在线策略蒸馏”。他们用一个颇为巧妙的思路,尝试从根本上解决上述难题,并在多项权威评测中取得了当前最佳的综合表现。

一、培养“全能选手”的困境与破局

不妨用一个比喻来理解这个难题。假设要培养一位能同时精通川菜、粤菜和法餐的厨师,通常有两种路径。

第一种是“混着学”:让学徒同时接触三种菜系。这听起来高效,但问题立刻浮现——川菜的麻辣与法餐的清淡在训练方向上可能直接冲突。更棘手的是,如果粤菜相对容易上手,学徒很可能将大部分精力投入其中,导致法餐始终学不好。这正是AI训练中典型的“跨任务干扰”和“任务难度失衡”问题。

第二种是“依次学”:先专攻川菜一个月,再转向粤菜,最后学法餐。这避免了同时学习的冲突,却引入了另一个著名难题——“灾难性遗忘”。当学徒全力学习法餐时,之前掌握的川菜技能很可能大幅退化。在AI领域,这种现象同样普遍,且这种顺序训练方式需要极其精细的阶段设计,流程繁琐。

DiffusionOPD的核心破局思路在于:将这两个步骤彻底解耦。先为每个任务独立培养一位“专科大师”,再由一位“全能学徒”同时向所有大师学习。专科大师们只需心无旁骛地深耕自己的领域,互不干扰;而全能学徒的学习过程,也不再是从零摸索,而是直接汲取大师们已经提炼出的经验精华。如此一来,既规避了多任务并行训练的混乱,也根除了顺序训练中的遗忘问题。

二、灵感来源:向语言模型“借”方法

这一思路并非凭空创造。在大语言模型(例如ChatGPT这类模型)领域,一种名为“在线策略蒸馏”的训练方法已被证明行之有效。其核心精神在于:学生的学习场景,不应是老师演示的理想范例,而应基于学生自己实际生成的内容,由老师来指点每一步如何改进。

举个例子,传统的学习如同“临摹字帖”——老师写一个字,学生照着描。而在线策略蒸馏则更像是:学生自己先写一个字,写完后老师针对其笔画中实际存在的问题,指出“这一笔应该这样运笔,那一划力道要轻一些”。这种方式的最大优势在于,指导始终对准学生实际会犯的错误,针对性极强。

研究团队的首要工作,就是将这套为离散文本生成设计的方法,成功地迁移到连续图像生成的扩散模型上。这并非易事,因为两者工作机制有本质不同:文字生成是从有限的词汇表中挑选下一个词,而扩散模型的每一步,是在连续的像素空间中进行近乎无限的细微调整。

三、核心机制:图像生成的“去噪之旅”

要理解DiffusionOPD的数学之美,需要先简单了解扩散模型的工作原理。一张AI图片的生成,可以想象成从一团随机噪点出发,一步步去除杂质,最终雕刻出清晰图像的过程——如同雕塑家面对原石,逐刀剔除多余部分,让作品逐渐显现。

这个“去噪”过程被分为许多步骤。每一步,模型都需要预测“下一步应该朝哪个方向调整”。在数学上,这被表述为一个从当前状态转移到下一个状态的概率分布,研究者称之为“马尔可夫链上的高斯转移核”。

这里有一个关键发现:在任意一步,学生模型和老师模型虽然会预测不同的“调整方向”,但它们在此过程中引入的随机性大小是完全相同的。就好比两位雕塑家在同一个步骤使用相同力度的凿子,只是下凿的位置略有差异。由于随机性部分一致,两者之间的差异就 solely 取决于各自预测的“调整方向均值”之间的距离。

这一发现至关重要。它意味着,衡量学生与老师在某一生成步骤上的差异,可以被一个极其简洁的数学公式精确表达——即两者预测的“均值”之间距离的平方,除以该步骤随机幅度的平方。这个量被称为“KL散度”的闭合形式,无需任何近似或随机采样,可直接精确计算。

于是,整个训练目标变得异常清晰:沿着学生模型自己走出的那条“去噪轨迹”,在每一步都让其预测方向尽量靠近对应老师的预测方向,并将所有步骤的差距累加,最终最小化这个总差距。

四、方法对比:为何不选用更流行的PPO?

熟悉AI训练的读者可能会问:强化学习中非常流行的PPO(近端策略优化)算法已被广泛用于扩散模型训练,为何这里要另辟蹊径?

研究团队对此进行了深入的数学分析。他们发现,若将每一步的KL散度视为奖励信号,再用PPO进行优化,表面可行,实则存在一个深层问题:PPO的梯度计算中,除了一个有用的“方向梯度”项,还会多出一个额外的项,其形式为“随机噪声乘以梯度”。

从数学期望上看,这个多余项的平均值为零——即它不会系统性指错方向。但其存在会极大地增加每次梯度估计的方差(抖动)。这就像在黑暗中用手电筒寻路,虽然光源的平均照射方向正确,但光束本身剧烈晃动,导致前进过程缓慢且容易偏离。

相比之下,直接优化那个可精确计算的KL散度闭合形式,其梯度完全来源于确定性的预测均值,没有任何额外噪声干扰。两种方法在理论期望上等价,但一个“稳”,一个“抖”,训练效果自然高下立判。

此外,PPO框架依赖于“随机策略”的概念——模型需能为每个动作输出一个概率密度。但对于扩散模型中常用的确定性ODE采样器而言,根本不存在这样的概率密度,PPO便无法直接应用。而直接优化KL散度的方法,对随机性的SDE采样器和确定性的ODE采样器都完全兼容,提供了一个更通用的训练框架。

五、训练流程:清晰的“两阶段”流水线

整个DiffusionOPD的训练流程分为两个阶段,堪称“先培养专家,再锻造全才”。

第一阶段:独立培养专科教师。 研究团队为三类核心任务分别训练了专门的模型: 1. 构图理解任务: 使用GenEval评测体系,衡量模型理解“苹果在篮子左边”等空间关系的能力。该教师模型采用DiffusionNFT算法训练,因其在该任务上收敛更快、性能上限更高。 2. 文字渲染任务: 衡量模型在图片中准确生成指定文字的能力。该教师模型采用GRPO-Guard算法训练,原因是DiffusionNFT在此任务上容易“走捷径”——通过扭曲图像背景而非真正学会写字来刷高分数。 3. 美观度任务: 综合PickScore、ClipScore和HPSv2.1三个评分维度。同样使用GRPO-Guard训练。 三位“教师”独立训练,互不干扰,各自专注于成为领域内的顶尖专家。

第二阶段:全能学徒的在线学习。 学生模型从一个通用的预训练扩散模型出发,以轮询方式依次向每位老师学习。具体流程如下:针对某个任务,先从对应的提示词数据集中取一批描述,用当前的学生模型(参数不更新)执行一次完整的图像生成,得到一条“在线轨迹”。接着,让对应的教师模型在这条轨迹的每个状态点上进行预测,并计算每一步学生与教师预测均值之间的差距,将所有步骤的差距汇总为该任务的损失。依次对三个任务完成上述计算后,将三个损失相加,进行一次统一的反向传播来更新学生模型的参数。这种“完成一整轮循环再更新”的方式,确保了每次参数更新都均衡地反映了所有任务的需求,避免了模型偏向任一特定任务。

六、实验结果:性能与效率的双重提升

研究团队在一套综合评测体系上进行了对比实验,该体系覆盖两类规则奖励和六类模型奖励,基础模型为Stable Diffusion 3.5 Medium(分辨率512×512)。

规则类奖励包括GenEval(构图理解,满分1.0)和OCR(文字渲染,满分1.0)。模型类奖励包括PickScore(人类偏好评分)、ClipScore(图文匹配度)、HPSv2.1(另一种人类偏好评分)、Aesthetics(美观度,满分10分)、ImageReward(图像综合奖励)和UnifiedReward(多模态统一奖励)。

对比基准涵盖了多个层次: - 单任务教师: 验证了专家模型的专精特性。例如,构图教师的GenEval高达0.96,但美观度仅5.24;文字教师的OCR达0.93,但GenEval仅0.65;美观教师的PickScore达24.02,但GenEval仅0.49。 - 多任务联合训练: 包括Multi-Task GRPO-Guard和Multi-Task NFT,两者均需约130小时GPU时间,综合平均分分别为0.763和0.715。 - 级联训练: 即Cascade NFT,依次在三个任务上顺序微调,耗时约148小时,综合平均分达0.851。表现已相当不错,但仍受困于灾难性遗忘,且流程最繁琐。

DiffusionOPD的结果脱颖而出:综合平均分达到0.929,超越所有基准。 具体来看,GenEval为0.96(与单任务专家持平),OCR为0.94,PickScore为23.99,HPSv2.1为0.342,Aesthetics为6.15,ImageReward为1.50,UnifiedReward为3.50。更重要的是其效率:DiffusionOPD总训练时间为教师最长训练时间(美观教师85.75小时)加上蒸馏训练时间(11.26小时),合计约97小时,远少于级联NFT的148小时,也少于联合训练方法的约130小时。

从收敛曲线观察,多任务联合训练方法的PickScore增长曲线明显比单任务教师的曲线平缓,证实了多任务干扰严重拖慢学习速度。而DiffusionOPD的曲线则从一开始就呈现快速爬升趋势,最终稳定在0.914附近,甚至略高于级联NFT的0.903。

七、消融实验:验证关键设计选择

研究团队通过一系列控制变量实验,验证了方法中关键设计的有效性。

第一组:不同蒸馏方法对比。 在相同的教师模型和在线轨迹采样方式下,对比了DMD(分布匹配蒸馏)、TDM(轨迹分布匹配)、SFT(有监督微调,即学生直接模仿老师生成的图片)以及DiffusionOPD。其中SFT是离线的。结果显示,DiffusionOPD在GenEval、OCR和PickScore三个指标上均取得了最快的收敛速度和最高的性能上限,尤其在训练早期便显著领先。

第二组:损失函数形式对比。 在相同的采样噪声水平下,对比直接优化闭合形式KL散度与使用PPO风格策略梯度的效果。结果与理论分析一致:在相同噪声水平下,闭合KL目标比PPO方法收敛更快、最终分数更高,证实减少梯度方差带来了实际收益。

第三组:采样器噪声水平对比。 测试了不同噪声水平(a=0.7, 0.5, 0.3)以及完全无噪声的ODE采样器(a=0)。结果非常清晰:噪声水平越低,收敛速度越快,最终性能越高。使用ODE采样器的版本,其训练效率比噪声水平为0.7的SDE版本高出约五倍。这与理论高度吻合——噪声越小,每一步的KL估计越精确,梯度信号越干净。这也解释了为何DiffusionOPD默认采用确定性ODE采样器进行蒸馏训练。

总结与展望

归根结底,DiffusionOPD做了一件符合直觉的事:先让各路高手在各自领域登峰造极,再让一位学徒同时跟随所有高手练习,并且练习场景完全基于学徒自己的实际操作,而非机械模仿高手的完美范本。这种思路在实践中带来了训练速度与最终性能的双重提升,其背后更有严谨的数学原理作为支撑。

对于普通用户而言,这项研究意味着未来的AI绘图工具有望在单一模型内,同时实现更精准的文字渲染、更合理的空间构图和更高的视觉美观度,无需为不同需求频繁切换模型。当然,目前该方法主要在512×512分辨率的SD3.5-Medium模型上得到验证,能否平滑扩展至更大规模模型和更高分辨率,仍是值得探索的开放问题。此外,教师模型的质量天花板直接决定了学生所能达到的高度,如何培养出更强大的单任务专家,也是该框架未来发展的重要方向。

Q&A

Q1:DiffusionOPD和普通多任务强化学习有何本质区别?
A:普通多任务强化学习让一个模型同时学习多个任务,不同任务的训练信号会相互干扰,且模型容易偏向简单任务。DiffusionOPD则先为每个任务训练独立的专家模型,再让一个统一的学生模型沿着自己生成的轨迹,逐步向各专家模型对齐。专家训练互不干扰,学生学习有迹可循,从而实现了更快的训练速度和更好的综合效果。

Q2:扩散模型训练中“在线策略”和“离线策略”有何区别?
A:离线策略是教师预先生成一批样本(图片),学生进行模仿学习,如同“临摹字帖”。在线策略则是学生自己先走一遍生成过程,教师针对学生实际生成的每一步轨迹给出改进建议。DiffusionOPD采用在线策略,使得指导始终对准学生实际犯错之处,因此比离线方式更具针对性,收敛更快。

Q3:DiffusionOPD为何默认使用ODE采样器而非SDE采样器?
A:SDE采样器每一步都会注入额外的随机噪声,导致训练梯度的估计产生较大方差(抖动),如同在颠簸路面行车。ODE采样器不引入额外噪声,每一步的梯度信号更为干净稳定。实验表明,使用ODE采样器比使用高噪声SDE采样器的训练效率高出约五倍,因此被设为默认选项。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多