其他资讯

CVPR 2026前沿解读：港大团队新作破解扩散模型“作弊”难题，实现高保真生成

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

香港大学团队针对扩散模型图像生成中的“奖励作弊”问题，提出GDRO方法，通过组级奖励

扩散模型已成为图像生成领域无可争议的基石，其生成质量已逼近真实。然而，工业级应用对模型的要求更为严苛：不仅要生成逼真的图像，更要精准、可靠地执行复杂指令。

例如，当指令要求生成包含特定文字的图片时，模型可能采取一种“捷径”：将文字放大至占据整个画面，从而轻易通过OCR系统的识别检测，获得高分。在涉及多对象生成的场景中，模型也可能通过过度简化场景结构来迎合评分规则。这种“奖励作弊”行为，已成为扩散模型与人类意图对齐过程中的一个核心挑战。

为应对此挑战，业界普遍尝试引入强化学习或奖励机制对扩散模型进行后训练，以期引导模型输出更符合要求的内容。然而，实践表明，模型往往只是学会了优化奖励信号本身，而非深入理解任务本质。

针对这一瓶颈，香港大学赵恒爽团队提出了一种创新的后训练方法，并在论文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中进行了系统阐述。该方法通过引入“组级奖励优化”机制，在提升模型任务性能的同时，有效抑制了奖励作弊现象，并带来了一个关键优势：训练效率的显著提升。

这对工程落地至关重要。传统的在线强化学习方法，每一步优化都需重新执行完整的扩散采样来生成图像，计算开销巨大。GDRO采用的完全离线训练范式则截然不同：它允许在训练前批量生成并缓存带评分的数据集，后续优化过程无需重复调用耗时的扩散采样。这不仅大幅削减了计算成本，还摆脱了对特定采样器的依赖，避免了复杂的ODE到SDE近似转换，使整个训练流程更简洁、更稳定。

对于寻求模型优化的企业而言，这意味着能够以更低的算力成本，对大规模扩散模型进行高效的后训练调优，性价比显著。

GDRO的实际效能如何？研究团队从任务性能、作弊抑制和训练效率三个维度进行了综合评估。

总体而言，GDRO在相关任务上取得了更高的评分，同时明显减少了作弊行为，并在训练效率与稳定性上表现优异。评估主要围绕两个核心任务展开：OCR文字生成与GenEval多对象生成。

OCR任务旨在评估模型在图像中生成准确、可识别文字的能力。流程直接：给定一个提示词（例如“一块写着‘diamond sale’的广告牌”），模型生成图像，随后由OCR系统识别图中文字。匹配度越高，得分越高。

实验发现，原始模型生成的文字常存在拼写错误、字体模糊、字符缺失或排版混乱等问题，导致OCR识别率低下。经过GDRO优化后，生成图像中的文字清晰度、规范性显著提升，OCR识别准确率随之大幅提高。

GenEval任务则更为综合，它评估模型对文本描述的深层语义理解，主要考察四个维度：物体数量、物体属性（如颜色）、物体间空间关系，以及图像整体与文本的匹配度。提示词通常包含多重约束，例如“一张黄色餐桌和一只粉色狗”、“一个位于球下方的笔记本电脑”。

结果显示，经GDRO训练后，模型生成图像中的对象数量更精确，空间关系更符合描述，属性匹配也更为稳定。

然而，深入分析结果揭示了一个关键问题：奖励作弊。模型为了最大化奖励分数，并未实质提升生成质量，而是钻营评分系统的漏洞。

在OCR任务中，部分强化学习方法（如Flow-GRPO）会采取极端策略：将目标文字极度放大并置于图像中央，同时极度简化背景。这种策略虽能轻易通过OCR识别获得高分，但代价是图像极不自然、背景细节丢失、场景结构被破坏。例如，本应生成一幅复杂的地图，结果却变成了一个孤立的巨大横幅。

GenEval任务中也观察到类似现象。某些方法生成的图像会变得异常简陋，仅保留最基本的目标轮廓，几乎没有任何细节。例如，对于提示词“一个绿色热狗”，生成的图像可能只是一个简单的绿色形状，背景一片空白。虽然对象类别正确，但图像质量严重退化。相比之下，经GDRO优化的模型，其生成的图像仍能保持完整的场景结构和丰富的细节，在满足评分要求的同时，有效遏制了这种作弊倾向。

为确保自动评分的可靠性，研究团队补充了人工评估。他们邀请了21位评估者，从文字准确性、图文语义匹配度、图像整体质量三个维度，对不同方法生成的图像进行盲测。

结果显示，在文字准确性上各方法差异不大，但在图像质量和语义匹配方面，GDRO生成的图像获得了明显更高的偏好。

训练效率的对比同样突出。传统在线强化学习方法训练扩散模型时，每一步都需进行“生成图片-计算奖励-更新模型”的循环，图像生成的高昂成本导致训练耗时费力。GDRO的离线训练方式，则通过预先准备数据并反复利用，大幅提升了效率。实验表明，在达到相近性能水平时，GDRO所需的训练时间显著更短，在某些任务上效率提升可达数倍。

从数据生成到模型训练

在实验设计上，研究团队选择FLUX.1-dev作为基础模型。这是一个预训练好的文生图扩散模型。他们基于此模型进行后训练优化，而非从头训练。这一策略能将计算资源集中于奖励优化方法本身的验证，避免消耗在基础模型训练上。

数据集方面对应两个任务：OCR任务使用了约2万条训练提示词和1千条测试提示词，这些提示词描述了包含特定文字的场景（如“一个写着 diamond sale 的珠宝店橱窗”）。GenEval任务则使用了约5万条训练提示词和2千条测试提示词，主要描述多对象及其属性、空间关系。

GDRO采用离线训练，因此第一步是数据生成。对于每个提示词，先用基础模型生成16张图像，然后为每张图像计算OCR或GenEval的奖励分数，并据此排序。这样，每个提示词都对应一个带评分排序的图像组，作为后续训练的“教材”。

在GDRO训练阶段，模型不再生成新图像，而是反复学习这些已有的图像组。训练时，从一个提示词对应的图像组中采样多张图片，加入噪声模拟扩散中间状态，输入模型预测噪声，最后根据预测结果和原始图像评分计算损失。通过这种方式，模型逐渐学会更倾向于生成高评分图像的特征。

研究还将GDRO与Flow-GRPO、Dance GRPO、DPO等多种方法进行了对比。这些方法代表了强化学习优化、改进以及偏好优化等不同技术路线。在相同条件下的对比，更能凸显GDRO在性能和稳定性上的优势。

此外，消融实验分析了关键参数的影响。例如，图像组的大小至关重要：当组大小仅为2时，训练过程极不稳定，模型容易崩溃；当组大小增加到4或6时，训练稳定性显著改善。这是因为组级奖励提供了更丰富的排序信息，能为模型提供更稳健的优化信号。

扩散模型训练的三个关键启示

这项研究的价值，超越了提出一个新方法本身。它至少提供了三点重要洞见：

首先，它证实了扩散模型同样可以进行有效的奖励对齐。正如大语言模型可通过RLHF对齐人类偏好，扩散模型也能通过针对性优化方法对齐特定任务目标，只是需要根据其结构特点设计新的技术路径，GDRO正是这一方向上的成功实践。

其次，离线训练能极大降低训练成本。对于扩散模型这种生成过程本身开销巨大的模型，避免在训练循环中反复采样生成，是提升效率的关键。这项研究为高效的后训练提供了可行的工程思路。

最后，它警示我们，对评价指标需保持审慎。高分并不总是等同于高质量。模型可能会“钻研”评价体系的漏洞，从而获得虚高的分数。因此，未来需要设计更鲁棒、更能反映真实生成质量的评估方法，这是推动生成模型健康发展的重要一环。

构建 GDRO 的人

这篇论文的第一作者是汪逸阳，目前是香港大学计算机视觉方向的博士研究生，师从赵恒爽教授。他于2024年获得北京大学计算机科学学士学位后，进入港大攻读博士，研究方向聚焦于视觉生成与多模态模型。他的工作主要关注三个层面：利用生成模型解决实际视觉创作需求、通过优化策略提升模型性能，以及对生成模型进行更客观合理的评估。

论文的通讯作者赵恒爽教授，现任香港大学计算与数据科学学院助理教授。他的研究涵盖计算机视觉、多模态AI、生成式人工智能及具身智能等多个前沿领域，致力于构建能感知、理解并与环境交互的智能视觉系统。赵教授毕业于华中科技大学，在香港中文大学获得博士学位，并曾在麻省理工学院CSAIL从事博士后研究。他在计算机视觉领域享有较高的学术影响力，曾获多项重要科研奖励，并在多个顶级会议中担任组织工作。

来源：互联网

上一篇 商汤大装置联手大晓机器人，共推广西具身智能产业升级 下一篇 高效能AI Token生产新生态：院士领衔的趋境科技权威测评

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

CVPR 2026前沿解读：港大团队新作破解扩散模型“作弊”难题，实现高保真生成

摘要

从数据生成到模型训练

扩散模型训练的三个关键启示

构建 GDRO 的人

相关文章推荐