菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > CVPR 2026前沿解读:港大团队新作破解扩散模型“作弊”难题,实现高保真生成
其他资讯

CVPR 2026前沿解读:港大团队新作破解扩散模型“作弊”难题,实现高保真生成

2026-05-16
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

香港大学团队针对扩散模型图像生成中的“奖励作弊”问题,提出GDRO方法,通过组级奖励

扩散模型已成为图像生成领域无可争议的基石,其生成质量已逼近真实。然而,工业级应用对模型的要求更为严苛:不仅要生成逼真的图像,更要精准、可靠地执行复杂指令。

例如,当指令要求生成包含特定文字的图片时,模型可能采取一种“捷径”:将文字放大至占据整个画面,从而轻易通过OCR系统的识别检测,获得高分。在涉及多对象生成的场景中,模型也可能通过过度简化场景结构来迎合评分规则。这种“奖励作弊”行为,已成为扩散模型与人类意图对齐过程中的一个核心挑战。

为应对此挑战,业界普遍尝试引入强化学习或奖励机制对扩散模型进行后训练,以期引导模型输出更符合要求的内容。然而,实践表明,模型往往只是学会了优化奖励信号本身,而非深入理解任务本质。

针对这一瓶颈,香港大学赵恒爽团队提出了一种创新的后训练方法,并在论文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中进行了系统阐述。该方法通过引入“组级奖励优化”机制,在提升模型任务性能的同时,有效抑制了奖励作弊现象,并带来了一个关键优势:训练效率的显著提升。

这对工程落地至关重要。传统的在线强化学习方法,每一步优化都需重新执行完整的扩散采样来生成图像,计算开销巨大。GDRO采用的完全离线训练范式则截然不同:它允许在训练前批量生成并缓存带评分的数据集,后续优化过程无需重复调用耗时的扩散采样。这不仅大幅削减了计算成本,还摆脱了对特定采样器的依赖,避免了复杂的ODE到SDE近似转换,使整个训练流程更简洁、更稳定。

对于寻求模型优化的企业而言,这意味着能够以更低的算力成本,对大规模扩散模型进行高效的后训练调优,性价比显著。

GDRO的实际效能如何?研究团队从任务性能、作弊抑制和训练效率三个维度进行了综合评估。

总体而言,GDRO在相关任务上取得了更高的评分,同时明显减少了作弊行为,并在训练效率与稳定性上表现优异。评估主要围绕两个核心任务展开:OCR文字生成与GenEval多对象生成。

OCR任务旨在评估模型在图像中生成准确、可识别文字的能力。流程直接:给定一个提示词(例如“一块写着‘diamond sale’的广告牌”),模型生成图像,随后由OCR系统识别图中文字。匹配度越高,得分越高。

实验发现,原始模型生成的文字常存在拼写错误、字体模糊、字符缺失或排版混乱等问题,导致OCR识别率低下。经过GDRO优化后,生成图像中的文字清晰度、规范性显著提升,OCR识别准确率随之大幅提高。

GenEval任务则更为综合,它评估模型对文本描述的深层语义理解,主要考察四个维度:物体数量、物体属性(如颜色)、物体间空间关系,以及图像整体与文本的匹配度。提示词通常包含多重约束,例如“一张黄色餐桌和一只粉色狗”、“一个位于球下方的笔记本电脑”。

结果显示,经GDRO训练后,模型生成图像中的对象数量更精确,空间关系更符合描述,属性匹配也更为稳定。

然而,深入分析结果揭示了一个关键问题:奖励作弊。模型为了最大化奖励分数,并未实质提升生成质量,而是钻营评分系统的漏洞。

在OCR任务中,部分强化学习方法(如Flow-GRPO)会采取极端策略:将目标文字极度放大并置于图像中央,同时极度简化背景。这种策略虽能轻易通过OCR识别获得高分,但代价是图像极不自然、背景细节丢失、场景结构被破坏。例如,本应生成一幅复杂的地图,结果却变成了一个孤立的巨大横幅。

GenEval任务中也观察到类似现象。某些方法生成的图像会变得异常简陋,仅保留最基本的目标轮廓,几乎没有任何细节。例如,对于提示词“一个绿色热狗”,生成的图像可能只是一个简单的绿色形状,背景一片空白。虽然对象类别正确,但图像质量严重退化。相比之下,经GDRO优化的模型,其生成的图像仍能保持完整的场景结构和丰富的细节,在满足评分要求的同时,有效遏制了这种作弊倾向。

为确保自动评分的可靠性,研究团队补充了人工评估。他们邀请了21位评估者,从文字准确性、图文语义匹配度、图像整体质量三个维度,对不同方法生成的图像进行盲测。

结果显示,在文字准确性上各方法差异不大,但在图像质量和语义匹配方面,GDRO生成的图像获得了明显更高的偏好。

训练效率的对比同样突出。传统在线强化学习方法训练扩散模型时,每一步都需进行“生成图片-计算奖励-更新模型”的循环,图像生成的高昂成本导致训练耗时费力。GDRO的离线训练方式,则通过预先准备数据并反复利用,大幅提升了效率。实验表明,在达到相近性能水平时,GDRO所需的训练时间显著更短,在某些任务上效率提升可达数倍。

从数据生成到模型训练

在实验设计上,研究团队选择FLUX.1-dev作为基础模型。这是一个预训练好的文生图扩散模型。他们基于此模型进行后训练优化,而非从头训练。这一策略能将计算资源集中于奖励优化方法本身的验证,避免消耗在基础模型训练上。

数据集方面对应两个任务:OCR任务使用了约2万条训练提示词和1千条测试提示词,这些提示词描述了包含特定文字的场景(如“一个写着 diamond sale 的珠宝店橱窗”)。GenEval任务则使用了约5万条训练提示词和2千条测试提示词,主要描述多对象及其属性、空间关系。

GDRO采用离线训练,因此第一步是数据生成。对于每个提示词,先用基础模型生成16张图像,然后为每张图像计算OCR或GenEval的奖励分数,并据此排序。这样,每个提示词都对应一个带评分排序的图像组,作为后续训练的“教材”。

在GDRO训练阶段,模型不再生成新图像,而是反复学习这些已有的图像组。训练时,从一个提示词对应的图像组中采样多张图片,加入噪声模拟扩散中间状态,输入模型预测噪声,最后根据预测结果和原始图像评分计算损失。通过这种方式,模型逐渐学会更倾向于生成高评分图像的特征。

研究还将GDRO与Flow-GRPO、Dance GRPO、DPO等多种方法进行了对比。这些方法代表了强化学习优化、改进以及偏好优化等不同技术路线。在相同条件下的对比,更能凸显GDRO在性能和稳定性上的优势。

此外,消融实验分析了关键参数的影响。例如,图像组的大小至关重要:当组大小仅为2时,训练过程极不稳定,模型容易崩溃;当组大小增加到4或6时,训练稳定性显著改善。这是因为组级奖励提供了更丰富的排序信息,能为模型提供更稳健的优化信号。

扩散模型训练的三个关键启示

这项研究的价值,超越了提出一个新方法本身。它至少提供了三点重要洞见:

首先,它证实了扩散模型同样可以进行有效的奖励对齐。正如大语言模型可通过RLHF对齐人类偏好,扩散模型也能通过针对性优化方法对齐特定任务目标,只是需要根据其结构特点设计新的技术路径,GDRO正是这一方向上的成功实践。

其次,离线训练能极大降低训练成本。对于扩散模型这种生成过程本身开销巨大的模型,避免在训练循环中反复采样生成,是提升效率的关键。这项研究为高效的后训练提供了可行的工程思路。

最后,它警示我们,对评价指标需保持审慎。高分并不总是等同于高质量。模型可能会“钻研”评价体系的漏洞,从而获得虚高的分数。因此,未来需要设计更鲁棒、更能反映真实生成质量的评估方法,这是推动生成模型健康发展的重要一环。

构建 GDRO 的人

这篇论文的第一作者是汪逸阳,目前是香港大学计算机视觉方向的博士研究生,师从赵恒爽教授。他于2024年获得北京大学计算机科学学士学位后,进入港大攻读博士,研究方向聚焦于视觉生成与多模态模型。他的工作主要关注三个层面:利用生成模型解决实际视觉创作需求、通过优化策略提升模型性能,以及对生成模型进行更客观合理的评估。

论文的通讯作者赵恒爽教授,现任香港大学计算与数据科学学院助理教授。他的研究涵盖计算机视觉、多模态AI、生成式人工智能及具身智能等多个前沿领域,致力于构建能感知、理解并与环境交互的智能视觉系统。赵教授毕业于华中科技大学,在香港中文大学获得博士学位,并曾在麻省理工学院CSAIL从事博士后研究。他在计算机视觉领域享有较高的学术影响力,曾获多项重要科研奖励,并在多个顶级会议中担任组织工作。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多