其他资讯

CVPR 2026精选：西交大A*STAR多图生成一致性突破权威解析

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

研究团队针对AI图像生成中跨图一致性难题，提出新方法：将一致性问题重构为跨图比较学

让AI绘制一个角色，第一张效果惊艳，第二张却开始走样，第三张可能直接“换了张脸”。让它生成一套系列海报，单看每一张都质量不俗，但放在一起却风格各异，缺乏统一的视觉语言。在绘制故事分镜时，人物形象更是飘忽不定，可能仅仅修改了服装颜色，角色的脸型、神态也随之改变。

这些看似细微的偏差，在实际的工业级应用中却是致命的。无论是IP形象设计、品牌视觉系统构建，还是规模化内容生产、工业与医疗影像分析，核心诉求从来不是单张图像的惊艳，而是整个序列或系列在视觉要素上的高度一致与稳定。

问题的根源在于，当前主流的图像生成模型，其能力范式仍固于“单次生成优化”。模型擅长将单张图片画好，却无法理解并锁定那些必须在多张图像间保持稳定的核心要素。换言之，模型缺乏的不是“画功”，而是一种对跨图像关系的“稳定建模”能力。这正是生成式AI迈向规模化、工业化应用必须突破的关键瓶颈。

针对这一核心挑战，西安交通大学与新加坡A*STAR的研究团队提出了一种创新性的解决思路。他们摒弃了传统的单图评分或图文对齐方法，将一致性问题重新定义为“跨图像比较”的学习任务。其核心论文《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling》提出，通过构建一个基于成对比较的奖励模型，让AI学习人类在进行一致性判断时所依赖的相对关系和多维标准。随后，结合强化学习技术，将这种精准的判断能力反向赋能给图像生成过程，从而形成一个从“会判断”到“会生成”的完整能力闭环。

从「不会判断」到「稳定生成」

整个研究的实验数据，构成了一条逻辑严密、证据扎实的技术验证链。

首先，团队通过基准测试对比发现，现有模型普遍缺乏真正的跨图像一致性理解能力。在ConsistencyRank基准上，大模型Qwen2.5-VL-7B的准确率仅为0.344，甚至落后于传统方法CLIP-I（0.394）和DreamSim（0.403）。这表明，通用大模型虽具备强大的图文理解能力，但在需要跨图比较、综合身份、风格、逻辑等多维因素的一致性判断专项任务上，存在明显短板。一致性，是一种无法通过通用能力直接迁移获得的专门技能。

基于此发现，研究团队训练了专门的PaCo-Reward模型。测试结果显示，该模型在ConsistencyRank上的准确率提升至0.449，相比原模型提升超过10个百分点，其Spearman相关系数也达到0.288，显著优于所有对比基线。这证明，该模型在排序能力上更贴近人类的判断逻辑。

在进一步的EditReward-Bench测试中，PaCo-Reward在一致性指标上达到0.709，整体指标达0.751，不仅超越了所有开源方法，甚至接近GPT-5的表现。这验证了模型具备良好的跨任务泛化能力，而非对训练数据的简单记忆。

随后，研究人员将这一奖励模型引入强化学习训练框架，在生成任务中验证其实际效能。在Text-to-ImageSet任务中，模型的一致性指标整体提升了约10.3%到11.7%，在身份、风格、逻辑等多个细分维度均有明显改善。在GEdit-Bench图像编辑任务中，语义一致性和提示跟随质量指标也持续提升。例如，在Qwen-Image-Edit模型上，整体分数从7.307提升至7.451，且在多语言设置下也表现出一致的改进趋势。这说明，模型在提升一致性的同时，并未牺牲单图的生成质量。

在效率与训练稳定性方面，研究也取得了关键突破。采用低分辨率训练策略时，以512分辨率训练约6小时即可达到1024分辨率训练约12小时的效果，显著降低了计算成本。同时，针对传统多奖励加权方法容易导致单一奖励主导优化进程的问题，改进后的方法能将奖励比例稳定控制在1.8以内，确保了多目标优化过程的平衡与稳定。

综合来看，这项研究不仅成功训练出能精准建模人类一致性判断的奖励模型，更将其有效应用于生成模型的优化，在保证训练效率与稳定性的前提下实现了性能的显著提升，形成了一个完整且可行的技术闭环。

从可解释判断，到可控生成

整个技术路径清晰地分为两个阶段：先攻克“如何精准判断”，再实现“如何稳定生成”。

第一阶段的核心挑战在于数据构建。一致性判断主观性强，涉及身份、风格、逻辑等多个抽象维度，难以用统一、绝对的规则进行标注。为此，团队设计了一套结合自动生成与人工标注的数据构建流程。

具体而言，他们先利用生成模型构建了约2000条文本提示词，并筛选出708条具有代表性的作为数据源。基于这些提示词，生成包含内部一致性的图像网格。关键的一步在于“拆分与组合”：将每个图像网格划分为多个子图，并在不同网格间进行交叉组合，从而构造出大量具有不同一致性关系的图像对。这一方法从708个提示词和2832张基础图像出发，最终构造出33984个排序样本，极大地扩充了数据规模与多样性。

随后，由6名标注人员依据视觉直觉（而非刻板规则）对样本进行排序标注。为便于模型训练，这些排序数据被进一步转换为成对比较的形式，即拆解为多个“图像A与图像B是否一致”的二分类判断样本，最终得到超过54624个图像对，每个样本都配有推理解释文本，增强了数据的可解释性。

在模型设计上，研究团队没有采用传统的“输入图像输出标量分数”的回归方式，而是将一致性判断建模为一个生成任务。在PaCo-Reward模型中，输入两张图像和对应文本，模型需要生成“Yes”或“No”的判断，并附上一段推理过程。这种设计巧妙地将判断问题转化为语言生成问题，既能直接利用视觉语言模型强大的生成能力，也提升了模型的可解释性与决策稳定性——模型不仅要学习判断结果，还要学习背后的推理逻辑链。

第二阶段聚焦于“如何生成”。研究引入了强化学习框架：生成模型根据输入提示生成图像集，由奖励模型进行评分，再根据评分信号反向更新生成模型的参数，这类似于人类通过反馈不断学习优化的过程。

这里有两个关键工程优化：一是分辨率解耦策略，即在训练时使用低分辨率图像进行采样优化，推理时再生成高分辨率图像，大幅降低了计算开销。二是奖励平衡策略，通过对波动较大的奖励信号进行压缩处理，解决了多目标优化中因奖励尺度差异导致的训练偏移问题，确保了优化过程的稳定性。

最终，在多图生成和图像编辑任务上的验证表明，该方法在身份、风格、逻辑一致性上均有显著提升，并能很好地平衡局部修改与整体保持的关系。

从单点生成到关系建模的范式变化

这项研究的价值，远不止于技术指标的提升，它正在悄然改变用户与AI协作的体验范式。

首先，它直击了多图一致性这一长期痛点。过去，AI或许能生成一张惊艳的“孤品”，但无法胜任需要连续、稳定输出的创作任务，如角色设计、系列海报或故事分镜。这项研究让AI真正具备了“连续创作”的能力，从“能用”走向了“可用”和“可靠”。

其次，它引入了一种更接近人类认知的学习方式——通过比较来学习，而非直接打分。这意味着模型变得更“懂”人类的审美和主观判断，能更自然地理解“像不像”、“一致不一致”这类相对概念，从而生成更符合人类预期的结果。

再者，它推动了强化学习在图像生成领域的实用化落地。通过低分辨率训练和奖励平衡等机制，在提升效果的同时显著降低了计算成本和训练难度。这为相关能力更快地集成到实际产品中铺平了道路，未来用户有望在工具中直接体验到更稳定、一致的生成效果。

更深层次地看，这项研究构建了一种“生成-评价-优化”的智能闭环机制。未来的AI不再只是一个被动的生成工具，它能在生成过程中进行“自我检查”和持续优化。对用户而言，这意味着无需反复手动调整提示词，AI便能自动修正偏差，逐步逼近创作意图，大大降低了专业使用的门槛。

构建PaCo-RL的人

这篇论文的共同第一作者是平博文和贾成铕。贾成铕目前是西安交通大学计算机科学专业的博士研究生（博士阶段后期），师从罗敏楠教授，并与常晓军教授合作研究，未来将加入腾讯混元的青云计划。他曾在新加坡进行访问研究，并在上海人工智能实验室担任研究实习生。其研究方向聚焦于计算机视觉与多模态领域，特别是在视觉生成的一致性、可控性与智能体相关问题方面，已在CVPR、AAAI、ACL等顶级会议和期刊发表多篇论文。

论文的通讯作者钱航薇，目前在新加坡A*STAR前沿人工智能研究中心从事研究工作。她的研究方向涵盖多模态大语言模型、面向科学研究的AI、生成式AI与智能体系统，以及可信与可解释人工智能等，并在AAAI、IJCAI、KDD等国际会议和期刊上发表了多项研究成果。

来源：互联网

上一篇 高效能AI Token生产新生态：院士领衔的趋境科技权威测评 下一篇 CVPR 2026精选：西湖大学王东林团队解析机器人时空认知新突破

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

CVPR 2026精选：西交大A*STAR多图生成一致性突破权威解析

摘要

从「不会判断」到「稳定生成」

从可解释判断，到可控生成

从单点生成到关系建模的范式变化

构建PaCo-RL的人

相关文章推荐