菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > CVPR 2026精选:西交大A*STAR多图生成一致性突破权威解析
其他资讯

CVPR 2026精选:西交大A*STAR多图生成一致性突破权威解析

2026-05-16
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

研究团队针对AI图像生成中跨图一致性难题,提出新方法:将一致性问题重构为跨图比较学

让AI绘制一个角色,第一张效果惊艳,第二张却开始走样,第三张可能直接“换了张脸”。让它生成一套系列海报,单看每一张都质量不俗,但放在一起却风格各异,缺乏统一的视觉语言。在绘制故事分镜时,人物形象更是飘忽不定,可能仅仅修改了服装颜色,角色的脸型、神态也随之改变。

这些看似细微的偏差,在实际的工业级应用中却是致命的。无论是IP形象设计、品牌视觉系统构建,还是规模化内容生产、工业与医疗影像分析,核心诉求从来不是单张图像的惊艳,而是整个序列或系列在视觉要素上的高度一致与稳定。

问题的根源在于,当前主流的图像生成模型,其能力范式仍固于“单次生成优化”。模型擅长将单张图片画好,却无法理解并锁定那些必须在多张图像间保持稳定的核心要素。换言之,模型缺乏的不是“画功”,而是一种对跨图像关系的“稳定建模”能力。这正是生成式AI迈向规模化、工业化应用必须突破的关键瓶颈。

针对这一核心挑战,西安交通大学与新加坡A*STAR的研究团队提出了一种创新性的解决思路。他们摒弃了传统的单图评分或图文对齐方法,将一致性问题重新定义为“跨图像比较”的学习任务。其核心论文《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling》提出,通过构建一个基于成对比较的奖励模型,让AI学习人类在进行一致性判断时所依赖的相对关系和多维标准。随后,结合强化学习技术,将这种精准的判断能力反向赋能给图像生成过程,从而形成一个从“会判断”到“会生成”的完整能力闭环。

从「不会判断」到「稳定生成」

整个研究的实验数据,构成了一条逻辑严密、证据扎实的技术验证链。

首先,团队通过基准测试对比发现,现有模型普遍缺乏真正的跨图像一致性理解能力。在ConsistencyRank基准上,大模型Qwen2.5-VL-7B的准确率仅为0.344,甚至落后于传统方法CLIP-I(0.394)和DreamSim(0.403)。这表明,通用大模型虽具备强大的图文理解能力,但在需要跨图比较、综合身份、风格、逻辑等多维因素的一致性判断专项任务上,存在明显短板。一致性,是一种无法通过通用能力直接迁移获得的专门技能。

基于此发现,研究团队训练了专门的PaCo-Reward模型。测试结果显示,该模型在ConsistencyRank上的准确率提升至0.449,相比原模型提升超过10个百分点,其Spearman相关系数也达到0.288,显著优于所有对比基线。这证明,该模型在排序能力上更贴近人类的判断逻辑。

在进一步的EditReward-Bench测试中,PaCo-Reward在一致性指标上达到0.709,整体指标达0.751,不仅超越了所有开源方法,甚至接近GPT-5的表现。这验证了模型具备良好的跨任务泛化能力,而非对训练数据的简单记忆。

随后,研究人员将这一奖励模型引入强化学习训练框架,在生成任务中验证其实际效能。在Text-to-ImageSet任务中,模型的一致性指标整体提升了约10.3%到11.7%,在身份、风格、逻辑等多个细分维度均有明显改善。在GEdit-Bench图像编辑任务中,语义一致性和提示跟随质量指标也持续提升。例如,在Qwen-Image-Edit模型上,整体分数从7.307提升至7.451,且在多语言设置下也表现出一致的改进趋势。这说明,模型在提升一致性的同时,并未牺牲单图的生成质量。

在效率与训练稳定性方面,研究也取得了关键突破。采用低分辨率训练策略时,以512分辨率训练约6小时即可达到1024分辨率训练约12小时的效果,显著降低了计算成本。同时,针对传统多奖励加权方法容易导致单一奖励主导优化进程的问题,改进后的方法能将奖励比例稳定控制在1.8以内,确保了多目标优化过程的平衡与稳定。

综合来看,这项研究不仅成功训练出能精准建模人类一致性判断的奖励模型,更将其有效应用于生成模型的优化,在保证训练效率与稳定性的前提下实现了性能的显著提升,形成了一个完整且可行的技术闭环。

从可解释判断,到可控生成

整个技术路径清晰地分为两个阶段:先攻克“如何精准判断”,再实现“如何稳定生成”。

第一阶段的核心挑战在于数据构建。一致性判断主观性强,涉及身份、风格、逻辑等多个抽象维度,难以用统一、绝对的规则进行标注。为此,团队设计了一套结合自动生成与人工标注的数据构建流程。

具体而言,他们先利用生成模型构建了约2000条文本提示词,并筛选出708条具有代表性的作为数据源。基于这些提示词,生成包含内部一致性的图像网格。关键的一步在于“拆分与组合”:将每个图像网格划分为多个子图,并在不同网格间进行交叉组合,从而构造出大量具有不同一致性关系的图像对。这一方法从708个提示词和2832张基础图像出发,最终构造出33984个排序样本,极大地扩充了数据规模与多样性。

随后,由6名标注人员依据视觉直觉(而非刻板规则)对样本进行排序标注。为便于模型训练,这些排序数据被进一步转换为成对比较的形式,即拆解为多个“图像A与图像B是否一致”的二分类判断样本,最终得到超过54624个图像对,每个样本都配有推理解释文本,增强了数据的可解释性。

在模型设计上,研究团队没有采用传统的“输入图像输出标量分数”的回归方式,而是将一致性判断建模为一个生成任务。在PaCo-Reward模型中,输入两张图像和对应文本,模型需要生成“Yes”或“No”的判断,并附上一段推理过程。这种设计巧妙地将判断问题转化为语言生成问题,既能直接利用视觉语言模型强大的生成能力,也提升了模型的可解释性与决策稳定性——模型不仅要学习判断结果,还要学习背后的推理逻辑链。

第二阶段聚焦于“如何生成”。研究引入了强化学习框架:生成模型根据输入提示生成图像集,由奖励模型进行评分,再根据评分信号反向更新生成模型的参数,这类似于人类通过反馈不断学习优化的过程。

这里有两个关键工程优化:一是分辨率解耦策略,即在训练时使用低分辨率图像进行采样优化,推理时再生成高分辨率图像,大幅降低了计算开销。二是奖励平衡策略,通过对波动较大的奖励信号进行压缩处理,解决了多目标优化中因奖励尺度差异导致的训练偏移问题,确保了优化过程的稳定性。

最终,在多图生成和图像编辑任务上的验证表明,该方法在身份、风格、逻辑一致性上均有显著提升,并能很好地平衡局部修改与整体保持的关系。

从单点生成到关系建模的范式变化

这项研究的价值,远不止于技术指标的提升,它正在悄然改变用户与AI协作的体验范式。

首先,它直击了多图一致性这一长期痛点。过去,AI或许能生成一张惊艳的“孤品”,但无法胜任需要连续、稳定输出的创作任务,如角色设计、系列海报或故事分镜。这项研究让AI真正具备了“连续创作”的能力,从“能用”走向了“可用”和“可靠”。

其次,它引入了一种更接近人类认知的学习方式——通过比较来学习,而非直接打分。这意味着模型变得更“懂”人类的审美和主观判断,能更自然地理解“像不像”、“一致不一致”这类相对概念,从而生成更符合人类预期的结果。

再者,它推动了强化学习在图像生成领域的实用化落地。通过低分辨率训练和奖励平衡等机制,在提升效果的同时显著降低了计算成本和训练难度。这为相关能力更快地集成到实际产品中铺平了道路,未来用户有望在工具中直接体验到更稳定、一致的生成效果。

更深层次地看,这项研究构建了一种“生成-评价-优化”的智能闭环机制。未来的AI不再只是一个被动的生成工具,它能在生成过程中进行“自我检查”和持续优化。对用户而言,这意味着无需反复手动调整提示词,AI便能自动修正偏差,逐步逼近创作意图,大大降低了专业使用的门槛。

构建PaCo-RL的人

这篇论文的共同第一作者是平博文和贾成铕。贾成铕目前是西安交通大学计算机科学专业的博士研究生(博士阶段后期),师从罗敏楠教授,并与常晓军教授合作研究,未来将加入腾讯混元的青云计划。他曾在新加坡进行访问研究,并在上海人工智能实验室担任研究实习生。其研究方向聚焦于计算机视觉与多模态领域,特别是在视觉生成的一致性、可控性与智能体相关问题方面,已在CVPR、AAAI、ACL等顶级会议和期刊发表多篇论文。

论文的通讯作者钱航薇,目前在新加坡A*STAR前沿人工智能研究中心从事研究工作。她的研究方向涵盖多模态大语言模型、面向科学研究的AI、生成式AI与智能体系统,以及可信与可解释人工智能等,并在AAAI、IJCAI、KDD等国际会议和期刊上发表了多项研究成果。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多