字节跳动GRN AI图像生成新范式:像人类画家一样边画边改的突破性技术
摘要
当前主流的扩散模型通过“去噪”过程生成图像,从随机噪声开始,经过固定步骤迭代,最
当前主流的扩散模型通过“去噪”过程生成图像,从随机噪声开始,经过固定步骤迭代,最终输出清晰画面。这种方法在生成简单图标和复杂场景时,计算开销完全相同,缺乏对内容复杂度的自适应判断。
自回归模型则采用序列预测方式,将图像分割为小块依次生成。其核心缺陷在于错误累积:一旦早期预测出现偏差,后续生成便无法修正,导致整体图像失真。
字节跳动的研究团队针对这两种范式的效率与灵活性瓶颈,提出了生成式精化网络(Generative Refinement Networks, GRN)。该框架的设计灵感源于人类画家的创作流程:先勾勒整体轮廓,再逐步细化局部,并保留随时修改的能力。GRN旨在模拟这种“全局审视、迭代优化”的创作直觉,同时根据画面复杂度动态分配计算资源。
在ImageNet基准测试中,GRN在图像重建(rFID 0.56)和生成质量(gFID 1.81)上均刷新了记录。该框架已成功扩展至文生图(最高支持1024×1024分辨率)和文生视频(支持480p、2-10秒动态视频)任务,在同等参数规模下展现出领先性能。

一、AI画画的两条老路,各有各的烦恼
理解GRN的突破,需要先厘清现有主流方法的技术瓶颈。
扩散模型的核心是学习一个逆向的去噪过程。训练时,模型学习如何从清晰图像逐步添加噪声;生成时,则从纯噪声开始执行反向去噪。这一过程需要固定的迭代步数,无法根据生成内容的简单或复杂来调整计算量。更重要的是,其训练目标是最小化像素级误差,缺乏类似语言模型的概率输出,因此模型无法评估自身预测的置信度,难以实现计算资源的智能分配。
自回归模型将图像生成视为序列预测问题,按顺序预测图像token。其优势在于每一步都输出概率分布,为自适应计算提供了理论可能。但其根本缺陷在于生成过程的不可逆性:图像被压缩为离散编码时会损失细节,且一旦某个token被预测,便无法在后续步骤中被修改,错误会沿序列传播并累积。
后续改进方案如MaskGIT引入了掩码预测,允许并行生成多个token。但其核心逻辑未变:高置信度的预测结果一旦生成便被永久锁定,模型缺乏在全局层面对已生成内容进行审视和修正的机会。
二、把图像压缩做到“几乎无损”——层级二进制量化的原理
GRN框架的高质量运行,依赖于其底层编码技术——层级二进制量化(HBQ)的革新。
标准的做法是使用变分自编码器(VAE)将图像压缩为低维表示。这个表示可以是连续的(精度高但难以离散建模),也可以是离散的(易于预测但会引入量化误差)。
HBQ在两者之间找到了平衡。其原理类似于二分查找:对于一个连续值(例如0.73),通过多轮“偏大”或“偏小”的二元判断,可以快速逼近其精确值,并将每一轮的判断结果记录为一个二进制位。
将这一逻辑应用于VAE输出的每个连续特征值,HBQ通过多轮二元量化将其转换为一串二进制序列。量化轮数决定了精度:4轮量化可将误差上界控制在原始范围的6.25%以内;8轮量化后,误差已可忽略不计,几乎等同于连续表示。这种方法的优势在于,精度的提升不依赖于增加特征通道数,从而避免了因编码维度膨胀导致的模型参数激增和训练效率下降。
实测数据显示,采用4轮HBQ的编码器在ImageNet 256×256图像重建任务上取得了0.56的rFID分数,优于广泛使用的SD-VAE(0.87)。在视频任务中,8轮HBQ编码器在达到与最优连续编码器相近质量的同时,实现了4倍以上的压缩率提升。
三、像画家一样“边画边改”——GRN的核心生成机制
基于高质量的离散编码,GRN构建了一套独特的迭代生成机制。
GRN的生成始于一张完全随机的“噪声画布”。其核心流程是在多轮迭代中执行三个动作:观察当前画布状态(哪些部分已可靠,哪些仍是噪声);基于全局上下文,对所有位置同步做出新一轮完整预测;随机选择一部分新预测结果“落笔”更新画布,同时将未更新的位置重置为随机噪声,留待后续轮次处理。
这一机制将“填充空白”、“细化局部”和“擦除重画”三种操作统一起来。随着迭代进行,画布上可靠内容的比例从0%逐步提升至100%,最终形成完整图像。
与自回归模型的根本区别在于,GRN中没有任何预测是最终确定的。每一步,模型都在重新评估全局,早期不合理的预测可以在获得更多上下文信息后被后续步骤覆盖和修正。这模拟了画家用铅笔打草稿、随时调整构图的过程。
训练阶段,GRN通过一种特殊的“部分掩码”任务进行学习:输入图像被随机替换部分区域为噪声,模型需要基于这种混合状态预测完整图像。通过随机变化掩码比例,模型学会了在信息不完整的情况下进行稳健推理和生成。
研究中的一个关键发现是:在生成过程中,随机选择哪些预测被保留,其效果优于基于“模型置信度”的选择策略。如果总是保留置信度最高的预测,会导致输入分布偏离训练数据,严重损害生成质量(FID从3.63恶化至10.64)。
四、聪明地分配计算力——根据复杂度自动调整步数
GRN解决的另一个核心问题是计算资源的动态分配。
在每一步生成中,GRN会输出每个位置预测的概率分布,并据此计算一个整体的“熵”值。熵值低,表明模型对当前画面高度自信,内容相对简单;熵值高,则意味着画面复杂或存在不确定性,需要更多计算进行细化。
GRN利用熵值动态决定后续迭代步数。对于简单的图像(如蓝天),模型很快会达到低熵状态,GRN便提前终止生成,节省算力;对于复杂的场景(如城市夜景),高熵状态持续更久,GRN会自动分配更多步数进行精细打磨。
在实验中,团队将最大步数设为50,最小步数设为20。结果显示,超过62.7%的图像在未达到50步时便已收敛,约200张图像仅用了20步。与固定50步的生成方案相比,这种自适应策略仅带来微小的质量损失(FID从3.6略微增至3.8),却显著降低了对简单图像的计算开销。
该策略在文生图任务中同样有效:对于简单的文本提示,10步生成的结果已足够好;对于需要精细细节的复杂描述,则需要50步的充分迭代才能展现出最佳效果。
五、两种预测方式:预测“编号”还是预测“二进制位”
GRN框架支持两种不同的预测目标,对应着不同的技术权衡。
第一种是GRNind:它将每个位置的HBQ编码合并为一个整数编号进行预测(类似于从调色板中选择颜色编号)。第二种是GRNbit:它直接逐位预测每个二进制值(每次预测0或1)。
在图像分类条件生成这类相对简单的任务上,两种方式表现接近。但在文本生成视频这类复杂任务上,GRNbit(预测二进制位)产生了更少的视觉瑕疵。分析认为,预测编号时,数值相近的编号可能对应视觉差异巨大的内容,容易导致“编号混淆”而引起失真;而预测二进制位则含义明确,监督信号更直接。对于“独立预测每一位是否会忽略位间关联”的担忧,GRN的全局精化机制在多轮迭代中自然建模了这种依赖关系,因此未造成明显的质量损失。
此外,团队还对比了“预测绝对值”与“预测差值”(即预测哪些位需要翻转)两种策略。实验结果明确显示,预测绝对值的方式在生成结构的稳定性上显著更优。
六、实验结果:新纪录是怎么炼成的
在ImageNet 256×256类别条件图像生成的标准评测中,GRN以四种参数规模进行了全面对比。
规模最小的GRN-B(1.3亿参数)取得了3.56的FID分数,超越了参数量近两倍的MaskGIT(2.27亿参数,FID 6.18)。规模最大的GRN-G(20亿参数)取得了1.81的FID,超越了同等规模的扩散模型DiT-XL/2(2.27)、流匹配模型SiT-XL/2(2.06)以及同为20亿参数的VAR-d30(1.92)。
一个关键的对照实验直接验证了GRN“全局精化”机制的有效性。使用完全相同的模型权重,仅将生成机制从GRN的“可修正迭代”切换为MaskGIT的“掩码填充”(即已确定块不可修改),结果FID分数崩坏至185.62,生成图像近乎噪声。即使为掩码填充方式专门优化解码参数,其最佳FID也只能达到18.13,与GRN机制的3.63相去甚远。这直接证明了“允许事后修改”是GRN框架成功的关键。
在文生图任务上,GRN(20亿参数)在GenEval基准上取得0.76的综合分数,领先于同等规模的SD3 Medium(0.62)和Infinity(0.71)。在文生视频任务上,GRN(20亿参数)在VBench上取得82.99分,超越了参数量5倍的CogVideoX-5B(81.61)等模型。
七、这套框架的局限与未来
研究团队也指出了GRN当前的局限性。受限于算力,GRN尚未在如Sora、Wan 2.1等顶尖模型的超大规模上进行训练,其性能上限有待进一步探索。在视频生成中,GRN在人物场景表现良好,但在生成细节丰富的自然场景时,偶尔会出现细节不足或局部失真的情况,这可能与训练数据的分布有关,可通过优化数据配比和扩大规模来改善。
未来的研究方向中,团队特别提到了“步数蒸馏”技术。该技术能够将多步精化过程的知识压缩到更少的步数中。由于GRN的自适应步数机制天然兼容蒸馏,两者结合有望进一步降低推理成本。
此外,GRN作为一个完全基于离散token的自回归框架,与现有大语言模型的整合路径非常自然。将文本token与图像/视频token置于同一模型中进行统一训练,有望实现真正的多模态统一理解与生成。从这个角度看,GRN或将成为当前主流的“语言模型+扩散模型”混合架构的有力替代方案。
本质上,GRN试图让AI模仿人类画家的创作直觉——不是在噪声与清晰之间进行机械迭代,也不是按固定顺序落笔,而是像真正的创作者那样,在整体构图与局部细节之间反复推敲,随时纠偏,直至作品完善。这种思路能否在更大规模与更广泛的任务上持续有效,是未来值得关注的核心。
Q&A
Q1:GRN的“全局精化机制”和MaskGIT这类掩码生成模型有什么本质区别?
A:核心区别在于预测的“可修正性”。MaskGIT在每一轮中,高置信度的token一旦确定便永久固定,后续只填充空白,无法修改已有预测。GRN则每一步都会对所有位置重新预测,并随机选择部分位置更新,这意味着任何已有内容都可能被擦除重画。正是这种机制,使得模型能在获得更多上下文后纠正早期错误。实验对比鲜明:相同权重下,掩码生成方式的FID高达185.62,而GRN精化机制仅为3.63。
Q2:层级二进制量化(HBQ)相比传统离散编码方法有什么优势?
A:传统离散编码(如VQ-VAE)将连续特征映射到有限码本,压缩会损失细节。HBQ通过多轮“二分判断”逼近连续值,每增加一轮,误差上界便减半,实现指数级精度提升。关键在于,这种提升无需增加特征通道数,从而避免了其他高精度离散编码器常带来的模型膨胀与训练缓慢问题。4轮HBQ在图像重建上即可达到0.56的rFID,8轮则可与连续编码器性能持平。
Q3:GRN的自适应步数机制是怎么判断一张图需要多少步生成的?
A:GRN在每一步生成时,会计算当前预测结果的“熵值”——它综合反映了模型对画面各个位置的把握程度。熵值低表明模型自信、内容简单,可快速收敛;熵值高则表明内容复杂或不确定性大,需要更多步骤打磨。系统据此动态调整后续步数,在预设的最小步数(如20步)和最大步数(如50步)之间灵活分配。实验表明,超过62.7%的图像无需走完50步,有效节约了对简单内容的计算。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。