2026视觉生成新范式:字节跳动“边画边改”模型深度解析与性能对比
摘要
这个假期,AI视觉生成领域悄然迎来一次技术跃迁。 从社交媒体上的自拍、电影片段到街头
这个假期,AI视觉生成领域悄然迎来一次技术跃迁。
从社交媒体上的自拍、电影片段到街头采访与婚礼纪实,一系列以假乱真的视频内容开始流传。若非事先告知,观众几乎无法分辨这些高度逼真的画面完全由AI生成。
这些成果背后,是字节跳动商业化技术团队提出的生成精炼网络(Generative Refinement Networks, GRN)。这一全新视觉生成范式的独特之处在于,其底层架构并未沿用当前主流的扩散模型或自回归模型,而是试图为AI图像与视频合成开辟“第三条技术路径”。



我们可以将AI生成图像类比为在白纸上绘画。当前两种主流技术路径各有其显著瓶颈。
扩散模型如同一位严谨却刻板的画师。无论绘制内容简单或复杂,它都必须严格走完预设的、固定数量的去噪步骤。这种“一刀切”的流程虽能保证输出质量,却牺牲了生成效率,缺乏对画面内容复杂度的自适应判断能力。
自回归模型则像一位灵感充沛但粗心的艺术家。它能感知画面不同区域的复杂度差异,并分配不同的“笔墨”。但其核心缺陷有二:首先,为处理连续像素信息,它需将图像离散化为token序列,此过程必然损失高频细节,导致画面模糊;其次,其生成过程是单向、不可逆的,早期步骤一旦产生错误token,后续生成只能在此基础上累积误差,最终结果可能严重偏离文本提示。
GRN的核心思想,是让AI模拟人类画师的创作逻辑:允许试错,并支持迭代修正。它从一个随机、粗糙的初始草图开始,在每一轮“精炼”迭代中,模型会全局审视画面,识别哪些区域已趋于稳定,哪些仍需修改或细化。已确定的区域予以保留,不确定的区域则根据全局上下文进行重绘优化。通过这种“边看边改”的迭代,画面得以从模糊到清晰、从粗糙到精细地演进,真正实现了“按需分配计算资源”的智能生成。


从风格化头像到复杂场景,GRN在文生图、图生视频等多类视觉生成任务中均展现出强大潜力。


架构性能实测
理论需经实践检验。目前,GRN的文生图模型已在HuggingFace平台开放体验,支持调整提示词相关性、创意度等关键参数。

输入提示词:“一张80年代生日派对上拍摄的全家福。一个小男孩吹灭奶油蛋糕上的蜡烛,家人围绕在他身边鼓掌。”生成的图像精准捕捉了复古CCD相机的质感,人物神态与场景氛围渲染到位。
一张80年代生日派对上拍摄的全家福。一个小男孩吹灭奶油蛋糕上的蜡烛,家人围绕在他身边鼓掌。

挑战更高阶的漫画风格生成:“两名男子身着深色西装、系红色领带、头戴黑色礼帽。二人均佩戴墨镜,手持左轮手枪,枪口直指观者。两人神情冷峻,着装与气场透着威严感与威慑感…”生成结果同样出色,角色造型鲜明,构图富有戏剧张力,色彩对比强烈。
Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men ha ve stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace…
两名男子身着深色西装、系红色领带、头戴黑色礼帽。二人均佩戴墨镜,手持左轮手枪,枪口直指观者。两人神情冷峻,着装与气场透着威严感与威慑感…

在文生视频方面,团队开源了2B参数模型并提供了Discord演示。测试单人简单场景:“一名身穿橙色上衣、戴着眼镜的男子站在红砖墙前,手持并展示一个深灰色的圆柱形物体。”生成视频中的人物皮肤纹理、面部细节与动作流畅度均超越了人们对一个2B参数模型的常规预期。
A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object.
一名身穿橙色上衣、戴着眼镜的男子站在红砖墙前,手持并展示一个深灰色的圆柱形物体。

即便是多人舞蹈、镜头快速推进的复杂场景:“一场直播画面中,一支韩国流行偶像团体在绚丽的舞台灯光下登台表演,舞步灵动富有张力,演唱着一首偏爱夜间相约主题的歌曲。”画面也未出现明显畸变或闪烁,人物动作与镜头调度相当流畅。
A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast.
一场直播画面中,一支韩国流行偶像团体在绚丽的舞台灯光下登台表演,舞步灵动富有张力,演唱着一首偏爱夜间相约主题的歌曲。


这些表现引出一个核心问题:在扩散模型与自回归模型已相当成熟的当下,为何仍需探索新路径?
AI视觉生成的第三条路
这源于对现有技术路线根本局限的深刻洞察。扩散模型质量稳定但“不够智能”,缺乏对样本复杂度的自适应能力。自回归模型虽具备复杂度感知,却受困于离散化带来的信息损失以及误差累积无法修正的缺陷。
GRN的设计目标正是对二者扬长避短。其架构核心包含三大创新组件:
1. 层次二叉树量化(HBQ)
首先攻克信息损失难题。传统自回归模型需将连续图像特征离散为token,此过程如同将高清图片压缩为像素块,必然丢失细节。HBQ采用了一种近乎无损的离散编码方案。它将特征映射到[-1, +1]区间后,通过二叉树结构进行多轮二进制量化。每一轮量化都将重建误差分配至更精细的区间,理论上,随着量化轮次增加,误差可指数级衰减至趋近于零。该方法实现了图像与视频特征的高保真、统一编码,为后续生成奠定了高质量数据基础。

2. 全局精炼网络(GRN)
这是解决误差累积问题的关键。GRN的生成始于一幅由随机token构成的“草图”。在每轮迭代中,模型会审视由已确定的“[F] token”和待填充的随机“[R] token”组成的全局画面状态。随后,Transformer根据全局上下文预测一幅更优的新token图。对于已画好的部分,模型倾向于保留;对于空白或不确定区域,则进行推断与绘制。这一过程模拟了人类“边看边改”的创作方式,从根本上杜绝了错误传递与累积。


3. 复杂度感知采样
为使模型能智能分配计算资源,GRN引入熵来衡量每一步画面的不确定性(复杂度)。熵值低意味着画面已趋稳定、简单,可分配较少精炼步数;熵值高则意味着画面复杂、细节丰富,需更多步数进行细化。实验表明,应用此策略后,一个130M参数的小模型,其总推理步数可从固定的50步动态调整至20到40步(平均24步),而生成质量仅轻微下降。真正实现了“按需分配计算”。
这套组合拳的效果,直接体现在多项基准测试的成绩单上。
在图像重建任务中,HBQ在ImageNet 256×256数据集上取得了0.56的rFID分数,显著优于其他主流编码器。在视频重建中,HBQ在更高压缩率下,达到了与连续编码器相当的重建质量。

在类别引导图像生成任务中,2B参数的GRN-G模型取得了FID 1.81和IS 299.0的优异成绩,超越了包括DiT、SiT、VAR在内的多个主流模型。值得注意的是,仅130M参数的GRN-B模型,其性能也超过了参数量为其两倍的MaskGIT模型,印证了GRN架构的效率优势。

在文生图任务中,2B参数的GRN模型在GenEval基准上得分0.76,优于同规模的SD3 Medium等模型。研究人员指出,GRN基于离散token的建模方式具备良好的扩展性,更大规模模型的表现值得期待。

在文生视频任务中,2B参数的GRN模型可生成480p、2-10秒的高保真视频,在VBench评测中,其性能超越了参数量更大的CogVideoX、Wan 2.1等模型,以及所有同规模的自回归和扩散模型。

综合来看,GRN在同等参数规模下,实现了一种比扩散模型更高效、比自回归模型更可靠的生成范式。它在两者之间架设了一座桥梁,同时解决了量化损失、误差累积和缺乏复杂度感知这三个长期痛点。
这项工作的启示可能超越视觉生成领域。当前的自回归大语言模型同样存在“前向不可逆”的问题,一旦早期生成的token出现偏差,后续内容只能将错就错。若借鉴GRN的“全局精炼”思想,让语言模型在生成过程中也拥有回顾与修正早期内容的机会,或许能为文本生成技术开辟新思路。
此外,GRN的成功证明了纯离散token路径完全能够胜任高质量的图像与视频生成。从长远看,这种统一图像、视频、文本的离散表示方法,有望显著增强模型的多模态理解与生成能力,为通向更通用的人工智能增添一块关键拼图。
论文链接:https://arxiv.org/abs/2604.13030
代码链接:https://github.com/MGenAI/GRN
项目主页:https://mgenai.github.io/GRN/
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。