其他资讯 AI绘画 AI绘画质量再突破

希伯来大学频率分配技术，AI绘画质量再突破

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

以色列希伯来大学研究团队提出彩色噪声采样方法，针对扩散模型生成图像时均匀注入噪声

以色列希伯来大学研究团队完成的这一成果，以预印本形式于2026年5月28日发布，论文编号为arXiv:2605.30332，感兴趣的读者可通过该编号查阅完整论文。

扩散模型已成为AI图像生成领域的主导技术。无论社交媒体上的AI绘画作品，还是科技公司推出的图像生成工具，背后普遍依赖这类方法。尽管这些模型能产出令人惊叹的图像，研究者仍在追问：内部工作流程是否足够高效？是否存在被浪费的“创作精力”？

希伯来大学团队给出一个出乎意料却又合理的答案：存在明显浪费。他们发现现有扩散模型在生成图像时，有一个长期被忽视的规律——模型会先绘制整体轮廓和大色块（低频信息），再逐步填充细节纹理（高频信息），这与经验丰富的画家“先定构图，再加细节”的工作习惯高度相似。问题在于，现有生成算法在整个过程中始终以完全均匀的方式注入随机噪声，根本不考虑画面当前区域的完成状态。这就像助手不管画家在做什么，永远均匀地向画布各处泼洒颜料——在画家已将大色块铺好之后，继续向那些区域泼同样多的颜料，显然是一种浪费。

针对此问题，研究团队提出一种全新采样方法——“彩色噪声采样”（Colored Noise Sampling，简称CNS）。该方法无需重新训练模型，只需在图像生成过程中，将噪声注入方式从“无差别均匀分配”改为“按需动态分配”——把更多随机扰动精力投入到当前尚未完成的频率区域，而非浪费在已成型部分。实验结果表明，这一看似简单的改动带来了显著的图像质量提升，在多个主流架构和数据集上均大幅改善了生成效果的评分。

一、扩散模型是如何“绘画”的？

要理解这项研究，需先理清扩散模型的工作原理。可将扩散模型的生成过程视为一场“去雾还原”游戏。训练阶段，模型学会如何将一张清晰照片逐步加上随机噪声，直至变成毫无意义的雪花屏；生成阶段则恰好相反——从随机噪声出发，逐步“去雾”，最终还原出清晰图像。

在还原过程中，每一步模型都需要判断：当前模糊状态应朝哪个方向演化才能更接近真实图像？这一判断依赖于模型在训练中学到的“得分函数”，即对当前状态的梯度估计，它指引生成轨迹朝真实数据方向移动。

然而，纯粹的确定性还原（ODE路径，每一步固定）存在固有缺陷：一旦某一步出现估计误差，误差会不断积累，导致生成路径偏离真实数据分布。为解决问题，研究人员引入随机版本（SDE路径）：在每一步还原的同时注入少量随机噪声，使模型有机会“重新探索”当前邻域，从而纠正累积偏差。

这一随机噪声注入机制正是本研究关注的核心。传统做法是在每一步注入均匀的白噪声——白噪声指所有频率的能量完全相等，没有任何频率偏好。这在数学上虽是标准做法，但问题在于它完全忽略了模型在不同频率信息生成进度上的差异。

二、画家的工作方式：先轮廓，后细节

研究团队关注的“被长期忽视的规律”，在学术上称为“谱偏置”（spectral bias）。简而言之，该规律描述：扩散模型在生成图像时并非均匀、同时地构建所有细节，而是存在明确的先后顺序——先建立低频结构（整体轮廓、大色块、全局构图），再完善高频细节（纹理、边缘、细小纹路）。

这个现象可用“逐步对焦的镜头”来理解。摄影时，从完全模糊到清晰的过程中，你会先看到大致轮廓和颜色分布，随后才是越来越清晰的细节纹理。扩散模型的生成过程与此高度相似：早期步骤中，模型优先确定画面整体格局；后期步骤中，才专注于填充精细的局部细节。

为量化这一规律，研究团队设计了一个称为“进度指数”（γ(f, t)）的指标，用以衡量在任意时刻t，某个频率f的结构信息究竟生成了多少比例。具体做法：在生成过程的每一步，让模型预测最终图像，然后将该预测与真正的最终图像在各个频率上进行对比，计算差值。差值越小，说明该频率的结构越接近完成。

通过可视化这一进度矩阵，研究人员清晰看到了谱偏置的存在：低频区域（对应图像整体布局）在生成早期迅速接近完成，而高频区域（对应细节纹理）则缓慢爬升，直至生成最后阶段才逐渐成型。这张进度地图为后续方法设计提供了关键的数据基础。

三、噪声能量是有限的，不能随意挥霍

在理解谱偏置之后，研究团队还发现另一个关键事实：整个生成过程中注入的总噪声能量是一个固定有限的预算，不能随意增加。

这一结论来自严格的数学推导。扩散模型使用的随机微分方程（SDE）有一个性质：无论将生成步骤分成多少步，每一步注入的噪声方差总和，在步数足够多时，都会收敛到同一个固定的积分值。换言之，分成100步还是1000步，总能量基本一致，只是每步分得的份额不同。这就像一个固定容量的油箱：不管将行程分成多少段加油，总油量是不变的。

更重要的是，研究团队还证明：如果试图整体放大噪声预算（例如统一乘以大于1的系数），后果极为严重。从理论上看，整体放大将破坏SDE与数据分布之间的精确平衡关系，导致生成轨迹偏离真实数据的概率路径。实验也印证了这一点：当总能量放大到原来的1.05倍（仅增加5%），FID评分（衡量生成图像质量的指标，越低越好）就从约10急剧恶化至20以上；放大到1.1倍时，FID高达50以上，图像质量几乎完全崩溃。相反，整体缩小噪声虽不会立即崩溃，但会使生成结果向确定性ODE靠拢，丧失随机校正的好处。

这一结论的意义在于：无法通过“加大油门”解决某些频率能量不足的问题，唯一可行的方案是“在固定预算内重新分配”——即从某些频率挪走能量，补充到另一些频率上。这正是CNS方法的核心思路。

四、噪声不只是干扰，它实际上在“塑造”最终图像

在提出CNS方法之前，研究团队还做了一项有趣的实验，验证了一个重要假设：注入的随机噪声并不只是短暂的扰动，而是会被模型“利用”，转化为最终图像的结构特征。

这一发现听起来有些反直觉。按常理，随机噪声是生成过程中的“扰动项”，其作用是帮助模型探索邻域、纠正偏差，之后会被得分函数的方向性拉力“清除掉”。但实验表明，事情并没有这么简单。

研究人员计算了在整个生成过程中累计注入的噪声总量，与最终生成图像在各个频率上的余弦相似度。结果显示，两者之间存在显著的正相关关系：累计注入的噪声在某个频率上的结构倾向，与最终图像在该频率上的表现有明显关联。换言之，你往哪个频率方向多注入能量，最终图像在那个频率上就可能更丰富。

这一发现为CNS方法提供了理论支撑：如果注入的噪声会被保留并转化为图像结构，那么有意识地将噪声能量引导至当前尚未成型的频率区域，就能帮助模型更好地完成那些区域的结构构建。这就好比助手泼洒的颜料不仅仅是噪声，画家实际上会将这些颜料也利用起来——那么助手就应该把颜料泼向那些还没画好的地方。

五、CNS的核心设计：按需分配噪声能量

有了以上三块基础认识，CNS方法的设计逻辑就变得非常自然了。

核心思路如下：在每一个生成步骤中，根据当前各个频率的“完成度”（即前面提到的γ值），动态调整注入到每个频率的噪声能量。完成度越低（即该频率还有很多结构尚未建立），就分配更多的噪声能量；完成度越高（该频率结构基本已成型），则减少对其的能量分配。同时，为保证总能量预算不变，所有频率的能量调整系数的均方根必须严格等于1——即“拿了这里的，必须补到那里”。

数学上，这一调整系数β(f, t)的计算方式为：将该频率的结构缺口（1 - γ(f, t)）开平方，然后除以所有频率结构缺口的均方根，完成归一化。该公式保证能量向“最需要补充的地方”倾斜，同时全局总能量守恒。

该方案还具有几个精妙性质。在生成刚开始时（t接近1），所有频率均未建立结构，γ值均为0，因此所有频率的调整系数都等于1——这意味着CNS在初始阶段与标准白噪声SDE完全相同，不会给模型带来任何“陌生感”。随着生成进行，各频率的完成度开始分化，低频率先行成型，CNS自动将能量从低频挪向高频，实现动态的按需分配。到了生成末期，低频完全成型，高频仍在追赶，CNS便将几乎所有能量都集中在高频区域，全力支持最后的细节填充阶段。

在实现层面，该方法操作非常直接：先生成一个标准白噪声样本，然后对其做傅里叶变换，按照β(f, t)对每个频率的幅度进行缩放，再做逆变换还原到空间域，最后做标准差归一化确保能量守恒。整个过程只需几行代码，即可无缝插入任何现有的SDE生成流程中，无需修改模型本身。

六、CNS改变了什么：频谱对齐的故事

研究团队从频谱分析的角度展示了CNS究竟改变了什么。他们对三种方法（ODE、SDE、CNS）生成的图像进行了功率谱密度（PSD）分析，并与真实的ImageNet图像进行了比较。

结果呈现出一个有趣的格局。标准ODE生成的图像在低频（大色块、整体构图）上功率偏高，说明它倾向于把大轮廓画得过于饱满，但在高频（细节纹理）上功率偏低，细节不够丰富。标准SDE生成的图像虽在整体上比ODE更接近真实，但在全频段上整体功率偏低，相当于整幅画都稍微“亮度不足”。CNS则最接近真实图像的频谱分布，在低频和高频之间取得了更好的平衡，对应的频谱误差（以对数空间的平均绝对误差衡量）也最小：ODE误差为0.155，SDE误差为0.065，而CNS误差仅为0.046。

频谱上的改进直接对应到FID评分的改善。在SiT-XL/2架构（一个基于潜空间的视频生成模型框架改造的图像模型）上，不使用分类器自由引导时，标准SDE的FID为8.26，而CNS将其降低至6.27，降幅约24%。在JiT-B/16模型上，SDE的FID为36.24，而CNS降至26.69，降幅高达26%。在JiT-H/16模型上，SDE的FID为11.88，CNS降至8.31，降幅近30%。

使用分类器自由引导（一种通过强化条件信号提升图像与描述文字匹配程度的技术）时，改进同样稳定：SiT-XL/2的FID从2.06降至1.98，JiT-H/16从2.08降至2.03，JiT-B/16从4.54降至4.19（使用稍低引导强度时甚至可达4.19）。

七、高阶求解器、更多步数：CNS全面领先

研究团队还系统测试了CNS在不同求解器和不同采样步数下的表现，以验证其普适性。

在求解器阶数上，团队分别测试了一阶弱收敛的Euler-Maruyama方法、二阶弱收敛的Heun方法以及Rossler提出的两种二阶随机Runge-Kutta方法（SRK2和SRK2S）。结果显示，在所有这些求解器上，CNS版本均优于对应的标准SDE版本。以SiT-XL/2为例，Heun求解器下标准SDE的FID为8.00，CNS版本降至5.99；SRK2求解器下SDE的FID为8.14，CNS版本降至5.91；SRK2S求解器下SDE的FID为8.77，CNS版本降至5.97。这说明CNS带来的改进与求解器选择无关，是一种真正的通用改进。

在采样步数上，研究表明CNS在步数达到能正常进行随机模拟的阈值之后，FID随步数单调下降，始终保持对标准SDE的优势。以Heun求解器为例，在1000步时CNS的FID低至5.97，而标准SDE的最佳FID为7.83，ODE的最佳FID为11.09。CNS用不到一半的步数就能达到ODE的峰值水平，这意味着在相同计算预算下，CNS能获得更优结果。

当然，CNS与所有SDE方法一样，需要比ODE更多步数才能充分发挥优势，因为随机积分需要更密集的离散化才能正确模拟连续随机过程。这是SDE方法的固有特性，CNS并未改变这一点。

八、文字生成图像同样有效：FLUX实验

除了标准类别条件图像生成，研究团队还将CNS应用于文字生成图像场景，具体在目前业界最先进的FLUX.1-dev和FLUX.2-klein模型上进行了测试。

文字生成图像的评估维度更加多元，除图像质量外，还需关注生成图像是否真正理解输入的文字描述。研究使用了三个指标：ImageReward（人类偏好评分，模拟真实用户主观感受）、CLIPScore（图文一致性，衡量生成图像与文字描述在语义上的匹配程度）以及Aesthetic Score（美学评分，评价图像视觉吸引力）。测试在DrawBench和GenEval两个综合性文字提示测试集上进行，前者专注于复杂文字理解场景（如复杂文字渲染、多重属性组合），后者则评估精确的组合理解能力（如物体数量、空间位置关系）。

结果显示，在FLUX.1-dev上，CNS的ImageReward从SDE的0.990提升至1.012，CLIPScore从0.689提升至0.693，Aesthetic Score从5.804提升至5.812。在FLUX.2-klein上，CNS的ImageReward从ODE的0.984提升至1.005，同时保持了与标准方法相当的CLIPScore和Aesthetic Score。在GenEval测试中，CNS的综合准确率（0.647）略高于ODE（0.643）和SDE（0.635），且在计数、颜色属性理解和空间位置等细分任务上均有所提升。

这些结果表明，CNS在提升视觉质量的同时，并未损害模型理解文字描述的能力，可放心作为文字生成图像流程中的替换求解器。

九、消融实验：每个设计选择都有其道理

为验证CNS方法中每个设计选择的必要性，研究团队进行了详尽的消融实验，系统测试了各种变体和对比方案，所有实验均在SiT-XL/2上以250步Euler求解器运行。

首先是全局能量缩放实验，验证了方差守恒约束的必要性。将总注入能量统一缩放到各种系数下，结果极其敏感：缩放到0.9时FID从9.61（CNS基准）恶化到16.17，缩放到1.05时恶化到20.46，缩放到1.1时高达50.63，而缩放到0.5或2.0时FID分别达到106.82和327.45，基本完全失去生成能力。该实验有力证明了能量预算守恒的重要性。

然后是时序扰动实验，验证了动态时序分配的必要性。研究团队设计了三种破坏CNS时序安排的方案：用时间轴上的平均频谱代替动态变化（固定频谱）、随机打乱时序（乱序安排）、将时序完全反转（倒序安排）。这三种方案虽保留了总能量注入模式，但破坏了“在正确时刻将能量注入正确频率”这一关键特性，FID分别恶化到10.53、10.46和10.50，相比CNS的9.61均有明显下滑。这说明不仅要注入到正确的频率，还必须在正确的时机注入。

此外，研究团队还测试了向25%、50%或100%的时间步骤注入随机白噪声的情况，发现任何比例的白噪声混入都会降低性能，且混入比例越高，性能越差，再次确认了精确频率路由策略的价值。

最后，研究团队还测试了多分形布朗运动（mBm）作为时变彩色噪声生成方式的效果。mBm是一种数学上较为优雅的方案，通过改变Hurst参数来控制噪声颜色随时间的变化。然而，由于mBm只能沿频率轴做整体性倾斜，缺乏CNS那种对每个频率带精细独立控制的能力，其最佳配置（白噪声到蓝噪声，H从0.5变化到0.25）的FID为11.88，高于CNS的9.61，说明精细的逐频率控制比整体谱倾斜更为有效。

十、对替代训练范式的兼容性：BNDM实验

研究团队还专门测试了CNS是否能为那些已在训练阶段考虑谱偏置的模型带来额外增益，以排除“CNS仅为弥补标准训练不足”的可能性。

测试对象是BNDM（蓝噪声扩散模型），这是一种在训练时即采用随时间变化的白到蓝噪声分布的模型，旨在通过改变训练目标引导模型更好利用谱偏置。由于BNDM使用了非标准前向过程，研究团队需为其量身定制一个对应的SDE求解器，然后在此基础上接入CNS。

在两个64×64的数据集上，AFHQ猫脸数据集和LSUN教堂建筑数据集，BNDM+ODE的FID分别为7.95和10.16，而加入CNS后分别降低至7.49和8.70，改进幅度相当可观。相比之下，BNDM+标准SDE的FID高达18.80和66.71，说明标准白噪声SDE对BNDM训练范式适应性很差，而CNS不仅解决了该问题，还进一步提升了质量。

该实验说明，CNS带来的增益并不依赖于模型训练方式，它是一种真正的推理时改进，能与各种不同训练范式协同工作，提供互补的额外价值。

说到底，这项研究做的事情其实很朴素：它发现了一个AI绘画过程中长期存在的低效环节，然后用一个相对简洁的数学工具修好了它，且整个修复过程完全不需要重新训练模型。

对普通用户而言，这意味着你手边已有的图像生成工具，理论上可通过更换采样方式，在不增加任何计算成本的前提下生成更清晰、细节更丰富的图像。你无需等待新一代更大的模型，也无需购买更贵的硬件——只需更聪明地使用现有模型即可。

当然，该方法目前还有一个限制：它依赖于随机微分方程框架，对确定性ODE采样器无效，而ODE采样器恰好是目前低步数（快速生成）场景的主流选择。研究团队也坦承了这一局限，并表示未来希望探索如何将频率感知的能量路由引入确定性采样框架，以及如何将这套思路延伸到视频生成领域（那里还多了一个时间频率维度可利用）。

对这项工作感兴趣的读者，可通过arXiv编号2605.30332查阅完整论文，以及访问研究团队发布的项目主页（hadarda vidson.github.io/CNS/）查看更多可视化结果和代码实现。

Q&A

Q1：彩色噪声采样（CNS）与普通扩散模型采样相比，究竟改变了什么？

A：CNS改变的是在图像生成过程中向系统注入随机噪声的方式。普通方法每一步向所有频率均匀注入相同能量的白噪声；CNS则在每一步根据各频率当前的“完成进度”动态分配能量，将更多噪声能量引导至尚未成型的频率区域，同时减少对已成型区域的能量注入，且总能量始终守恒。

Q2：CNS需要重新训练扩散模型才能使用吗？

A：不需要。CNS是一种纯推理时方法，只替换采样过程中的噪声注入策略，不修改模型权重，也不改变模型结构。任何已有的扩散模型只需更换求解器就能使用CNS，是真正的即插即用方案。

Q3：为什么扩散模型生成图像时会先画轮廓再画细节？

A：这是扩散模型固有的“谱偏置”特性，根源在于神经网络在学习时倾向于先拟合低频（平滑、整体）信息，后拟合高频（精细、局部）信息。在图像生成的逆向过程中，这种学习偏好体现为模型在早期步骤中主要修正整体布局，在晚期步骤中才精细化纹理细节，类似于画家“先定构图后填细节”的工作习惯。

来源：互联网

上一篇 华东师大&美团龙猫：AI智能体学以致用训练新方法 下一篇 多模态深度研究助手权威评测中国人民大学团队打造

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。