技术资讯综合资讯

FlashAR算法深度测评：0.05%数据实现22.9倍图像生成加速

2026-05-24

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

FlashAR是一种轻量级后训练加速框架，能将预训练自回归图像模型改造为高度并行生成器。

大语言模型的突破性进展，将“下一个词预测”这一核心范式成功迁移至视觉生成领域。其实现路径是将图像编码为离散的视觉标记序列，并采用自回归方式逐一预测生成。从早期的PixelCNN、iGPT，到近期的Emu3.5与LlamaGen，自回归模型的生成质量已实现对扩散模型的全面追赶，并在特定任务上实现了超越。

然而，一个根本性的性能瓶颈始终存在：生成速度过慢。传统的光栅扫描解码方式严格遵循从左至右、从上到下的顺序，每一步仅能生成一个视觉标记。生成一张512×512分辨率的图像，需要完成1024步串行推理，单卡耗时通常超过两分钟。这种延迟与分辨率呈线性增长，却无法有效利用GPU的并行计算能力，使其在高分辨率或实时交互场景下的实际部署面临巨大挑战。

现有加速方案

为突破这一瓶颈，研究界已探索了多种技术路径，但均存在显著局限：

重新设计生成范式：例如VAR的“下一尺度预测”、NAR的“近邻预测”或PAR的分组并行解码。这些方法能有效减少解码步数，但其核心缺陷在于需要从零开始预训练全新模型，无法直接迁移现有的大规模预训练自回归模型，导致训练成本极为高昂。
离散扩散适配：以Emu3.5原文采用的DiDA（离散扩散适配）为代表。该方法通过后训练将自回归模型转换为支持并行解码的离散扩散模型。但其代价是改变了模型原始的预测目标函数，造成预训练任务与推理任务之间的目标不一致，通常会导致生成质量出现可感知的下降。
推测解码：作为一种无需训练的外挂式加速技术，其实际加速比严重受限于草稿模型的预测准确率（接受率），性能提升幅度存在天花板。

由此，一个关键问题亟待解决：能否在不重新训练、也不改变模型原始学习目标的前提下，将已训练完备的自回归模型，高效改造为高度并行的生成器，并完整保留其强大的生成能力？

近期，来自浙江大学与阿德莱德大学的研究团队提出了一个突破性解决方案：FlashAR。这是一个极其轻量的后训练加速框架。无需从头预训练，在拥有340亿参数的Emu3.5-Image-34B模型上，仅使用其原始训练数据的0.05%（约8万张图像），即可将预训练自回归模型改造为并行生成器，实现最高22.9倍的端到端生成加速。

核心思路：从“逐个生成”到“对角线并行”

理解FlashAR的巧妙设计，需从传统自回归模型的工作机制入手。它们遵循严格的光栅扫描顺序，每一步仅预测水平方向的下一个标记。对于一张由H×W个标记组成的图像，生成需要H×W步。

FlashAR的核心洞察在于：图像具有固有的二维空间结构。若能赋予模型同时预测“右侧”与“下方”标记的能力，则每个解码步可以沿图像对角线方向，并行预测一整批标记。如此，总解码步数将从H×W锐减至H+W-1。以512×512分辨率（通常对应16×16的标记网格）为例，解码步数从1024步降至63步，理论加速比极具吸引力。

但核心挑战在于：如何让一个仅学习过“向右预测”的模型，快速掌握“向下预测”的能力？FlashAR通过三个精心设计的核心组件解决了这一问题。

1. 中间层分支

FlashAR并未简单地将新增的垂直预测头连接到预训练模型的最终层。相反，它选择从模型的中间层进行“分叉”，引出一条新的并行支路，使垂直预测头与原有的水平预测头协同工作。

为何不直接使用最终层特征？原因在于，经过充分预训练后，模型最终层的特征表示已高度特化，完美适配于原始的水平光栅预测任务，但其空间信息的通用性与可塑性可能已减弱。相比之下，中间层特征通常保留了更丰富、更通用的二维空间上下文信息，更适合用于适配新的预测方向。

此设计还有一个额外优势：由于从中间层便开始分支，垂直预测头的计算可与原有水平分支的计算并行执行，这为提升整体推理吞吐量创造了条件。

2. 可学习融合门

水平与垂直两个方向的预测，实质上建模了图像中互补的空间依赖关系。它们在不同图像区域、不同空间位置上的贡献权重应是动态变化的。基于此，FlashAR引入了一个轻量级MLP模块作为“可学习融合门”，在每一个标记的位置上，自适应地学习如何融合两个方向的预测结果。这避免了简单平均池化可能导致的预测模糊，确保了融合的精准性。

3. 两阶段适配训练

为确保后训练过程的稳定性与数据利用的高效性，FlashAR采用了渐进式的两阶段训练策略：

第一阶段：冻结预训练骨干网络的全部参数，仅训练新添加的垂直预测头，使其快速习得有意义的垂直方向预测能力。
第二阶段：解冻部分骨干网络层，与垂直预测头进行联合微调，使整个模型更好地适应新的并行解码范式。

在推理阶段，FlashAR还集成了硬件感知的优化技术。例如，利用FlexAttention动态编译稀疏的二维近邻注意力掩码，并配合批量化KV缓存更新策略，确保理论上的并行性能够切实转化为端到端的实际加速收益。

实验结果

Emu3.5-Image-34B加速效果

将FlashAR应用于340亿参数的Emu3.5模型，是对其扩展能力的严格验证。结果令人瞩目：

仅使用0.05%的原始训练数据（约8万张图像），FlashAR便将512×512图像的生成时间从130.10秒大幅压缩至5.68秒，实现了22.9倍的端到端加速。更为关键的是，加速几乎未牺牲生成质量。在综合评估基准GenEval上，FlashAR模型的总分仅比原始模型微降0.19分（从80.48降至80.29），且在“颜色”与“位置”两个子项上，得分甚至实现了反超。作为对比，同样采用后训练的BlockDiffusion方法，在相同设置下性能下降显著，GenEval总分降至73.83。

ImageNet类别条件生成

在ImageNet 256×256类别条件生成基准测试中，FlashAR在四种不同模型规模（Base, Large, XL, XXL）上均全面超越了现有的后训练方法BlockDiffusion。

以下几个亮点尤为突出：

FlashAR-L的Inception Score (IS)达到了289.0，甚至超过了从头开始训练的NAR-L模型（263.9），而FlashAR仅需轻量级后训练。
FlashAR-B的生成吞吐量高达447.2 img/s，超越了NAR-B的419.7 img/s。
FlashAR仅需25个训练周期，这仅为BlockDiffusion所需训练量的三分之一。

为什么FlashAR如此高效？

总结而言，FlashAR的成功源于以下几大核心优势：

无需从头训练：直接复用现有强大的预训练自回归模型，站在巨人肩膀之上。
数据利用极致高效：仅需极少量数据（0.05%）即可完成高性能适配。
性能保持优异：在实现大幅加速的同时，生成质量几乎无损，部分指标有所提升。
框架通用性强：已在从1.2亿到340亿参数的不同规模模型（LlamaGen, Emu3.5）上得到验证。
实际加速显著：最高22.9倍的端到端加速，使高分辨率自回归图像生成走向实用。

FlashAR的工作证明了一个重要观点：通过精巧的后训练适配架构设计，我们完全可以在几乎不扰动原始模型核心学习目标的前提下，将串行的自回归模型，高效地重构为高度并行的生成器。这为释放大规模预训练自回归视觉模型的实用化潜力，开辟了一条高效且可行的新路径。

来源：互联网

上一篇 2026年AI算力分配预测：推理占70%，训练仅30% 下一篇 大模型时代音视频智能研究全景综述：9大权威机构深度解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。