其他资讯最新CVPR

最新CVPR 2026推荐：PS-SR视频超分技术实测，合肥春晚7分钟4K画面速度质量双赢

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

鱼灯划破水面，凌空巡游于城郭之间；火狮踏着烈焰奋力腾跃；一群剪纸造型的奔马通体发

鱼灯划破水面，凌空巡游于城郭之间；火狮踏着烈焰奋力腾跃；一群剪纸造型的奔马通体发光，在宫墙内疾驰；一纸诗词垂落成瀑布，在天幕之间翻卷不息——2026年央视春晚合肥分会场《合韵满江淮》，用一连串虚实联动的视觉叙事，刷新了观众对数字融合的感知上限。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

但鲜有人知，这些4K级视觉奇迹的核心技术支撑，来自智象未来团队提出的PS-SR——一个「伪单步」视频超分辨率框架。凭借这一突破性研究，该成果已被计算机视觉顶级会议CVPR 2026接收。

将天马行空的创意落地为春晚级别的播出画面，难点远不止生成一张美观的图像。它需要：在4K分辨率下高效处理海量实拍与生成素材；更关键的是，在60帧每秒的帧率下，每一帧都必须经得起逐秒审视。鱼灯鳞片的反光必须与水波频率同步，奔马肌肉在疾驰中不能出现任何畸变，AI生成的特效必须与真人实景无缝融合——仿佛它们本就共存于同一个时空。

然而，这一切都离不开一项基础能力：视频超分。没有足够清晰、稳定、真实的底层4K画面，那些极致细节与虚实融合就无从谈起。

当视频超分走向真实应用，一个绕不开的老问题再次凸显：模型到底应该追求更快的速度，还是更好的画质？

单步模型速度快，便于部署，但通常难以补出真实高清视频中的高频纹理；多步扩散模型细节丰富、视觉质量突出，但反复迭代导致计算成本高昂。对于长视频、高清分辨率及接近实时的视频增强场景，这一矛盾尤为尖锐。

智象未来团队提出的PS-SR，并未简单地将多步扩散压缩成一次前向传播。它的核心思路是：重新分配扩散采样中的计算角色。强大的基础模型只执行最关键的一步，用于确定全局结构与内容一致性；轻量级的草稿模型则接力完成后续细节增强。通过这种“投机扩散”机制，PS-SR在速度与画质之间找到了一个更务实的平衡点。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

视频超分的老难题：快与好，为何总是难以兼得？

视频超分不仅仅是把低分辨率画面放大。真实低清视频通常同时包含压缩伪影、噪声、模糊、纹理缺失和运动退化。模型不仅要恢复单帧纹理，还必须保证连续帧之间不出现闪烁或漂移。

基于CNN或Transformer的传统VSR方法效率较高，也能保持较强的输入输出一致性。但面对严重退化时，它们往往只能给出偏平滑的保守结果。扩散模型则带来了更强的生成先验，可以在低清人脸、车辆结构、衣物纹理等区域补出更自然的细节，但代价是多步采样带来的高推理成本。

近年来的单步扩散蒸馏方法试图破解这一问题，但单步模型很难完整继承多步扩散的迭代创造力。复杂纹理本来是在多轮更新中逐渐形成的，一次性生成时，模型容易退回到更平均、更保守的预测。

PS-SR 的核心判断是：真正昂贵的计算，未必每一步都需要。视频超分中，第一步最为关键——它要稳住语义、结构和低频内容；后续步骤更多是在稳定基础上补充高频细节。因此，与其让大模型完整跑多步，不如让大模型先打好地基，再让轻模型快速补纹理。

PS-SR：用投机扩散制造「伪单步」体验

PS-SR 的推理流程，由两个不对称模型协作完成。

第一阶段，基础模型（base model）登场。它初始化自Wan2.1-T2V-1.3B视频扩散模型，并通过LoRA适配到视频超分任务。它只进行一次全面采样，负责恢复画面的全局结构、语义内容和低频一致性。换句话说，这一步决定了「画面应该是什么」。

第二阶段，草稿模型（draft model）接管。草稿模型是基础模型的轻量化版本——论文中采用了从30个DiT blocks中裁剪20个的配置。为了让轻模型仍能获得强表征，PS-SR 将基础模型对应层特征拼接给草稿模型，再通过全连接层恢复维度。这样，草稿模型不需要重新理解整个视频，只需在强模型给出的基础上推测并补充细节。

训练上，基础模型先在latent space中学习从低质量视频到高质量视频的速度场，并结合VSD和对抗损失增强分布对齐与视觉真实感；随后进入pixel-space training，通过L2损失与LPIPS损失提升局部质量。而草稿模型则更聚焦于refinement，主要通过像素空间的L2损失与LPIPS损失学习高频细节恢复。

最终，PS-SR 形成一种「1+x」式采样体验：一个完整的基础模型采样步，加多个轻量草稿模型细化步。它不是严格意义上的单步模型，却在效率上接近单步，并保留了多步细化的空间。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

频域更新：只补细节，不改内容

多步扩散的优势在于能不断细化纹理，但风险也在这里：模型可能越改越清晰，却越改越不像原视频。为了避免这种语义漂移，PS-SR 提出了频域更新规则（Frequency-Domain Update Rule）。

这条规则的目标很直接：草稿模型后续步骤只允许注入高频细节，低频结构必须继承自前一步。具体做法是将当前视频和新预测视频转换到YUV色彩空间，在亮度通道上提取高频成分，再通过自适应权重融合高频信息，最后与原有低频内容和色度通道组合回RGB空间。

也就是说：基础模型确定骨架，草稿模型补充纹理，而频域更新规则负责守住边界——让增强发生在细节层面，而不是变成内容重绘。

消融实验也从可视化上验证了这一点。去掉频域更新规则后，模型更容易产生看似更锐利、但与原视频结构不完全一致的细节，局部纹理和边缘会出现偏移或重绘。下图展示了FDU的作用：它不是单纯追求锐度，而是在补充高频纹理的同时约束低频内容，让视觉丰富度与内容一致性保持平衡。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

实验结果：质量、速度和时序稳定性的平衡

PS-SR 在YouHQ数据集上训练，评测覆盖合成数据集UDM10、SPMCS、YouHQ40，以及真实世界低质量互联网视频数据集VideoLQ。对比方法包括多步扩散模型STAR、SeedVR，以及单步扩散类方法DLoRAL、SeedVR2和DOVE。

先看质量。在有高质量GT的数据集上，PS-SR展现出很强的重建能力。以UDM10为例，PS-SR取得了SSIM 0.7547、LPIPS 0.2444、DISTS 0.1277，均为对比方法中的最佳结果；在SPMCS上，PS-SR取得PSNR 22.092、SSIM 0.6287、LPIPS 0.2940、DISTS 0.1454，同样体现出稳定优势；在YouHQ40上，PS-SR获得PSNR 21.772、SSIM 0.5873、LPIPS 0.3011和NIQE 3.7508等有竞争力的结果。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

论文也特别强调，PS-SR 并不盲目追求无参考锐度指标最高。一些方法在CLIP-IQA或MUSIQ上更高，但可能伴随过度锐化和输入偏离。PS-SR 的目标，是在重建准确性、视觉细节和内容一致性之间取得更均衡的结果。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

再看时序一致性。PS-SR在多个合成与真实视频场景中都表现出更稳定的帧间对齐。下图的可视化更直观地展示了这一点：相邻帧之间的结构漂移和纹理闪烁更少，说明PS-SR在增强细节的同时，也能更好地维持连续运动中的内容稳定性。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

最后看速度。这也是PS-SR「伪单步」的优势最直观的体现。在NVIDIA A800 GPU上，对29帧、720×1280分辨率视频进行推理，STAR耗时98.61秒，SeedVR耗时188.93秒，DOVE作为单步方法耗时20.43秒；而PS-SR采用1+3步投机扩散，耗时仅21.11秒。换句话说，它只比最快的单步方法带来很小额外开销，却相比50步的SeedVR快了约9倍，相比15步的STAR快了约4.7倍。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难