菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > CVPR 2026前沿:西湖大学张驰团队视频生成新突破,无需重训即实现更长更稳定
其他资讯 西湖大学 前沿

CVPR 2026前沿:西湖大学张驰团队视频生成新突破,无需重训即实现更长更稳定

2026-06-01
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

AI视频生成技术曾长期受困于一个现象:模型能产出惊艳的几秒片段,人物神态、光影氛围

AI视频生成技术曾长期受困于一个现象:模型能产出惊艳的几秒片段,人物神态、光影氛围与动作流畅度都足以乱真,这常让人误以为技术已趋近成熟。

然而,行业的深入探索揭示了一个更本质的挑战:真正的瓶颈不在于制造短暂的视觉奇观,而在于如何将这种高质量输出稳定地延续至更长的时间维度。一旦生成时长被拉长,许多模型便开始“失稳”——人物、场景与动作在表面上或许延续,但细节开始漂移,时序连贯性悄然瓦解。

这标志着AI视频领域的焦点已发生根本性转移:从“能否生成片段”转向了“能否生成具备连续、稳定且能承载完整叙事逻辑的长内容”。

设想一段烹饪教程视频,镜头从备菜、下锅到最终摆盘,观众预期看到的是同一空间、同一套厨具与食材被逻辑清晰地串联。或是一段城市通勤记录,人物从地铁站走向街边店铺,镜头可以切换,但人物的状态、与环境的互动关系及动作逻辑必须保持内在一致,而非逐渐涣散。

唯有攻克这种“长时间稳定性”难题,AI视频才能从技术演示迈向真正的创作与生产流程。在此背景下,西湖大学张驰团队的研究《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》显得尤为切中要害。

该研究并未执着于提升单帧画面的视觉冲击力,而是直指一个更核心的症结:为何模型在短视频中表现尚可,一旦生成长视频,质量便难以维系?正因它精准命中了行业迈向下一阶段的核心痛点,这项研究超越了常规的指标优化,更像是在为AI视频从“短片段”走向“长内容”的必经之路上,扫清了一个关键障碍。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

更长的视频,更明显的优势

为验证方法的有效性,研究团队在Wan2.1-T2V-1.3B模型上进行了系统性测试。他们将视频长度扩展至原长的2倍与4倍,结果显示,其提出的FreeLOC方法优势显著,且视频越长,优势越明显。

首先观察2倍长度(161帧)的结果。在衡量稳定性的关键指标上,FreeLOC表现突出:主体一致性达98.06,背景一致性达97.49,运动平滑度达98.98。这意味着在人物、场景与动作的连续性上,该方法已接近或达到最佳水平。

更亮眼的表现体现在画质相关指标上。图像质量得分达68.31,显著高于直接生成(Direct)的60.34,也优于滑动窗口(Sliding Window)的64.64和FreeNoise的67.19。在美学质量上,FreeLOC取得62.33的高分,而其他方法多在52至56区间,领先优势明确。动态程度得分39.41,亦接近最佳。可以说,在2倍长度下,FreeLOC实现了稳定性、清晰度与整体观感的全面提升。

当挑战升级至4倍长度(321帧)时,生成长视频的难度陡增,模型更易出现内容漂移、画面模糊或动作失真。但实验数据表明,FreeLOC在此苛刻条件下依然稳健。

其主体一致性维持在98.44的高位。图像质量得分67.44,而直接生成方法已降至59.21,差距拉大至8.2分。美学质量得分61.21,对比直接生成的49.43,优势扩大至11.8分。动态程度得分36.27,远超直接生成的4.32,呈现数量级差异。

这些结果说明,随着视频长度增加,多数方法的性能会急剧衰退,但FreeLOC仍能将画面质量与动态表现维持在较高水准。其优势具有普适性,在高难度的长视频生成场景中依然成立。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

这种提升并非特定模型的“特权”。研究团队在另一主流视频生成模型HunyuanVideo上进行了复现,趋势完全一致。在2倍长度(253帧)下,FreeLOC的图像质量(68.92)和美学质量(62.38)均为最高,主体一致性(97.92)也优于多数对比方法。

在4倍长度(509帧)下,其图像质量(67.92)和美学质量(61.09)依然领先,动态程度(39.28)接近最佳。这证实了FreeLOC的效果具备跨模型的通用性。

那么,这种提升源于何处?研究团队通过消融实验进行了拆解。单独使用其核心组件之一的时序敏感注意力(TSA)时,图像质量为65.87,美学质量为57.05,表明处理长上下文问题本身即能带来可见增益。单独使用另一组件视觉相对位置重编码(VRPR)时,图像质量为61.88,美学质量为54.13,说明单独修正位置问题也有效,但作用有限。

若将TSA与VRPR简单叠加,但对所有网络层进行统一处理,图像质量为65.19,美学质量为56.34,虽优于单一模块,却非最佳。更有趣的是,若随机将这些模块分配至不同层,图像质量反而会下降至63.90。这恰恰说明,模块本身并非“放之四海而皆准”。

关键在于“按层选择”。这正是FreeLOC的核心创新之一:根据每层网络对不同问题的敏感度,进行差异化的处理。采用此策略后,图像质量达67.44,美学质量达61.21,均为最高。性能的提升不仅源于新增模块,更归功于这种精细的分层适配策略。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

研究人员进一步比较了不同的位置处理方式与注意力机制。在位置处理上,VRPR的效果(图像质量68.84,美学质量61.21)明显优于简单的截断(Clipping)或分组(Grouping)。这证明多粒度的位置重编码比粗暴的简化策略更有效。

在注意力机制上,TSA(图像质量68.84,美学质量61.21)也优于滑动窗口(Sliding Window)和选择性帧注意力(Selected Frame Attention)。这意味着,单纯的滑动窗口虽能控制计算量,却会损失重要的长程时序信息,而TSA能在管理上下文长度的同时,更好地保留这些关键关联。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

综合来看,这一系列实验清晰地表明,FreeLOC的优势并非来自某个孤立的技巧,而是源于一套协同的设计:更有效的位置编码、更智能的注意力控制,以及最关键的分层应用哲学。

结论明确:无论在Wan2.1还是HunyuanVideo模型上,无论在2倍还是4倍的长度设定下,FreeLOC都能同步提升视频的稳定性、清晰度、美感与动态表现。并且,生成任务越漫长、越困难,其优势就越突出。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

从设置到机制,一步步验证

为确保结论的可靠性,研究团队在实验设计上颇为严谨。他们选用了两个公开可用的视频生成模型——Wan2.1-T2V-1.3B和HunyuanVideo,以此验证FreeLOC是否具备跨模型的普适性。

在生成阶段,输出分辨率统一设置为480p(832×480),并重点测试了将视频长度扩展到2倍和4倍后的效果。目的直接:观察模型在面临更长的生成任务时,能否守住画面质量与时序连贯性的底线。

对比基线设置全面,涵盖了当前主流的几种长视频生成思路:包括最基础的直接采样(Direct Sampling)、局部连贯的滑动窗口(Sliding Window),以及已有的无需训练的方法如FreeNoise、FreeLong、RIFLEx等。这样的对比足以清晰地勾勒出FreeLOC在方法丛林中的位置。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

评价体系采用VBench标准,并将指标分为“一致性”和“质量”两大类。一致性方面,关注主体一致性(人物是否变形漂移)、背景一致性(场景是否稳定)和运动平滑度(动作是否自然连续)。质量方面,则考察图像质量(画面清晰度)、美学质量(视觉美感)和动态程度(运动表现力)。这套组合拳确保评估不再局限于单一的“清晰度”,而是涵盖了从内容稳定到观感体验的多维标准。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

除了常规对比,研究还进行了一项关键的“探测实验”——逐层分析Transformer。具体做法是对每一层网络施加扰动,然后观察两件事:视觉质量下降了多少,以及注意力模式的变化有多大。

正是通过这个实验,他们发现了一个关键现象:不同的网络层对问题的敏感度截然不同。有的层更容易受到帧间位置关系变化的影响,有的层则对长上下文扩展更为敏感。这个发现为后续的分层处理策略提供了直接依据——不能“一刀切”,必须“因层施策”。

研究还专门验证了两类核心的“分布外”(O.O.D)问题。第一类是位置O.O.D,通过改变帧之间的相对位置关系,观察生成质量是否下降。第二类是长度O.O.D,通过直接增加视频长度,计算注意力熵(分散程度)。实验表明,视频越长,注意力就越分散,而注意力越分散,生成质量通常就越差。

正是基于对这两类问题的根源性剖析,研究团队才系统地提出了VRPR(应对位置O.O.D)、TSA(应对上下文O.O.D)以及最终的分层适配策略。可以说,这部分工作的价值在于,它没有停留在结果对比,而是深入机制,先拆解问题根源,再有的放矢地设计解决方案。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

从「能生成」走向「能使用」

这项研究的价值,远不止于提升了几个技术指标。它的深层意义在于,为长视频生成的顽疾提供了一个机制上的解释。研究团队指出,长视频之所以容易出现画面模糊、动作断裂、人物失稳等问题,根源在于两类O.O.D问题:位置O.O.D和上下文O.O.D。

这个判断至关重要。它意味着,过去许多方法可能只是在技巧和参数上做文章,而这项研究开始将问题推向机理层面。它不仅给出了一个更优的解决方案,更解释了旧方法为何容易失效,以及视频变长后模型为何会“失控”。

另一个颇具实用价值的贡献是,它证明了“重训练”并非唯一出路。以往提到生成长视频,一个常见的思路是必须重新训练模型,或进行繁重的额外训练,因为为短视频设计的模型很难直接处理超长的时序依赖。

而这项研究表明,仅在推理阶段进行精细化的修正,就能显著改善生成效果。这一点非常关键,因为它大幅降低了算力成本,使得现有的模型能够更容易地被直接利用,对于技术的实际落地和部署极为友好。

此外,研究重新揭示了Transformer内部不同层级的职能差异。他们发现,不同层并非千篇一律,有些层对位置信息更敏感,有些层则更受长上下文影响。因此,真正有效的方法不是对所有层进行无差别的修改,而是先定位出问题集中的层,再进行针对性修复。这一认识具有相当的普适性,它不仅适用于视频生成,对于处理长上下文的LLM、图像生成模型的推理优化,同样具有启发意义。

换言之,这项研究贡献的不只是一个技术技巧,更是一种可推广的思路:先诊断问题,再定位层,最后进行局部修复。

从更广阔的视角看,这项研究的影响相当直接。未来,当普通用户尝试用AI生成稍长一点的视频时,那些令人头疼的“人物变脸”、“服饰突变”、“背景跳跃”和“动作接不上”的情况,有望大幅减少。

对于普通用户而言,这意味着制作故事短片、教学视频或产品展示时,成片会更加稳定可靠,更接近真正“可用”的内容。对于内容创作者来说,这意味着更少的返工、更低的制作门槛,个人或小团队也有更大机会利用现有模型,产出更长、更连贯的视频作品。

因此,这项研究推动的不仅是技术指标的爬升,更是让AI长视频生成向着“日常可用”与“商业可用”的目标,实实在在地迈进了一步。

FreeLOC 的创建者

论文第一作者田佳豪,目前是西湖大学AGI Lab的科研助理,师从张驰教授,主要从事计算机视觉研究。他的研究重点集中在扩散生成模型、视频生成与世界模型等方向。从学术成果看,他已发表或参与多项工作,包括以第一作者身份发表在CVPR 2026的FreeLOC,以及投稿于ECCV 2026的HeadForcing。此外,他还参与了DCCM、Loss-Guided Diffusion For General Controllable Generation等工作。其研究轨迹呈现出从图像扩散模型理论、视频时序建模到自回归长视频生成与交互式视频合成的清晰演进路径。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

通讯作者张驰,是西湖大学助理教授、独立PI,并担任AGI Lab负责人,研究方向为生成式人工智能与多模态智能。在加入西湖大学前,他曾任腾讯研究科学家,并于新加坡南洋理工大学获得博士学位,师从林国盛教授,同时与沈春华等学者保持长期合作。在学术影响力方面,他连续入选斯坦福大学发布的全球前2%科学家榜单,并担任ICML、ICLR、CVPR等顶级会议的领域主席,以及IEEE T-CSVT期刊的副编辑。

在学术研究上,张驰教授长期深耕生成式人工智能领域,研究方向涵盖扩散模型、多模态生成建模以及智能体系统。近年来,他带领团队在CVPR、ICCV、ICLR、NeurIPS等顶级会议上持续产出成果,例如Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA等代表性工作。这些研究从图像生成、视频生成延伸到3D/4D场景建模以及多模态智能体,形成了一条从视觉理解到世界建模的系统性研究路线。

总体来看,张驰教授的研究强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展,既关注模型的基础理论,也注重实际系统的构建与应用落地。例如,在视频生成与3D建模方向,他推动研究从单纯的内容生成向可控的相机运动和空间理解发展;在智能体方向,他探索多模态大模型在真实交互环境中的应用。这种研究路径体现了从传统计算机视觉向通用人工智能过渡的前沿趋势。

西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多