其他资讯分钟级动画突破

瑞士理工VITA实验室破解视频人物崩坏分钟级动画突破

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

这项由瑞士联邦理工学院（EPFL）VITA实验室主导的研究于2026年5月以预印本形式发布，论文

这项由瑞士联邦理工学院（EPFL）VITA实验室主导的研究于2026年5月以预印本形式发布，论文编号arXiv:2605.15042，题为《EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration》。研究人员建议通过该编号查阅完整论文，以获取技术细节和实验数据。

瑞士联邦理工学院VITA实验室攻克

你是否见过AI生成的舞蹈视频：开局动作流畅，几秒后脸部扭曲、背景模糊、画面彻底失控？这并非偶然错误，而是当前人物动画技术普遍存在的结构性缺陷。EPFL团队提出的**EverAnimate**方法，能驱动AI稳定生成长达90秒甚至更久的人物动画，面部不变形、背景不崩塌——此前几乎无法实现。

要理解这一突破的含金量，需要先厘清问题的根源。

视频中的"记忆断层"：为何AI生成的人物逐渐丢失身份特征

现代AI生成视频本质上是"分块接力"：模型无法一次性输出一分钟的连续画面，只能先产出短片段（称为"chunk"），再将最后几帧传给下一轮作为起点，如此循环拼接成长视频。

问题出在接力环节。每次传递最后帧时，AI必须先将其从内部的压缩数字格式（即"潜在编码"，可理解为模型内部的抽象草图）解压为可视图像，再重新压缩回潜在编码供下一段使用。这个反复压缩-解压的过程类似复印：每复印一次，细节就会损失一层。经过十余次甚至二十余次迭代后，背景产生颗粒噪点，人脸模糊，色彩偏移——这被称为"低层次质量漂移"。

与此同时，还存在"身份特征遗忘"问题。AI每段生成都会参考原始图片以保持外貌一致，但随着段数增多，模型对"这个人到底长什么样"的记忆逐渐衰减：衣服色调悄然变化、脸型出现细微位移——这便是"高层次语义漂移"。

研究团队将这两种退化形象地概括为"画质腐蚀"和"身份迷失"。两者相互叠加，时长越长，崩塌越严重。如图1所示，现有方法在0秒时正常，60秒、90秒时人脸已面目全非，背景变为噪声斑块。

业界此前尝试了几种应对手段。第一种是"注意力锚点"（attention sink）：在每个片段生成时强行将原始参考图加入输入，让AI时刻"盯住"原版照片以保持身份一致性。第二种是"滑动窗口"：让相邻片段重叠一定区域以增强连贯性。第三种是"误差修正"：试图在生成过程中主动纠正累积错误。

然而EPFL团队通过严格分析发现，这些方法均为治标。注意力锚点确实有用，但它仅能告诉AI"你应该长成这样"，却无法告知"你现在偏了多少、如何纠正"。更关键的是，他们发现：即使AI的"注意力"已经完全集中在参考图上，生成的长视频依然持续劣化——说明问题本质不在于"AI没看参考图"，而是信息传递机制本身存在根本缺陷。

关键诊断：复印机效应与锚点局限

为定位病根，研究团队设计了一个极简实验。他们假设一种"理想状态"：AI在生成时完全无误差，对于视频中静止背景，每次输出完全相同的内容。如果在这种完美条件下视频依然退化，那么问题只能出在"接力传递"环节本身。

实验结果令人警醒：即便在理想条件下，随着接力次数增加，背景依然肉眼可见地劣化——色彩失真、细节丢失、图像模糊。这意味着，仅凭循环"解压-重压"操作，就足以摧毁视频质量，与AI是否犯错无关。

由此确立第一条原则：**绝对不能用"将上一段解压成图像再重新压缩"的方式传递信息**。信息必须全程在AI内部的潜在空间（压缩格式）中直接传递，不能经过任何图像解压步骤，就像传递一个密封的数据包，而不是打印文件再重新扫描。

第二条发现来自对"注意力锚点"机制的深度剖析。研究团队指出锚点失效的三大原因：第一，一张正面照无法提供人物侧身、低头、转身时的外貌特征，信息本身不全面；第二，处理长片段时，模型需要处理海量图像信息，单一参考图的信号容易被淹没；第三，最关键的是——锚点机制是被动的，它只说"应该这样"，没有能力检测"现在已偏离"并主动调整。好比告诉走钢丝者"你要保持平衡"，却不给平衡杆，也不提示身体往哪侧倾斜。

这两条诊断指向同一个解决方案：在AI的潜在空间内直接传递信息，同时赋予模型"主动纠偏"的能力——让它能识别生成过程中的偏移，并自动将轨迹拉回正轨。

EverAnimate的双核架构：记忆锁与轨道守卫

基于上述诊断，研究团队设计了EverAnimate，由两个互补机制构成。

第一个机制称为"持久潜在传播"（Persistent Latent Propagation，简称PLP）。核心思想是放弃"解压-重压"接力，直接在潜在空间中传递信息。具体实现上，它维护两种记忆。

一种是"短期动作记忆"：保持相邻片段间的运动连贯性。每段视频生成完毕后，研究人员不解压它，而是直接截取最后一小部分内部压缩数据作为下一段的起点。这如同接力赛中前一位选手直接传递实际运动状态，而非将终点状态翻译成文字再传。

另一种是"长期身份记忆"：专门记录人物外貌。团队从视频第一段中随机选取若干帧（通常为4帧），将其内部压缩数据保存为全程身份参考。这些参考帧会经过轻微的空间变换（随机平移和缩放），这一看似微小的操作解决了隐藏问题：若每次使用完全相同位置的参考图，模型会学会"空间捷径"——在固定位置复制参考图内容，而非真正理解人物外貌。加入随机变换后，模型必须真正理解"这是这个人的脸"，而非"这是这个位置的像素"。

第二个机制称为"恢复性流匹配"（Restorative Flow Matching，简称RFM）。这一机制更底层，需要先说明AI生成视频的基本原理。

AI生成视频的过程可用"雕刻"类比：初始状态是一团随机噪声（即未经处理的石块），模型通过反复运算逐步将其转化为清晰视频（雕刻出雕塑）。这个从噪声到清晰视频的"旅程"在数学上被描述为一条"轨迹"，每一步的运算方向被称为"速度向量"。

标准训练中，模型学会的是从纯净噪声出发，沿正确路径走到清晰视频。但长视频生成时，由于误差累积，模型面对的起点并非完全纯净，而是存在"偏移"的状态。标准训练并未教会模型处理这种偏斜起点，因此模型只会沿惯性前进，无法纠正偏移。

RFM的解决方案是：训练时故意向目标视频加入轻微扰动（如轻微色彩偏移、清晰度变化），然后要求模型不仅要"从噪声走到视频"，还要在发现自身偏离轨道时主动调整方向，将轨迹拉回清晰视频终点。这一调整在数学上表现为一个额外的"恢复速度项"，其作用是感知偏差、计算修正、施加拉力。

然而，实践发现恢复速度项存在数值稳定性问题：越靠近生成终点（视频即将成型时），理论修正力度趋向无穷大，导致训练崩溃。为此，团队设计了一个"钟形调度函数"来控制修正力度随时间的变化：在生成的中段修正力度最强；在起点（全是噪声时）和终点（视频基本成型时），修正力度自动减弱。这一设计符合直觉——当视频仍是一团噪声时，无法判断偏差角度，修正无意义；当视频即将完成时，大部分偏差已在中间环节得到纠正，无需强行拉扯，以免破坏已有成果。

值得注意的是，RFM与现有方法的根本区别在于"扰动施加位置"。有些方法（如SVI、Helios等）会选择扰动"输入条件"，即污染传入下一段的参考帧。而EverAnimate选择扰动"生成目标"，即污染当前段要生成的视频内容本身，同时保持传入的记忆信息完整干净。团队认为污染参考帧会在跨段传递时引入更多不稳定因素，而污染生成目标更精准地模拟了"当前段内部出现偏差"的场景，且不影响跨段记忆质量。

实际效果：从10秒到90秒，数字印证跨越

EverAnimate在实验中展现出显著改进，且改进幅度随视频长度增加而愈发突出——这正是针对长视频漂移问题的有力证明。

团队在Champ、UBC、Seedance等公开数据集以及自行收集的约2000条YouTube分钟级视频上进行训练，评测分别在10秒、30秒、60秒、90秒四个长度上进行。评测指标涵盖多维：帧级画质用PSNR（信噪比）和SSIM（结构相似度），感知相似度用LPIPS（感知损失），整体视觉分布质量用FID，视频语义质量用V-MAE（基于视频理解模型的特征距离），人脸区域单独用F-PSNR评估身份一致性。

与对比中性能最强的Wan-Animate相比，EverAnimate在10秒时的PSNR提升约8%，LPIPS降低约22%，FID降低约11%。到90秒时优势进一步扩大：PSNR提升约15%，LPIPS降低约32%，FID降低约27%。简言之，视频越长，EverAnimate的优势越明显，这与其设计目标完全吻合。

在对比的五个方法（One-to-All、SCAIL、SteadyDancer、UniAnimate-DiT、Wan-Animate）中，所有方法在超过30秒后均出现明显画质下滑，其中SCAIL和SteadyDancer在60秒时LPIPS已超过0.4，感知上已"面目全非"；而EverAnimate在90秒时LPIPS仍维持在0.22，接近Wan-Animate在10秒时的水平——换言之，EverAnimate在90秒处的质量，相当于其他方法在10秒处的水平。

消融实验（逐一拆除某个组件以测试其贡献）进一步验证了两个组件的独立价值。在60秒测试中，基础模型（无任何改进）的PSNR仅为18.47；仅加入PLP（不加RFM）时，PSNR提升至21.84，主要体现在跨段连贯性改善；仅加入RFM（不加PLP）时，PSNR提升至22.32，主要体现在帧内视觉质量改善；两者同时使用的完整模型，PSNR达到23.86，SSIM从0.543大幅提升至0.855，LPIPS从0.386降低至0.194。两个组件存在明显的协同效应，缺少任一都会导致性能显著下降。

工程实现：轻量、灵活、可落地

EverAnimate并非从头训练全新模型，而是在现有Wan-2.2-Animate模型上进行"后训练"（post-training）。这一策略的优势在于：既继承了原模型强大的视频生成能力，又只需训练少量额外参数，计算成本大幅降低。

具体而言，团队采用LoRA（低秩适应）轻量化微调技术。LoRA的原理可类比为"给一本厚重百科全书贴便利贴"：无需重写整本书，只需在关键位置贴上修正信息即可改变内容。在EverAnimate中，LoRA的秩（rank）和缩放系数均设为128，这是一个相对较大的配置，但与全参数微调相比，训练成本依然低得多。

训练分为两个阶段。第一阶段为"记忆适应"，持续4000步，使用8块GPU，让模型学会利用短期动作记忆和长期身份记忆生成视频。第二阶段为"抗漂移适应"，持续1000步，在第一阶段基础上加入恢复性流匹配训练，使模型获得主动纠偏能力。

在使用方式上，EverAnimate具有较高灵活性。用户可提供1到4张参考图片描述人物外貌，不限于单张。若仅提供1张参考图，系统会先用它生成第一段视频，然后自动从第一段中随机采样额外关键帧补全身份记忆——既满足身份记忆的多视角需求，又不强制用户事先准备多张照片。推理时使用20步采样，无需分类器引导（CFG），进一步提升了效率。

总而言之，EverAnimate解决的并非"AI能否生成好看视频"的问题，而是"AI能否持续稳定地生成好看视频"这一更具挑战性的命题。前者已被许多方法较好解决，后者才是真正横亘在分钟级人物动画前的障碍。通过将跨段信息传递从"图像解压重压"改为"潜在空间直传"，并让模型学会在生成过程中感知偏差并主动修正，EverAnimate在90秒长度上的质量达到了其他方法在10秒时的水平，意味着量级上的跨越。

当然，研究也存在值得关注的局限。论文中使用的自收集数据来自YouTube，数据质量和场景分布可能存在偏差。PSNR、SSIM等指标在摄像机运动与地面真实视频不一致时可靠性会下降，论文中已明确指出。此外，当前方案基于Wan-2.2-Animate这一特定底座模型，在其他架构上的适用性还需进一步验证。

对普通用户而言，EverAnimate所代表的技术方向意味着：未来想让AI生成一分钟的舞蹈视频，或让虚拟主播播报新闻，人物不再会在30秒后"变脸"、背景不再"融化"。这项技术距离消费级产品还有一段距离，但它清晰指明了解决方向，并展示了在现有硬件条件下可行的工程路径。下一个令人期待的突破会是什么？或许是更长时间的稳定生成、更自然的多人场景、或实时生成能力——这些都已不再是遥不可及的科幻，而是可预见的技术路线上稳步推进的工程目标。

Q&A

Q1：EverAnimate与普通人物动画AI的核心差异是什么？

普通人物动画AI通常仅能稳定生成数秒至十几秒的视频，时间一长就会出现人脸变形、背景崩溃。EverAnimate通过两大机制解决此问题：一是在潜在空间内直接传递压缩信息，避免反复解压重压造成的质量损失；二是训练模型在生成过程中主动感知并修正偏差。这使得它在90秒长视频上仍能保持其他方法10秒时的画质水平。

Q2：使用EverAnimate需要准备多少张参考图？

EverAnimate设计上支持1到4张参考图。若仅提供1张，系统会先用它生成第一段视频，然后自动从第一段中采样额外关键帧补全身份记忆，无需用户额外准备多角度照片。提供更多参考图（如正面、侧面等多角度）通常可进一步提升长视频中人物外貌的一致性。

Q3：EverAnimate是完全重新训练的新模型吗？

不是。EverAnimate在现有Wan-2.2-Animate模型基础上进行轻量化"后训练"，采用LoRA技术仅训练少量参数，无需重新训练整个模型。整个训练分两阶段，总计约5000步，使用8块GPU完成，计算成本远低于从头训练全新模型。

来源：互联网

上一篇 轻薄与性能兼顾！联想YOGA Air 14 Ultra Aura评测 下一篇 iOS 26.3 Beta 2评测：跨系统换机痛点解决

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

瑞士理工VITA实验室破解视频人物崩坏 分钟级动画突破

摘要