菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 瑞士理工VITA实验室破解视频人物崩坏 分钟级动画突破
其他资讯 分钟级动画突破

瑞士理工VITA实验室破解视频人物崩坏 分钟级动画突破

2026-06-02
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

这项由瑞士联邦理工学院(EPFL)VITA实验室主导的研究于2026年5月以预印本形式发布,论文

这项由瑞士联邦理工学院(EPFL)VITA实验室主导的研究于2026年5月以预印本形式发布,论文编号arXiv:2605.15042,题为《EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration》。研究人员建议通过该编号查阅完整论文,以获取技术细节和实验数据。

瑞士联邦理工学院VITA实验室攻克

你是否见过AI生成的舞蹈视频:开局动作流畅,几秒后脸部扭曲、背景模糊、画面彻底失控?这并非偶然错误,而是当前人物动画技术普遍存在的结构性缺陷。EPFL团队提出的**EverAnimate**方法,能驱动AI稳定生成长达90秒甚至更久的人物动画,面部不变形、背景不崩塌——此前几乎无法实现。

要理解这一突破的含金量,需要先厘清问题的根源。

视频中的"记忆断层":为何AI生成的人物逐渐丢失身份特征

现代AI生成视频本质上是"分块接力":模型无法一次性输出一分钟的连续画面,只能先产出短片段(称为"chunk"),再将最后几帧传给下一轮作为起点,如此循环拼接成长视频。

问题出在接力环节。每次传递最后帧时,AI必须先将其从内部的压缩数字格式(即"潜在编码",可理解为模型内部的抽象草图)解压为可视图像,再重新压缩回潜在编码供下一段使用。这个反复压缩-解压的过程类似复印:每复印一次,细节就会损失一层。经过十余次甚至二十余次迭代后,背景产生颗粒噪点,人脸模糊,色彩偏移——这被称为"低层次质量漂移"。

与此同时,还存在"身份特征遗忘"问题。AI每段生成都会参考原始图片以保持外貌一致,但随着段数增多,模型对"这个人到底长什么样"的记忆逐渐衰减:衣服色调悄然变化、脸型出现细微位移——这便是"高层次语义漂移"。

研究团队将这两种退化形象地概括为"画质腐蚀"和"身份迷失"。两者相互叠加,时长越长,崩塌越严重。如图1所示,现有方法在0秒时正常,60秒、90秒时人脸已面目全非,背景变为噪声斑块。

业界此前尝试了几种应对手段。第一种是"注意力锚点"(attention sink):在每个片段生成时强行将原始参考图加入输入,让AI时刻"盯住"原版照片以保持身份一致性。第二种是"滑动窗口":让相邻片段重叠一定区域以增强连贯性。第三种是"误差修正":试图在生成过程中主动纠正累积错误。

然而EPFL团队通过严格分析发现,这些方法均为治标。注意力锚点确实有用,但它仅能告诉AI"你应该长成这样",却无法告知"你现在偏了多少、如何纠正"。更关键的是,他们发现:即使AI的"注意力"已经完全集中在参考图上,生成的长视频依然持续劣化——说明问题本质不在于"AI没看参考图",而是信息传递机制本身存在根本缺陷。

关键诊断:复印机效应与锚点局限

为定位病根,研究团队设计了一个极简实验。他们假设一种"理想状态":AI在生成时完全无误差,对于视频中静止背景,每次输出完全相同的内容。如果在这种完美条件下视频依然退化,那么问题只能出在"接力传递"环节本身。

实验结果令人警醒:即便在理想条件下,随着接力次数增加,背景依然肉眼可见地劣化——色彩失真、细节丢失、图像模糊。这意味着,仅凭循环"解压-重压"操作,就足以摧毁视频质量,与AI是否犯错无关。

由此确立第一条原则:**绝对不能用"将上一段解压成图像再重新压缩"的方式传递信息**。信息必须全程在AI内部的潜在空间(压缩格式)中直接传递,不能经过任何图像解压步骤,就像传递一个密封的数据包,而不是打印文件再重新扫描。

第二条发现来自对"注意力锚点"机制的深度剖析。研究团队指出锚点失效的三大原因:第一,一张正面照无法提供人物侧身、低头、转身时的外貌特征,信息本身不全面;第二,处理长片段时,模型需要处理海量图像信息,单一参考图的信号容易被淹没;第三,最关键的是——锚点机制是被动的,它只说"应该这样",没有能力检测"现在已偏离"并主动调整。好比告诉走钢丝者"你要保持平衡",却不给平衡杆,也不提示身体往哪侧倾斜。

这两条诊断指向同一个解决方案:在AI的潜在空间内直接传递信息,同时赋予模型"主动纠偏"的能力——让它能识别生成过程中的偏移,并自动将轨迹拉回正轨。

EverAnimate的双核架构:记忆锁与轨道守卫

基于上述诊断,研究团队设计了EverAnimate,由两个互补机制构成。

第一个机制称为"持久潜在传播"(Persistent Latent Propagation,简称PLP)。核心思想是放弃"解压-重压"接力,直接在潜在空间中传递信息。具体实现上,它维护两种记忆。

一种是"短期动作记忆":保持相邻片段间的运动连贯性。每段视频生成完毕后,研究人员不解压它,而是直接截取最后一小部分内部压缩数据作为下一段的起点。这如同接力赛中前一位选手直接传递实际运动状态,而非将终点状态翻译成文字再传。

另一种是"长期身份记忆":专门记录人物外貌。团队从视频第一段中随机选取若干帧(通常为4帧),将其内部压缩数据保存为全程身份参考。这些参考帧会经过轻微的空间变换(随机平移和缩放),这一看似微小的操作解决了隐藏问题:若每次使用完全相同位置的参考图,模型会学会"空间捷径"——在固定位置复制参考图内容,而非真正理解人物外貌。加入随机变换后,模型必须真正理解"这是这个人的脸",而非"这是这个位置的像素"。

第二个机制称为"恢复性流匹配"(Restorative Flow Matching,简称RFM)。这一机制更底层,需要先说明AI生成视频的基本原理。

AI生成视频的过程可用"雕刻"类比:初始状态是一团随机噪声(即未经处理的石块),模型通过反复运算逐步将其转化为清晰视频(雕刻出雕塑)。这个从噪声到清晰视频的"旅程"在数学上被描述为一条"轨迹",每一步的运算方向被称为"速度向量"。

标准训练中,模型学会的是从纯净噪声出发,沿正确路径走到清晰视频。但长视频生成时,由于误差累积,模型面对的起点并非完全纯净,而是存在"偏移"的状态。标准训练并未教会模型处理这种偏斜起点,因此模型只会沿惯性前进,无法纠正偏移。

RFM的解决方案是:训练时故意向目标视频加入轻微扰动(如轻微色彩偏移、清晰度变化),然后要求模型不仅要"从噪声走到视频",还要在发现自身偏离轨道时主动调整方向,将轨迹拉回清晰视频终点。这一调整在数学上表现为一个额外的"恢复速度项",其作用是感知偏差、计算修正、施加拉力。

然而,实践发现恢复速度项存在数值稳定性问题:越靠近生成终点(视频即将成型时),理论修正力度趋向无穷大,导致训练崩溃。为此,团队设计了一个"钟形调度函数"来控制修正力度随时间的变化:在生成的中段修正力度最强;在起点(全是噪声时)和终点(视频基本成型时),修正力度自动减弱。这一设计符合直觉——当视频仍是一团噪声时,无法判断偏差角度,修正无意义;当视频即将完成时,大部分偏差已在中间环节得到纠正,无需强行拉扯,以免破坏已有成果。

值得注意的是,RFM与现有方法的根本区别在于"扰动施加位置"。有些方法(如SVI、Helios等)会选择扰动"输入条件",即污染传入下一段的参考帧。而EverAnimate选择扰动"生成目标",即污染当前段要生成的视频内容本身,同时保持传入的记忆信息完整干净。团队认为污染参考帧会在跨段传递时引入更多不稳定因素,而污染生成目标更精准地模拟了"当前段内部出现偏差"的场景,且不影响跨段记忆质量。

实际效果:从10秒到90秒,数字印证跨越

EverAnimate在实验中展现出显著改进,且改进幅度随视频长度增加而愈发突出——这正是针对长视频漂移问题的有力证明。

团队在Champ、UBC、Seedance等公开数据集以及自行收集的约2000条YouTube分钟级视频上进行训练,评测分别在10秒、30秒、60秒、90秒四个长度上进行。评测指标涵盖多维:帧级画质用PSNR(信噪比)和SSIM(结构相似度),感知相似度用LPIPS(感知损失),整体视觉分布质量用FID,视频语义质量用V-MAE(基于视频理解模型的特征距离),人脸区域单独用F-PSNR评估身份一致性。

与对比中性能最强的Wan-Animate相比,EverAnimate在10秒时的PSNR提升约8%,LPIPS降低约22%,FID降低约11%。到90秒时优势进一步扩大:PSNR提升约15%,LPIPS降低约32%,FID降低约27%。简言之,视频越长,EverAnimate的优势越明显,这与其设计目标完全吻合。

在对比的五个方法(One-to-All、SCAIL、SteadyDancer、UniAnimate-DiT、Wan-Animate)中,所有方法在超过30秒后均出现明显画质下滑,其中SCAIL和SteadyDancer在60秒时LPIPS已超过0.4,感知上已"面目全非";而EverAnimate在90秒时LPIPS仍维持在0.22,接近Wan-Animate在10秒时的水平——换言之,EverAnimate在90秒处的质量,相当于其他方法在10秒处的水平。

消融实验(逐一拆除某个组件以测试其贡献)进一步验证了两个组件的独立价值。在60秒测试中,基础模型(无任何改进)的PSNR仅为18.47;仅加入PLP(不加RFM)时,PSNR提升至21.84,主要体现在跨段连贯性改善;仅加入RFM(不加PLP)时,PSNR提升至22.32,主要体现在帧内视觉质量改善;两者同时使用的完整模型,PSNR达到23.86,SSIM从0.543大幅提升至0.855,LPIPS从0.386降低至0.194。两个组件存在明显的协同效应,缺少任一都会导致性能显著下降。

工程实现:轻量、灵活、可落地

EverAnimate并非从头训练全新模型,而是在现有Wan-2.2-Animate模型上进行"后训练"(post-training)。这一策略的优势在于:既继承了原模型强大的视频生成能力,又只需训练少量额外参数,计算成本大幅降低。

具体而言,团队采用LoRA(低秩适应)轻量化微调技术。LoRA的原理可类比为"给一本厚重百科全书贴便利贴":无需重写整本书,只需在关键位置贴上修正信息即可改变内容。在EverAnimate中,LoRA的秩(rank)和缩放系数均设为128,这是一个相对较大的配置,但与全参数微调相比,训练成本依然低得多。

训练分为两个阶段。第一阶段为"记忆适应",持续4000步,使用8块GPU,让模型学会利用短期动作记忆和长期身份记忆生成视频。第二阶段为"抗漂移适应",持续1000步,在第一阶段基础上加入恢复性流匹配训练,使模型获得主动纠偏能力。

在使用方式上,EverAnimate具有较高灵活性。用户可提供1到4张参考图片描述人物外貌,不限于单张。若仅提供1张参考图,系统会先用它生成第一段视频,然后自动从第一段中随机采样额外关键帧补全身份记忆——既满足身份记忆的多视角需求,又不强制用户事先准备多张照片。推理时使用20步采样,无需分类器引导(CFG),进一步提升了效率。

总而言之,EverAnimate解决的并非"AI能否生成好看视频"的问题,而是"AI能否持续稳定地生成好看视频"这一更具挑战性的命题。前者已被许多方法较好解决,后者才是真正横亘在分钟级人物动画前的障碍。通过将跨段信息传递从"图像解压重压"改为"潜在空间直传",并让模型学会在生成过程中感知偏差并主动修正,EverAnimate在90秒长度上的质量达到了其他方法在10秒时的水平,意味着量级上的跨越。

当然,研究也存在值得关注的局限。论文中使用的自收集数据来自YouTube,数据质量和场景分布可能存在偏差。PSNR、SSIM等指标在摄像机运动与地面真实视频不一致时可靠性会下降,论文中已明确指出。此外,当前方案基于Wan-2.2-Animate这一特定底座模型,在其他架构上的适用性还需进一步验证。

对普通用户而言,EverAnimate所代表的技术方向意味着:未来想让AI生成一分钟的舞蹈视频,或让虚拟主播播报新闻,人物不再会在30秒后"变脸"、背景不再"融化"。这项技术距离消费级产品还有一段距离,但它清晰指明了解决方向,并展示了在现有硬件条件下可行的工程路径。下一个令人期待的突破会是什么?或许是更长时间的稳定生成、更自然的多人场景、或实时生成能力——这些都已不再是遥不可及的科幻,而是可预见的技术路线上稳步推进的工程目标。


Q&A

Q1:EverAnimate与普通人物动画AI的核心差异是什么?

普通人物动画AI通常仅能稳定生成数秒至十几秒的视频,时间一长就会出现人脸变形、背景崩溃。EverAnimate通过两大机制解决此问题:一是在潜在空间内直接传递压缩信息,避免反复解压重压造成的质量损失;二是训练模型在生成过程中主动感知并修正偏差。这使得它在90秒长视频上仍能保持其他方法10秒时的画质水平。

Q2:使用EverAnimate需要准备多少张参考图?

EverAnimate设计上支持1到4张参考图。若仅提供1张,系统会先用它生成第一段视频,然后自动从第一段中采样额外关键帧补全身份记忆,无需用户额外准备多角度照片。提供更多参考图(如正面、侧面等多角度)通常可进一步提升长视频中人物外貌的一致性。

Q3:EverAnimate是完全重新训练的新模型吗?

不是。EverAnimate在现有Wan-2.2-Animate模型基础上进行轻量化"后训练",采用LoRA技术仅训练少量参数,无需重新训练整个模型。整个训练分两阶段,总计约5000步,使用8块GPU完成,计算成本远低于从头训练全新模型。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多