其他资讯 AI视频

清华人大开源可控AI视频世界模型加速框架

2026-06-03

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

由清华大学、中国人民大学等联合提出的minWM开源框架，将AI视频模型改造为支持实时交互

先说几个核心结论。AI视频生成在过去两年迭代极快，视觉质量突飞猛进，但要实现真正可交互、能实时响应操作的高效闭环，大多数模型还有明显短板。最近，清华大学、中国人民大学、香港科技大学与德克萨斯大学奥斯汀分校组成的联合团队，针对这一缺口提交了一项工作——开源框架minWM，旨在将那些只能“闭门造车”的视频生成模型，改造为具备实时生成与可操控能力的“视频世界模型”。该论文编号为arXiv:2605.30263v1，发布于2026年5月28日，生数科技（ShengShu）团队提供了关键的产业侧支持。有意深入研究的读者可直接在arXiv检索此编号查阅全文。

清华、人大联合发布：让AI视频世界模型既快又可控，开源框架minWM实现双向突破

一、让AI“导演”实时操控镜头的愿景

你可能在游戏中体验过这样的场景：推动摇杆，镜头平滑左移，虚拟世界随之流畅展开。这种沉浸感背后，两个关键要素缺一不可——镜头响应速度与画面无卡顿。如果把场景换成由AI实时生成的视频，你就能理解minWM试图解决的核心难题。

近年来，AI视频生成模型进步显著，产出的画面精美、时序连贯。但这些模型有一个根本性“职业病”：它们像只拍长片的导演，必须等整段视频全部渲染完毕才能交付，无法边生成边播放，更不用说根据实时指令调整视角。擅长“创作”，却对“互动”力不从心。

于是，一个自然的问题浮现：能否将高质量AI视频模型，改造成能实时交互、实时响应镜头控制的“视频世界模型”？minWM正是为了回答这个问题而设计的开源框架。

二、从“画卷”到“实时直播”——改造AI导演的难度

要理解minWM的方案，必须先搞清楚现有AI视频模型的运作方式，以及改造过程中的真实瓶颈。

当下主流AI视频生成模型，技术上属于“双向扩散模型”。打个比方：这类模型像一位必须先在脑中勾勒全局才落笔的画家，动笔前已想好整幅画的每一个细节。因为能“前后参照”整段视频的所有帧，所以画质极高。但代价也很明确——必须等整幅画完成才能看到结果。在一张A800显卡上，生成一段视频的首帧延迟高达771秒，约13分钟。对于实时交互场景，这个速度显然不可接受。

要实现实时互动，模型必须转向“自回归”工作方式——像说话一样，一帧接一帧向前生成，生成完立刻输出，无需等待全集完成。这样用户就能边看边操控。然而转型并不容易。模型一旦失去“前后参照”能力，生成质量会大幅下滑，还会遭遇“暴露偏差”：训练时模型看到的是真实帧，推理时却要依赖自己刚刚生成的帧作为输入，两者差异随时间累积，导致视频质量逐帧衰退，甚至画面漂移。

此外，即使模型已改为自回归方式，如果每帧仍需几十步去噪计算，延迟依然无法忍受。因此还需对模型“提速”，让它只需极少步骤（例如4步）就能生成一帧——这个过程被称为“少步蒸馏”。

把这些挑战叠加起来：你需要精准标注相机参数的数据，需要对模型做可控性微调，要做自回归训练，要做少步蒸馏，还要优化推理效率。在此之前，业界没有一个统一、开源、可复现的框架能把这些环节串联。minWM填补的正是这个空白。

三、一条完整的“改造流水线”——minWM的工作原理

minWM的设计思路，可比作一家汽车改装厂的标准流程。原始的双向视频扩散模型，就像一辆性能出色但只适合赛道的赛车——外观炫酷、马力强劲，却完全不适合日常道路上的实时驾驶互动。改装厂的任务，就是把它变成一辆既好看、又能实时响应方向盘操控、还能高速行驶的智能汽车。

整个改造分两大阶段。第一阶段给模型装上“镜头控制系统”；第二阶段把模型的工作方式从“慢速全局计算”改为“快速实时生成”。

第一阶段核心：PRoPE（射影相对位置编码）

相机控制的本质，是告诉模型“摄像机在哪里、朝哪里看、镜头焦距是多少”，然后让模型据此生成对应视角的画面。PRoPE的做法：将每一帧的相机参数——包括内参矩阵（决定镜头焦距和畸变）和外参矩阵（决定相机空间位置与朝向）——编码成一种特殊的数学变换矩阵，然后注入到模型的自注意力机制中。自注意力机制是模型处理视频帧时“思考各帧之间关系”的核心模块。通过这种注入，模型在“思考”任意两帧关系时，会自动考虑这两帧对应的相机视角差异，从而学会根据相机轨迹生成视频。这套方案的巧妙之处在于：它不改变模型原有的注意力结构，只是在计算注意力时引入了相机信息，因此保留了原始模型的全部生成能力。

第二阶段：三个关键步骤

研究团队将第二阶段命名为“因果强制”或“因果强制++”（Causal Forcing++），流程由三个步骤串联。

第一步：自回归扩散训练。从上一阶段得到的具有相机控制能力的双向模型出发，通过“teacher forcing”训练方式，将其改造成自回归扩散模型。具体操作：将干净视频帧与加噪视频帧拼接，训练时使用因果注意力掩码——模型在生成第N帧时只能看到第N帧之前的内容，无法偷看未来帧。经过这一步，模型具备了自回归生成能力，能一帧接一帧向前生成视频。不过此时每帧仍需多步去噪，速度还不够快，且由于暴露偏差，生成质量低于双向模型。

第二步：初始化少步模型。这里有两种可选方案。方案一叫“因果ODE初始化”：让上一步训练好的自回归扩散模型对大量视频帧生成完整的去噪轨迹（PF-ODE轨迹），然后在这些轨迹数据上训练一个少步模型，使其能从加噪中间帧直接“跳跃”到干净帧，跳过大量中间去噪步骤。方案二叫“因果一致性蒸馏（Causal CD）”：既然方案一需要大量预先生成ODE数据，既耗时又占存储，因果强制++提出一个理论等价的替代方案——直接通过一致性条件在线训练，无需离线生成ODE轨迹。具体来说，让当前模型预测结果与经过一步ODE推进后再用EMA（指数移动平均）版本模型预测的结果保持一致，同时配合时间步相关权重函数和距离度量来约束训练。两种方案最终效果等价，后者在工程上更高效。

第三步：非对称分布匹配蒸馏（Asymmetric DMD）。经过前两步，模型已能少步自回归生成，但由于蒸馏过程中的“老师”是质量有限的自回归模型，学生继承了老师的局限性，生成质量与原始双向模型仍有差距。这一步的作用：让少步自回归模型向原始高质量双向模型“对齐”。具体机制：让少步学生模型自主展开生成一段完整视频，然后对生成的视频加入噪声，分别用一个冻结的双向模型（代表“真实数据分布的评分”）和一个在线更新的判别模型（代表“当前生成分布的评分”）来估算两个分布之间的差异，并以此梯度指导学生模型的参数更新。本质上，就像让学徒不断临摹大师的风格，而非仅依赖中等老师的指导——最终学徒的作品质量会向大师靠拢。

值得一提的是，整个蒸馏流程对相机控制完全透明。无论第一步的自回归训练，第二步的ODE数据生成或一致性蒸馏，还是第三步的分布对齐，所有阶段都在带有相机条件的数据上进行，所有参与模型都具备相机条件能力，确保相机控制能力在整个蒸馏过程中得以保留，不会流失。

四、两个实例——将理论变成可落地的模型

研究团队选取了两个代表性的开源视频基础模型作为改造对象：Wan2.1-T2V-1.3B（文本到视频，13亿参数）和HY1.5-TI2V-8B（文本加图像到视频，80亿参数）。选择这两个模型有其深意：前者采用交叉注意力机制注入条件信息，后者采用MMDiT架构（将文本和图像特征在同一Transformer中联合处理），两种架构恰好代表当前主流视频扩散模型的两大设计路线，也能证明minWM框架的架构通用性。

训练设置上，两个模型均被训练生成分辨率为480×832像素、共77帧的视频，自回归的“块大小”设为4个潜在帧（潜在帧是视频经编码器压缩后的紧凑表示）。少步蒸馏统一使用4步推理。HY1.5系列训练采用批大小32、学习率1×10⁻⁴，双向模型训练8000步，随后依次进行4000步、1500步、500步的三阶段蒸馏。Wan2.1系列采用批大小32、学习率2×10⁻⁴，双向模型训练5000步，随后进行4000步、2000步、200步的三阶段蒸馏。

改造完成后的性能提升令人印象深刻。在单张A800显卡上测量首帧延迟（从开始运行到生成出第一帧画面所需的时间，不含VAE解码时间），原始HY1.5双向模型需要771秒，改造成多步自回归模型后降至81秒，而最终的少步自回归模型仅需3.446秒——相比原始双向模型，实现了223.75倍加速。Wan2.1同样出色：原始双向模型需要269秒，多步自回归版本降至28.6秒，最终少步自回归版本仅需1.137秒，加速比达到236.64倍。

这里需要解释一个关键点：双向模型之所以首帧延迟极高，是因为它必须先生成全段视频才能给你第一帧。而自回归模型生成完第一帧就立刻输出，后续帧在你观看第一帧的同时继续生成。因此在实际应用中，自回归模型的用户体验改善远不止数字所体现的倍数——它让“边生成边观看”真正成为可能。

五、数据是成败的关键——三种路线的对比实验

模型能否学会根据相机指令生成正确视角的画面，数据质量起决定性作用。研究团队在训练数据选择上做了大量实验，总结出三条路线，每条路线的结果差异显著。

第一条路线：使用SpatialVid数据集。该数据集包含大量带有相机参数标注的视频，但这些相机参数是通过计算机视觉算法从视频中“感知估算”出来的，并非真实测量值。实验结果令团队失望：无论是HY1.5还是Wan2.1，在这份数据上训练的模型都无法可靠执行相机控制指令，即便经过额外数据过滤，问题依然存在。这很可能是因为感知估算的相机姿态本身含有噪声，且轨迹不一致，让模型难以从中找到清晰的对应关系。需要说明的是，这个结论仅针对当前训练设置，并不意味着SpatialVid数据集本身没有价值——更精细的过滤和姿态优化或许能改善，团队也将其列为后续工作。

第二条路线：从DL3DV数据集出发，通过三维重建和重新渲染获得视频数据。DL3DV是一个大规模真实场景数据集。研究团队先通过三维重建技术从中重建出三维场景，然后沿预设相机轨迹渲染视频。这条路线的好处显而易见：渲染出的视频和对应相机参数是完全精确的“地面真值”，无任何估算误差。实验证明，在这份数据上训练的模型能够成功学会相机可控生成，效果相当不错。

第三条路线：为开源版本专门设计的方案。从OpenVid等图像数据集中采样图像，然后利用WorldPlay（一个已有的视频世界模型）根据指定相机轨迹生成视频。由于WorldPlay本身是具有几何一致性的视频生成系统，其输出的视频也具有可信赖的地面真值相机轨迹。实验表明，这条路线同样能让模型学会相机可控生成，且更适合开源场景——它不需要复杂的三维重建流程。

六、训练步数与批大小——两个影响成功的关键细节

除了数据质量，研究团队还做了两组非常实用的消融实验，给出了训练步数和最小批大小的具体建议。对于想要复现或迁移这项工作的研究者来说，这些细节具有直接参考价值。

关于训练步数。以HY1.5为例，团队观察到，相机可控性是逐步涌现的。仅训练一两千步时，模型几乎完全不响应相机控制指令，生成画面与相机轨迹毫无关联。到五千步左右，模型开始能响应相机信号，但表现仍不稳定，时好时坏。而当训练推进到八千步时，模型达到了强可控性，能够可靠、稳定地根据相机轨迹生成正确视角的视频。这说明，相机可控性的学习并非一蹴而就，需要足够多的训练轮次让模型真正内化这一能力。

关于批大小。以Wan2.1为例，团队发现这是一个不能随意缩减的超参数。当批大小小于4时，模型很难学会相机可控性，几乎必然失败。当批大小提升到8时，可控性大幅改善，但仍然不够稳定。只有当批大小达到16时，完整训练流程才能顺利完成，并获得高质量的相机可控性。这个结果对于计算资源有限的研究者来说，是一个非常实用的下限指标：至少需要16的批大小才能保证成功。

七、不只是一个新模型，而是一套可复用的工具箱

minWM的定位与一般论文有所不同。大多数视频生成论文的核心是展示单一最优模型的生成成果，而minWM的目标是提供一套可复用、可扩展的完整工具链。这一点体现在多个具体方面。

研究团队发布了每个训练阶段的中间检查点，而不只是最终模型。这意味着其他研究者可以从任意中间阶段接力，无需重新从头训练整条流水线，大幅降低了计算成本。同时，推理代码、训练脚本和使用文档一并开源，确保论文结果可独立复现。

框架还支持对已有的视频世界模型进行适配，而不仅仅是从零开始转换。以HY-WorldPlay为例，minWM支持将这类现成的视频世界模型迁移到新的数据分布、调整训练配方，或进一步压缩到更低推理延迟。也就是说，即使某个研究团队已经训练好一个视频世界模型，也可以借助minWM的蒸馏流程将其改造得更快、更灵活，无需重复上游的大量工作。

在推理端，minWM也做了相应的工程优化，包括针对流式场景的DiT去噪和VAE解码的流水线设计。VAE（变分自编码器）负责将潜在空间的视频表示解码为可见像素画面，在流式推理中需要与扩散去噪步骤并行或交织进行，才能实现视频边生成边播放的效果。

归根结底，这项研究最大的贡献，不是某一个更强的视频模型，而是将过去散落在各处的技术拼图——数据构建、相机控制、自回归训练、少步蒸馏、流式推理——第一次系统地组装成一条完整且开源的生产线。这样一来，更多研究者可以站在这条生产线的基础上继续往前走，而不是每次都从零开始重建。

当然，这项工作也有明确的局限性和未尽之处。目前支持的控制条件只有相机运动，未来团队计划引入更多控制维度，例如人体姿态控制。同时，基于感知估算相机姿态的数据（如SpatialVid）在当前设置下效果欠佳的问题，也留待后续研究通过更精细的数据处理来解决。这些开放问题本身，也构成了这篇论文留给社区的研究空间。

可以确定的是，对于那些希望探索交互式视频生成、视频世界模型或具身智能应用的研究者来说，minMW提供了一个难得的开放起点。有兴趣深入了解技术细节的读者，可通过arXiv编号2605.30263查阅完整论文，或访问研究团队在GitHub上发布的代码仓库。

Q&A

Q1：minWM框架和普通AI视频生成模型有什么区别？

A：普通AI视频生成模型需要把整段视频全部算完才能输出，速度极慢，也无法实时互动。minWM框架的目标是将这类模型改造成能一帧接一帧实时生成、同时响应相机控制指令的“互动式世界模型”，最终在单张A800显卡上，首帧延迟从十多分钟压缩到几秒钟。

Q2：训练minWM框架里的模型，对数据有什么特殊要求？

A：相机参数的精准度非常关键。研究发现，使用感知算法估算的相机参数（如SpatialVid数据）训练效果很差，模型学不会相机控制。需要使用“地面真值”相机轨迹——例如通过三维重建后重新渲染视频，或用WorldPlay等已有世界模型生成的视频——才能让模型可靠地学会相机可控生成。

Q3：minWM蒸馏流程的三个阶段分别解决什么问题？

A：第一阶段将双向模型改成自回归模型，解决“边生成边输出”的问题；第二阶段做少步初始化，把每帧需要多步去噪压缩到极少步数，解决速度问题；第三阶段用原始高质量双向模型做分布对齐，弥补前两步导致的质量损失，让最终少步自回归模型的画质尽量接近原始模型。

来源：互联网

上一篇 Anthropic秘密提交美股IPO 估值近万亿美元或成2025最大IPO 下一篇 工业富联市值超越贵州茅台，A股风向已变？2025年最新排名榜单揭晓

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。