首页 > 资讯 > 视频生成到世界模型：空间智能技术演进排行榜

其他资讯世界模型视频生成到世界模型

视频生成到世界模型：空间智能技术演进排行榜

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

视频生成向世界模型演化经历了真实性、交互性、规划性和随机性四个阶段，逐步实现从表

引言

人工智能正站在一个关键的岔路口上。大语言模型已经能将文字处理得行云流水，也能生成代码、回答问题，但人们正逐渐意识到一个根本性的问题：这些模型虽然能说会道，却对物理世界缺乏真正的感知。它们活在纯粹的符号世界里，既无法理解空间，也不懂物理规律，更谈不上预测真实世界会如何演化。

这正是李飞飞教授点出的核心问题。她在最近发表的长文中明确强调：空间智能是AI的下一个前沿。而实现空间智能的关键路径，就是构建那些能够理解、模拟并预测物理世界的世界模型。

视频生成技术的快速发展，恰恰为构建世界模型提供了一条独特而有力的路径。从最初只能生成几秒钟的模糊片段，到如今能创造出物理上合理、甚至可交互的虚拟环境，视频生成模型正经历一场深刻的范式转变。这不仅仅是画质的提升，更是从表面模拟到深层理解的质变。

接下来，我们会系统梳理从视频生成到世界模型的演化历程，深入探讨背后的技术原理、发展脉络和未来方向，希望能帮助大家全面理解这个领域的核心内容与实现路径。

1. 理解世界模型的本质

1.1 什么是世界模型

世界模型这个概念其实并不新鲜，但在AI领域，它的内涵正在被重新定义。传统意义上，世界模型指的是能模拟环境动态、支持智能体做决策的系统。不过，在视频生成的语境下，世界模型有了更丰富、更具体的内涵。

从技术角度看，基于视频生成的世界模型可以理解为两个核心组件的结合：隐式世界模型和视频渲染器。世界模型负责编码关于世界的结构化知识，包括物理定律、交互动力学和智能体行为，它像一个潜在的模拟引擎，支撑着连贯的视觉推理、长期的时间一致性以及目标驱动的规划。而视频渲染器，负责把这种潜在模拟转化为真实的视觉观测结果——简单来说，就是把视频当作窥探模拟世界的那扇窗。

这种双重结构的设计，背后有深刻的认知科学支撑。人类和动物正是通过视觉来感知和理解世界的。视觉流不仅传递空间布局和物体属性，还编码了对预测和规划至关重要的时间动力学和因果关系。即便是最复杂的3D或4D模拟，最终也需要渲染成视频或图像才能被解读。这种对视觉表征的内在依赖，使得视频生成成为构建世界模型的一种很自然、信息量也很丰富的基础。

1.2 世界模型与数字孪生的区别

聊到世界模型，很多人容易把它等同于数字孪生。实际上，两者有本质区别。

数字孪生强调的是对特定真实世界实例的精确复制。比如，一个工厂的数字孪生系统会精确模拟这家工厂的每一台设备、每一个流程，力求与现实一一对应。它的目标是忠实再现，用来监控、预测和优化特定系统的运行。

而世界模型强调的是分布真实性，也就是能模拟多样化、物理上合理但语义各异的世界。世界模型不是复制某个特定场景，而是学习支配世界运行的普遍规律。它能泛化到从未见过的场景，生成符合物理定律但内容全新的环境。这种能力让世界模型超越忠实再现，支持更多创造性的应用。

举个具体的例子：一个厨房的数字孪生会精确复制你家厨房的布局、设备和状态；而一个世界模型则理解厨房这个抽象概念本身，理解重力如何作用于物体、水怎么流、火如何加热，它可以生成无数种不同风格、不同布局的厨房，但都遵循相同的物理规律。

1.3 世界模型的形式化定义

从数学角度，我们可以把世界模型形式化成一个函数映射过程。给定多模态输入空间M（包括文本提示、图像、视频片段、音频信号、动作序列等），世界模型G把这些输入映射到可观测的视频帧序列V。这个过程可以表示为：

这是一个随机生成过程，因为真实世界本身就带有不确定性和随机性。

深入一点看，这个生成过程可以分解为两个阶段。首先，世界模型维护一个潜在表征Z，以及一个转移函数T，它捕捉模型内化的世界知识，包括动力学、物体可用性、智能体意图等。给定当前状态和输入，转移函数计算下一个潜在状态：

然后，视频渲染器R把这些内部世界状态转换为像素级或感知级输出：

这种分解在概念上很清晰，但在实践中，世界模型的内部状态往往是隐式的。也就是说，视频生成过程依然表现为从输入到输出视频的单一整体映射，我们没法直接观察或操作中间的潜在状态。

1.4 世界模型与马尔可夫决策过程的联系

从强化学习的视角看，世界模型与马尔可夫决策过程中的环境动力学有着相同的功能作用。这种联系为我们理解世界模型提供了另一个重要角度。

在训练过程中，模型暴露于大规模多视角和多时间的数据，可以近似一个完全可观测的环境，其中潜在世界状态是已知的。因此，学习到的转移函数，行为类似于完全可观测MDP中的环境转移函数，形成一种客观的世界先验。

但在推理过程中，模型只接收部分条件信号，对应的是对真实潜在状态的部分观测。所以，生成过程与部分可观测MDP是一致的。这种双重解释调和了客观性与主观性之间的矛盾：训练过程注入客观的物理知识，而推理过程则基于学到的先验进行主观推理。

这个框架明确了一点：尽管世界模型作为潜在物理的客观模拟器在发挥作用，但其推理时的运行受主观的、类智能体观测的条件约束，在同一个统一框架内连接了这两种视角。

2. 从视频生成到世界模型的四阶段演化

视频生成模型向世界模型的演化不是一蹴而就的，而是一个渐进的过程。根据模型能力的发展，我们可以把这一演化过程划分为四个清晰的阶段，每个阶段在真实性、交互性和规划性这三个核心维度上都有明显的提升。

2.1 第一阶段：真实性——对真实世界的表面模拟

第一阶段的核心特征是实现基本的视觉真实性。这一阶段的模型能生成2到5秒的短视频，勉强能满足人类的视觉质量要求。它们开始展现出对真实世界的表面理解，能生成看起来还算合理的运动和场景。

在真实性维度上，第一阶段的模型实现了短期真实性。它们能在几秒钟内维持视觉连贯性，生成的视频在短时间内看起来是合理的。模型也实现了基本的视频-文本一致性，能根据文本描述生成大致符合要求的视频内容，尽管可能会遗漏某些细节或出现一些不连贯的运动。

在交互性方面，第一阶段的模型表现出低级交互性。它们支持基于空间信号的基本交互，比如通过草图、深度图或人体姿态来引导生成。但这种控制的灵活性较低，主要局限于像素级的操作。模型可以执行简单的单步动作，比如“跳跃”或“左转”，但没法处理更复杂的多步骤任务。

规划能力在这一阶段还没出现。模型缺乏对长期目标的理解，没法进行面向任务的规划。它们更像一个视觉生成器，而不是真正的世界模拟器。

代表性的第一阶段模型包括早期的CogVideo、Make-A-Video等。这些模型在当时是突破性的，证明了从文本生成视频是可行的，但它们生成的视频往往存在运动失真、空间错位等问题，限制了在实际应用中的使用。

文本输入 → 文本编码器 → 扩散模型/自回归模型 → 视频解码器 → 短视频输出（2-5秒）
空间条件（草图/深度图）

2.2 第二阶段：交互性——对真实世界的可控交互式模拟

第二阶段标志着视频生成模型向真正的世界模型迈出了关键一步。这一阶段的核心特征是实现了语义和导航交互性，模型不再只是被动地生成视频，而是能主动响应各种控制信号，实现灵活的交互。

图2-2：第一阶段模型架构——基础视频生成流程

在真实性维度上，第二阶段实现了一致真实性。模型能生成更长的视频序列，通常可达10秒甚至更长，并且在整个序列中都能维持时间一致性。物体的动力学和场景布局随时间保持稳定，不会突然出现跳变或失真。更重要的是，模型实现了完美的视频-文本一致性，能忠实地渲染所有提及的实体、运动和事件。

这一阶段的模型开始捕捉基本物理世界的某些方面。它们理解投影几何，知道物体在不同视角下应该如何呈现。它们具备空间适宜性的概念，生成的场景在空间布局上是合理的。虽然还不能完全遵循所有物理定律，但已经能生成物理上大致合理的运动和交互。

在交互性方面，第二阶段实现了显著的飞跃。模型支持灵活控制，尤其是基于导航模式的控制。导航模式是一个关键概念，指的是那些不依赖于具体场景内容、可以跨场景迁移的控制信号。典型的导航模式包括：

动作序列：比如机器人的关节运动、车辆的转向和加速
文本指令：像“向左转”、“拿起杯子”这类简单指令
轨迹：预定义的运动路径或相机路径
目标图像：表示期望达到的最终状态

这些导航模式的引入，让模型具备了真正的交互能力。用户或智能体可以通过这些信号来引导视频的生成，实现对虚拟世界的控制。

第二阶段的另一个重要特征是以主体为中心的可控性。模型能理解和执行针对特定主体的控制信号，比如指示一个智能体执行一系列动作，或者围绕该主体动态调整视角。这种能力对机器人应用尤其重要，因为它允许模型专注于智能体的行为，同时让周围环境自然演化。

在规划能力方面，第二阶段出现了简单任务规划的萌芽。模型开始展现出面向任务规划的早期迹象，能生成遵循连贯意图或指令的视频内容。比如，给一个“冲一杯咖啡”的指令，模型可以生成包含拿起水壶、倒水等一系列动作的视频。虽然这种规划能力还比较有限，通常只能处理十个步骤以内的简单任务，但它标志着模型开始理解任务的结构和目标。

代表性的第二阶段模型包括Runway的Gen-2、Pika等商业模型，以及学术界的Emu Video、VideoPoet等。这些模型在视频质量、时长和可控性上都有显著提升，开始在创意产业中找到实际应用。

多模态输入（文本/图像/音频）→ 编码 → 导航模式（动作/轨迹/指令）→ 导航编码器 → 统一Transformer/扩散模型 → 时空解码器 → 长视频输出（10秒+）
3D先验、物理先验

2.3 第三阶段：规划性——对真实世界的实时复杂预测

第三阶段代表了世界模型能力的重大飞跃。这一阶段的核心特征是实现了复杂任务规划，模型能模拟给定世界状态的长期未来演化，支持涉及多个交互实体、动态视角转换和场景变换的复杂任务。

在规划性维度上，第三阶段的模型能生成在中观时空尺度上展现自主演化进展的长期视频序列。这里的“中观”指的是与人类日常体验相符的时空尺度，既不是微观的分子运动，也不是宏观的地质变化，而是人类活动的自然时间尺度。模型可以模拟涉及数十甚至数百个运动步骤的复杂任务，比如完整的烹饪过程、复杂的机器人操作序列，或者自动驾驶中的长距离导航。

更重要的是，这些规划结果不是静态的预设序列，而是能实时适应来自内部状态和外部环境的交互。模型可以根据新的输入动态调整生成的内容，实现真正的交互式规划。

在真实性方面，第三阶段达到了内在物理真实性。这是一个质的飞跃：模型不再仅是近似外观，而是真正模拟潜在的因果过程。它们内化了物理定律本身，能根据真实世界的内在物理原理演化模拟过程。

这种内在物理真实性体现在多个方面。在刚体力学领域，模型理解自由落体、碰撞、摩擦等基本现象。在流体动力学方面，模型能模拟水的流动、烟雾的扩散等复杂过程。甚至在某些情况下，模型可能捕捉到电磁效应，比如光的反射和折射。

这种能力使得第三阶段的模型能生成任意时长的视频序列，同时维持物理一致性和时间连贯性。模型可以随时间创造新的运动、实体、视角和场景，而不会破坏物理规律或产生不连贯的跳变。

在交互性方面，第三阶段实现了实时和局部交互性。“实时”意味着模型能无感知延迟地响应输入，支持帧级的交互。用户可以和世界模型无缝交互，发出指令和刺激，导致即时、连贯的变化。这种能力对交互式应用至关重要，比如虚拟现实、游戏或机器人遥操作。

“局部”交互性，指的是精确且富有表现力的控制能力。模型支持以主体为中心的操作，并对上下文和背景一致性给予细粒度关注。例如，用户可以专注于单个角色的行为，而周围环境则继续自然演化，呈现丰富的照片级真实细节，且不影响视觉或物理一致性。

第三阶段的愿景是构建一个能忠实模拟复杂系统下物理世界演化的通用模拟器。这样的系统可以应用于天气预测、生态系统建模、城市规划等需要长期预测和复杂交互的领域。

目前，我们正处于向第三阶段过渡的关键时期。一些前沿模型，比如OpenAI的Sora、Google的Genie 3，以及李飞飞团队的Marble，都展现出了第三阶段的某些特征，但还没有完全达到这一阶段的所有要求。

反馈
多模态输入流 → 实时编码器 → 世界状态表征 Z_t → 物理引擎模块 → 转移函数 T → 下一状态 Z_t+1 → 实时渲染器 → 连续视频流
外部控制信号（刚体力学、流体动力学、电磁效应）

2.4 第四阶段：随机性——对真实世界的低概率和多尺度建模

第四阶段代表了世界模型的终极愿景，尽管目前还主要停留在理论和研究阶段。这一阶段的核心特征是融入随机性感知推理和多尺度建模能力。

在规划性方面，第四阶段实现了随机规划性。模型不仅能够预测最可能的未来，还能够模拟与真实世界分布一致的高概率和低概率事件。这意味着模型可以主动建模地震、海啸、金融危机、小行星撞击等黑天鹅事件，而不仅仅是常规的、可预测的演化。

这种能力对于风险评估、应急准备和科学研究意义重大。比如，在城市规划中，模型可以模拟各种极端天气事件对基础设施的影响；在金融领域，模型可以探索那些罕见但影响巨大的市场崩溃场景。

第四阶段的另一个关键特征是任意空间和时间尺度的规划能力。在空间领域，模型可以跨越从宏观尺度（比如宇宙级演化、大陆漂移）到微观尺度（比如微生物动力学、原子级转换）的广阔范围。在时间领域，模型能跨越从长期演化（跨越数年或数世纪，需要时间压缩和关键事件选择能力）到中尺度物理世界动力学，再到高频现象（比如昆虫翅膀振动、人类瞳孔微运动）的不同时间尺度。

这种多尺度建模能力使得世界模型能应用于更广泛的科学和工程领域。在材料科学中，模型可以从原子尺度的相互作用预测宏观材料性能；在气候科学中，模型可以连接微观的大气过程和长期的气候变化；在生物学中，模型可以从分子机制理解生态系统演化。

在交互性方面，第四阶段实现了全局和多模态交互性。模型能够预测外部干预导致的长期多模态影响，支持跨视觉、语言和控制模态的持续、长时间交互。这种交互性的核心是一种全局控制能力，其中具备心理世界模型的内部智能体作为模拟环境中的主要决策实体。

此外，第四阶段的模型支持多实体控制，能够协调场景内多个智能体或系统之间的交互。动态演化背景的融入进一步丰富了模拟，使世界建模更具真实性和适应性。举个例子，在模拟一个城市时，模型不仅要考虑交通流、人群动态，还要考虑天气变化、基础设施老化、社会经济因素等多个相互作用的系统。

第四阶段的世界模型代表了一个宏大的愿景，有点像刘慈欣科幻小说《镜子》里描绘的“超级模拟器”。这样的系统能以任意精度预测世界的未来，不仅能回放过去，还能建模鲜活、不断变化的未来。虽然完全实现这个愿景还需要大量的研究和技术突破，但它为世界模型的发展指明了方向。

多尺度输入 → 尺度自适应编码 → 多尺度世界状态 → 随机性建模模块 → 概率分布预测 → 多路径演化 → 尺度自适应渲染 → 多尺度输出
宏观事件（地质/气候）
中观事件（日常活动）
微观事件（分子运动）
高概率路径、低概率路径、黑天鹅事件

2.5 四阶段演化的整体视图

为了更清楚地理解这四个阶段的关系，我们可以用一个统一的场景来说明。假设我们要模拟一个人在厨房冲咖啡的过程：

第一阶段的模型可以生成几帧倒水的画面或咖啡杯出现的静态视图，但不了解人类的意图或任务连续性。生成的视频可能在几秒后就出现不连贯或失真。

第二阶段的模型可以在短时间范围内描绘简单的目标导向动作序列。比如，一个人遵循“拿起杯子”和“把水倒入杯子”这类短期简单指令，拿起水壶并将水倒入杯子。动作具有局部一致性，且遵循可见目标，但模型缺乏对更广泛任务或多步骤依赖关系的持久理解。

第三阶段的模型开始展现实时生成和交互一致性，能够根据“冲一杯咖啡”这种抽象和长期指令自适应地生成视频。它们在数十秒内维持厨房布局和物体位置的空间一致性，展现出灵活的导航能力和环境感知能力。模型理解整个任务的结构，能自主规划和执行必要的步骤。

第四阶段的模型有望自主完成整个冲咖啡过程，规划并执行加热水、研磨咖啡豆、冲泡和端送等多步骤动作，同时维持物理真实性、时间连续性和与场景中动态物体的连贯交互。此外，通过多次推理循环，可能会自然出现真实事件，比如不小心把热水洒在桌子上，反映真实世界的合理可能性。模型还可以在不同时间尺度上模拟，从快速的咖啡冲泡过程到长期的咖啡豆储存和变质。

这种渐进式的描述清晰地展示了每个阶段如何扩展其预测和规划能力，从简单的视觉生成一步步走到真正的世界模拟。

3. 关键技术组件与实现路径

3.1 第一阶段——真实性：对真实世界的准确模拟

在理解世界模型的演化过程中，导航模式是一个至关重要但常被忽视的概念。导航模式定义了外部信号如何引导和控制世界模型的生成过程，是实现真正交互性的关键。

导航模式与传统的空间条件有本质区别。空间条件，比如草图、深度图、语义分割图等，都是与具体场景内容紧密绑定的。它们描述的是“这个场景应该长什么样”，因此无法自由迁移到其他场景。相比之下，导航模式是内容独立的，它描述的是“如何在世界中移动和交互”，可以应用于任意场景。

为了更精确地定义导航模式，我们可以用一个三元组来表征它必须满足的三个基本属性：

第一个属性是时间性。导航模式必须定义为时间有序的序列，或者能影响整个持续时间。这确保引导信号随时间演化，反映意图、观测或控制的真实变化。比如，一个动作序列会指定在每个时间步应该执行什么动作；一个轨迹会定义随时间变化的位置。

第二个属性是内容独立性。导航模式不能明确引用视频中的内容和空间特征。这意味着导航模式不应该包含“在画面左侧放置一个红色的杯子”这样的指令，因为这种指令会把生成过程锚定到特定的、可解释的目标，需要与原始视频内容配对。相反，导航模式应该是“向左移动”或“拿起物体”这样的抽象指令，可以应用于任何合适的场景。

第三个属性是空间推理能力。导航模式必须支持生成序列中的空间推理。这意味着世界模型不仅要理解静态空间布局，还要理解动态变换，比如智能体运动、物体位移等。模型需要能够根据导航模式推断出空间关系的变化，并相应地更新生成的内容。

只有当这三个标准都满足时，一个条件才能被视为真正的导航模式。这种严格的定义为评估视频生成模型是否展现出真正的规划性和交互性提供了系统方法。

常见的导航模式包括：

1. 动作序列：在机器人领域，这通常是关节角度、力矩或末端执行器位置的序列。在游戏中，这可能是按键序列或控制器输入。动作序列直接对应于智能体的物理控制，是最底层的导航模式。
2. 轨迹：轨迹定义了智能体或相机在空间中的路径。它可以是2D平面上的路径，也可以是3D空间中的完整6自由度轨迹（包括位置和方向）。轨迹导航在自动驾驶和相机控制中特别重要。
3. 文本指令：这是最自然和灵活的导航模式。文本指令可以是简单的方向命令（“向左转”），也可以是更复杂的任务描述（“去厨房拿一杯水”）。文本指令的优势在于表达能力强，但挑战在于模型需要理解自然语言并将其转化为具体的动作。
4. 目标状态：这种导航模式通过指定期望的最终状态来引导生成。目标可以用图像表示（目标图像），也可以用文本描述（目标描述）。模型需要规划从当前状态到目标状态的路径，这要求更高级的规划能力。

在实际应用中，这些导航模式往往需要组合使用。比如，一个机器人系统可能同时接收高层的文本指令（“清理桌子”）和底层的动作序列，或者一个自动驾驶系统可能结合轨迹规划和实时的转向控制。如何有效地融合多种导航模式，平衡它们之间可能的冲突，是当前研究的一个重要方向。

3.2 第二阶段——交互性：可控性和交互动力学

有了导航模式和其他条件信号，下一个问题就是如何将它们有效地注入到视频生成模型中。这涉及条件注入策略的设计，这是实现可控视频生成的关键技术环节。

目前主流的条件注入策略可以分为五大类：

1. 基于ControlNet的条件注入

ControlNet最初是为图像生成设计的，但其思想已经被成功扩展到视频领域。ControlNet的核心思想是在预训练模型的基础上添加一个并行的控制网络，这个控制网络接收条件信号作为输入，并通过零卷积层将控制信息注入到主网络中。

ControlNet的优势在于它不需要修改预训练模型的权重，因此可以保持原模型的生成质量，同时添加新的控制能力。在视频生成中，ControlNet可以用于注入各种空间条件，比如深度图、边缘图、人体姿态等。一些研究还将ControlNet扩展到时间维度，实现对运动的控制。

2. 多模态Transformer

多模态Transformer是一种更加统一的方法，它将不同模态的输入（文本、图像、视频、控制信号等）都编码为token序列，然后在一个统一的Transformer架构中处理。这种方法的优势在于它可以自然地处理多种输入模态，并学习它们之间的交互。

在实现上，不同模态的输入通常通过各自的编码器转换为token，然后拼接在一起输入到Transformer中。Transformer的自注意力机制可以捕捉不同模态之间的依赖关系。一些先进的模型，比如Cosmos，就采用这种架构来实现强大的多模态理解和生成能力。

3. 交叉注意力机制

交叉注意力是另一种常用的条件注入方法，特别是在扩散模型中。在这种方法中，条件信号（比如文本嵌入）作为键和值，而生成的特征作为查询，通过交叉注意力层将条件信息融入生成过程。

交叉注意力的优势在于它提供了一种灵活的方式来调制生成过程，可以在不同的层次和位置注入条件信息。许多文本到视频的模型，比如Stable Video Diffusion，都采用交叉注意力来实现文本条件的注入。

4. 拼接策略

拼接是最直接的条件注入方法。在这种方法中，条件信号（通常是图像或特征图）直接与输入或中间特征在通道维度上拼接。这种方法简单有效，特别适合空间条件的注入。

比如，在图像到视频生成中，参考图像可以与噪声输入拼接，然后一起输入到生成模型中。在一些方法中，条件信号会在多个层次上拼接，以提供更丰富的引导信息。

5. 加法调制

加法调制通过将条件信息编码为偏置或缩放因子，直接加到特征上。这种方法在一些早期的条件生成模型中很常见，比如条件GAN。在现代的扩散模型中，加法调制常用于注入时间步信息或全局条件。

一些先进的方法会结合多种条件注入策略。比如，一个模型可能使用交叉注意力来注入文本条件，使用ControlNet来注入空间条件，使用拼接来注入参考图像。如何设计有效的条件注入架构，平衡不同条件的影响，是一个需要仔细考虑的问题。

条件信号 → 条件注入策略 → ControlNet（并行控制网络）、多模态Transformer（统一token处理）、交叉注意力（键值调制）、拼接（通道融合）、加法调制（特征偏置）→ 生成模型 → 可控视频输出

图3-2：五种主流条件注入策略对比

3.3 第三阶段——规划性：复杂系统未来演化的建模

视频生成模型的架构也在不断演进，从早期的GAN和VAE，到现在主流的扩散模型和自回归模型，再到最新的混合架构。

扩散模型在视频生成中占据主导地位，这主要得益于其强大的生成质量和训练稳定性。扩散模型通过逐步去噪的过程生成视频，可以生成高质量、多样化的内容。在视频领域，扩散模型通常采用3D UNet或DiT（Diffusion Transformer）架构，在空间和时间维度上同时进行去噪。

然而，扩散模型有一个主要缺点：生成速度慢。由于需要多步迭代去噪，扩散模型难以实现实时生成。为了解决这个问题，研究者们提出了各种加速方法，比如蒸馏、一致性模型等。

自回归模型提供了另一种思路。这类模型逐帧或逐块生成视频，每一步都基于之前生成的内容。自回归模型的优势在于可以生成任意长度的视频，并且在某些情况下可以实现更好的时间一致性。但纯自回归模型也面临累积误差和生成速度的挑战。

最新的趋势是混合架构，结合扩散和自回归的优势。比如，一些模型使用扩散过程生成每一帧，但以自回归方式逐帧生成，实现了质量和效率的平衡。Diffusion Forcing就是这种思路的代表，它在训练时使用完整的扩散过程，但在推理时可以快速生成。

另一个重要的架构创新是引入显式的3D或4D表征。传统的视频生成模型将视频视为2D帧的序列，这使得维持3D一致性变得困难。一些新的方法引入3D场景表征，比如NeRF或高斯泼溅，作为中间表示。模型首先生成3D场景，然后从不同视角渲染出视频。这种方法可以更好地保持几何一致性，支持自由视角的生成。

李飞飞团队的Marble就采用了这种思路。它不是直接生成视频像素，而是生成一个3D场景表示，然后可以从任意视角渲染。这使得Marble能够生成高度一致的3D环境，支持交互式探索。

4. 应用场景与实践案例

世界模型不仅是一个理论概念，它正在多个领域找到实际应用。从机器人到自动驾驶，从游戏到创意产业，世界模型正在改变我们与虚拟和现实世界交互的方式。

4.1 机器人领域：具身智能的基石

机器人是世界模型最自然的应用场景之一。要让机器人在真实世界中高效工作，它们需要理解物理规律、预测环境变化、规划复杂任务。世界模型为这些能力提供了统一的框架。

在机器人领域，世界模型主要有三种应用方式：

第一种是作为训练环境。机器人学习面临的一个核心挑战是数据稀缺。在真实世界中收集机器人交互数据成本高昂且耗时，而且可能存在安全风险。世界模型可以生成大量合成的训练数据，让机器人在虚拟环境中学习，然后迁移到真实世界。这种sim-to-real的范式已经在许多机器人任务中取得成功。

高质量的世界模型可以显著缩小模拟与现实之间的差距。通过学习真实世界的物理规律和视觉特征，世界模型生成的模拟环境可以更好地反映真实条件，减少域迁移的难度。一些研究表明，在高保真世界模型中训练的策略可以直接部署到真实机器人上，无需额外的微调。

第二种应用是作为规划工具。在执行复杂任务时，机器人需要预测不同动作的后果，选择最优的行动序略。世界模型可以作为内部模拟器，让机器人在心智中“预演”不同的行动方案，评估它们的效果，然后选择最佳方案执行。

这种基于模型的规划比纯粹的试错学习更加高效和安全。机器人可以在虚拟空间中探索危险或罕见的情况，而不会对自身或环境造成损害。比如，在操作易碎物品时，机器人可以通过世界模型预测不同抓取方式的结果，选择最安全的方法。

第三种应用是作为感知增强工具。真实世界的感知往往是不完整和有噪声的。传感器可能被遮挡，光照条件可能不理想，物体可能部分可见。世界模型可以基于部分观测推断完整的场景状态，填补感知的空白。

比如，当机器人看到桌子的一部分时，世界模型可以推断桌子的完整形状和可能存在的物体。这种能力对于在复杂、动态环境中导航和操作至关重要。

目前，已经有多个研究项目展示了世界模型在机器人中的应用。比如，UniPi将决策视为文本条件视频生成任务，将自然语言描述的目标转换为未来视觉轨迹，然后从中提取控制动作。COMBO构建了用于多智能体协作的组合世界模型，通过分解联合动作并生成视频预测来模拟多样化结果。

这些工作展示了世界模型在机器人领域的巨大潜力。随着模型能力的提升，我们可以期待看到更加智能、灵活和安全的机器人系统。

4.2 自动驾驶：安全测试与场景生成

自动驾驶是另一个世界模型的重要应用领域。自动驾驶系统需要在各种复杂、动态的交通场景中做出安全决策，这要求对环境有深刻的理解和准确的预测能力。

世界模型在自动驾驶中的主要应用包括：

首先是场景生成和数据增强。自动驾驶系统的训练需要覆盖各种可能的交通场景，包括那些罕见但关键的边缘情况，比如突然出现的行人、恶劣天气、道路施工等。在真实世界中收集这些场景的数据既困难又危险。世界模型可以生成多样化的合成场景，包括那些在真实数据中很少出现的情况，帮助训练更加鲁棒的驾驶策略。

一些研究，比如DriveDreamer和Drive-WM，专门针对自动驾驶场景开发世界模型。它们可以根据高层的场景描述（比如“雨天的城市道路，有行人穿越”）生成相应的驾驶视频，包括多个视角、不同的光照和天气条件。

其次是安全验证和测试。在部署自动驾驶系统之前，需要进行大量的测试以确保安全性。传统的测试方法依赖于实际道路测试或预定义的模拟场景，覆盖范围有限。世界模型可以生成无限多样的测试场景，系统地探索系统的行为空间，发现潜在的失效模式。

通过世界模型，测试人员可以快速生成和评估各种假设场景，比如“如果前车突然刹车会发生什么”或“在这个路口左转时可能遇到什么情况”。这种基于模型的测试可以大大提高测试效率和覆盖率。

第三是预测和规划。自动驾驶系统需要预测其他交通参与者的行为，并据此规划自己的行动。世界模型可以模拟不同驾驶决策的后果，帮助系统选择最安全和高效的路径。

比如，当接近一个复杂的路口时，世界模型可以预测不同车辆和行人的可能运动，评估不同通过策略的风险，选择最优方案。这种前瞻性规划可以提高驾驶的安全性和舒适性。

目前的自动驾驶世界模型主要关注第二阶段的能力，能够生成视觉真实、物理合理的驾驶场景，并支持基本的控制，比如轨迹跟随、转向控制等。随着技术的进步，我们可以期待看到更加智能的世界模型，能够处理更复杂的交通情况，支持长期规划和多智能体交互。

4.3 游戏与虚拟世界：可玩性与创造力

游戏是世界模型的另一个天然应用场景。传统的游戏开发依赖于手工设计的规则和资产，开发周期长、成本高。世界模型提供了一种新的范式，可以自动生成游戏内容，甚至整个可玩的游戏世界。

在游戏领域，世界模型的应用主要体现在：

第一是程序化内容生成。世界模型可以根据高层的设计意图生成游戏关卡、角色、物品等内容。这不仅可以大大减少开发工作量，还可以创造出更加多样化和个性化的游戏体验。每个玩家可以体验到独特的游戏世界，而不是预设的固定内容。

一些研究，比如Genie和MarioVGG，已经展示了从视频学习可玩游戏的能力。这些模型可以观看游戏视频，学习游戏的规则和动力学，然后生成新的可玩关卡。玩家可以通过键盘或控制器与生成的游戏世界交互，就像玩传统游戏一样。

第二是动态叙事和适应性游戏。世界模型可以根据玩家的行为动态调整游戏内容和叙事，创造更加沉浸和个性化的体验。游戏不再是固定的剧本，而是一个响应玩家选择的活生生的世界。

比如，在一个角色扮演游戏中，世界模型可以根据玩家的决策生成不同的故事分支，创造独特的NPC反应，甚至改变整个游戏世界的状态。这种动态性可以大大提高游戏的重玩价值和沉浸感。

第三是虚拟现实和元宇宙。随着VR和AR技术的发展，人们对沉浸式虚拟体验的需求日益增长。世界模型可以生成高度真实、可交互的虚拟环境，支持用户在其中自由探索和创造。

李飞飞团队的Marble就是朝这个方向的一个重要尝试。Marble可以从文本描述或图像生成完整的3D环境，用户可以像在真实世界中一样在其中移动和观察。这种能力为创建元宇宙提供了强大的工具，让普通用户也能轻松创建和分享虚拟世界。

游戏领域的世界模型还面临一些独特的挑战。除了视觉真实性和物理合理性，游戏世界模型还需要考虑可玩性、趣味性和平衡性。一个物理上完全真实的游戏可能并不好玩，因为真实世界的物理规律可能过于复杂或限制性太强。如何在真实性和可玩性之间找到平衡，是游戏世界模型需要解决的问题。

4.4 创意产业：从概念到现实的桥梁

世界模型在创意产业中的应用正在快速扩展，从电影制作到建筑设计，从广告到教育，世界模型正在改变创意工作的方式。

在电影和视频制作中，世界模型可以大大降低制作成本和周期。传统的3D场景建模和渲染需要专业技能和大量时间，而世界模型可以从简单的描述或草图快速生成高质量的场景。导演和艺术家可以快速迭代不同的视觉概念，探索各种可能性，而不需要投入大量资源。

更重要的是，世界模型可以生成动态的、可交互的场景，而不仅仅是静态的图像。这为创造新型的叙事体验打开了可能性。比如，观众可以选择不同的视角观看同一个场景，或者影响故事的发展方向，创造个性化的观影体验。

在建筑和室内设计中，世界模型可以帮助设计师快速可视化设计概念。设计师可以用自然语言描述想要的空间（“一个明亮的现代厨房，有大窗户和木质地板”），世界模型就能生成相应的3D环境。设计师可以在虚拟环境中漫游，从不同角度观察，评估设计效果，然后进行调整。

这种快速原型和迭代的能力可以大大提高设计效率，让设计师有更多时间专注于创意本身，而不是技术实现。客户也可以更直观地理解设计方案，提供反馈，减少沟通成本。

在教育领域，世界模型可以创造沉浸式的学习体验。学生可以“走进”历史事件，探索微观世界，或者在虚拟实验室中进行实验。这种体验式学习比传统的课本和视频更加生动和有效，可以帮助学生更好地理解抽象概念。

比如，在学习细胞生物学时，学生可以进入一个虚拟的细胞内部，观察各种细胞器的结构和功能，看到蛋白质合成的过程。在学习历史时，学生可以“亲历”重要的历史时刻，从不同角度观察和理解事件。

李飞飞在她的文章中特别强调了世界模型在创造力方面的潜力。她指出，创意是智慧的乐趣，而空间智能有潜力彻底变革我们创作与体验叙事的方式。世界模型将前所未有的空间表达能力与编辑控制权交到创作者手中，让他们无需传统3D设计软件的繁复流程，就能快速创造、迭代、探索完整的三维世界。

5. 李飞飞的空间智能愿景

5.1 空间智能：人类认知的脚手架

李飞飞教授对空间智能的理解为世界模型的发展提供了重要的理论基础。在她最近发表的长文中，她系统阐述了空间智能的本质、重要性和实现路径。

李飞飞指出，空间智能是支撑人类认知的脚手架。无论是被动观察还是主动创造，空间智能都在默默发挥作用。它驱动我们的推理与规划，即便是在最抽象的主题上。它塑造了我们与世界互动的方式，无论是语言交流还是身体行动，无论是与他人还是与环境本身。

这种观点深刻地揭示了当前AI的局限性。大语言模型虽然在处理文字方面表现出色，但它们缺乏对物理世界的真正理解。它们活在纯粹的符号世界中，无法感知空间、理解物理规律，更无法预测真实世界的演化。李飞飞形容这些模型是“黑暗中的文字匠”：能言善辩，却无经验；知识丰富，却缺乏根基。

5.2 World Labs的技术突破

李飞飞创立的World Labs正在将这些理论愿景转化为实际的技术产品。在她的文章中，她分享了World Labs在几个关键方向上的研究进展：

第一是新的通用训练任务函数。在世界模型研究中，一个长期目标是定义一种像大语言模型中“下一个token预测”一样简洁优雅的通用任务函数。然而，世界模型输入与输出空间的复杂性使这一函数的设计更加困难。

李飞飞指出，这一目标函数及其对应表征必须符合几何与物理规律，忠实体现世界模型在想象与现实之间的“落地表征”本质。虽然仍有大量探索空间，但这个方向对于构建真正通用的世界模型至关重要。

第二是大规模训练数据。训练世界模型所需的数据远比文本复杂。好消息是我们已经拥有了庞大的数据资源。互联网上规模宏大的图像与视频集合为训练提供了丰富的素材。挑战在于：如何让算法从二维图像或视频帧中提取更深层次的空间信息。

过去十年的研究揭示了语言模型中数据量与模型规模的scaling law。对于世界模型，关键在于构建能够在相似规模上有效利用视觉数据的架构。此外，高质量的合成数据以及额外模态（如深度、触觉）的作用不可低估，它们在训练过程的关键阶段起到补充作用。

第三是新的模型架构与表征学习。世界模型研究将不可避免地推动模型架构与学习算法的革新，特别是超越当下的多模态大语言模型与视频扩散模型。

李飞飞指出，当前的模型通常将数据编码为一维或二维序列，使得简单的空间任务变得异常困难。比如，在短视频中数清不同的椅子，或记住一小时前房间的样子，对现有模型来说都是挑战。

新的架构思路可能包括具备3D或4D感知能力的token化、上下文与记忆机制。World Labs最近开发的RTFM（Real-Time Generative Frame-based Model）就是一个例子。它以空间为基础的帧作为空间记忆形式，实现了高效实时生成的同时，保持了生成世界的持续性与一致性。

World Labs推出的Marble平台是这些研究成果的集中体现。Marble是全球首个可通过多模态输入生成并保持一致性3D环境的世界模型，让用户与创作者能够探索、交互并在其中继续构建他们的创意世界。

Marble的核心创新在于它生成的不是简单的视频，而是持久的、可下载的3D环境。这种方式能显著减少场景变形和细节不一致的问题。更重要的是，Marble可以把生成的世界导出成高斯斑点、Mesh网格，甚至直接导出视频，方便与现有的3D工作流程集成。

Marble还内置了一个原生的AI世界编辑器Chisel，用户只需一句提示，就能按自己的想法自由改造世界。这种交互式编辑能力使得Marble不仅是一个生成工具，更是一个创作平台。

5.3 空间智能的应用愿景

李飞飞对空间智能的应用前景有着清晰的规划，她将其分为三个时间尺度：

近期应用主要集中在创造力领域。Marble等工具已经让创作者与讲故事的人能够亲手掌握空间智能的能力。电影人和游戏设计师可以利用这些工具构建整个世界，不受预算或地理限制，探索传统制作流程中无法实现的场景与视角。

建筑师可以在数分钟内可视化并漫游尚不存在的建筑。工业或时装设计师可以即时将想象转化为形态，探索物体与人体及空间的交互。这些应用正在当下出现，已经开始改变创意产业的工作方式。

中期应用主要在机器人领域。李飞飞认为，机器人代表着中期的雄心目标，需要完善感知与行动之间的闭环。世界模型将在机器人学习中发挥决定性作用。

随着世界模型感知精度与计算效率的提高，其生成的输出将迅速缩小模拟与现实之间的差距，从而让机器人能在数不清的状态、互动与环境中学习。无论是实验室中协助科学家的研究助理机器人，还是陪伴独居老人的家用助理，机器人都可以扩展劳动力并提升社会生产力。

长期应用则延伸至科学、医疗与教育等领域。在科学研究中，具备空间智能的系统可以模拟实验、并行验证假设，并探索人类无法亲临的环境，从深海到遥远的行星。这项技术有望彻底变革气候科学、材料研究等领域的计算建模方式。

在医疗领域，空间智能将重塑从实验室到病床的全过程。AI可以通过多维建模加速药物研发，通过辅助放射科医生识别影像中的模式来提升诊断质量。它还可支持环境感知式监护系统，在不取代人类关怀的前提下，为患者与护理人员提供持续支持。

在教育领域，空间智能能够实现沉浸式学习，让抽象或复杂的概念变得可感知。学生可以以多维方式探索细胞机器或“亲历”历史事件。教师可借助互动环境进行个性化教学。外科医生、工程师等专业人士则能在高度逼真的仿真环境中安全地练习复杂技能。

6. 结论

从视频生成到世界模型的演进，代表了人工智能发展的一个重要方向。这不仅仅是技术的进步，更是我们对智能本质理解的深化。

视频生成模型的发展经历了从表面模拟到深层理解的转变。第一阶段的模型只能生成短暂的、视觉上勉强可信的片段。第二阶段引入了交互性和可控性，模型开始能够响应各种控制信号。第三阶段实现了复杂任务规划和内在物理真实性，模型开始真正模拟世界的动力学。第四阶段的愿景是实现多尺度、随机性感知的世界建模，能够处理从微观到宏观、从常规到罕见的各种现象。

这一演进过程揭示了一个深刻的洞察：真正的智能不能仅仅停留在符号层面，它必须根植于对物理世界的理解。语言是人类认知的重要工具，但它不是全部。空间智能，即理解、推理和操作三维物理世界的能力，是智能的另一个基本维度。

7. 参考资源

参考文献可查阅相关技术文档。

来源：互联网

上一篇 京东快手首部AI实拍短剧内容营销新变革 下一篇 WPS AI写辞职报告全攻略：3分钟快速生成

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。