产业资讯世界模型李飞飞世界模型鉴别

李飞飞世界模型鉴别指南权威分辨技巧

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

过去18个月内，超过100亿美元涌入了所谓的“世界模型”和机器人AI企业。一个值得注意的

过去18个月内，超过100亿美元涌入了所谓的“世界模型”和机器人AI企业。一个值得注意的趋势是：那些实际应用世界模型的公司所获融资规模，反而超过了专注构建世界模型本身的企业。这说明了什么？简而言之，资本更青睐“如何用”，而非“造什么”。

别再碰瓷100 亿美元“身价”的世界模型了，李飞飞这次手把手教你分辨

世界模型的热度毋庸置疑，但究竟何为世界模型？众说纷纭，反令人更加困惑。

今早，李飞飞与World Labs团队发布了一篇题为《世界模型的功能性分类》的长文。她直言不讳地指出：“世界模型”是目前AI领域最重要、同时也被滥用最严重的术语之一。上月，MoE Capital的Henry Yin和Naomi Xia也在博客中抱怨道，许多被称为“世界模型”的系统，根本算不上真正的世界模型。

在如此节点，李飞飞的文章无异于提供了一把衡量清晰度的标尺。她引入强化学习的经典框架，完整阐释了“世界模型”的定义，将看似杂乱无章的生成模型、物理模拟系统和具身智能方法，按功能划分为三类：渲染器、模拟器和规划器。

对正处在技术路线分化与资本大竞赛中的AI产业而言，这一分类不仅是技术梳理，更像是一份关于未来主导权的路线图。三个原本看似孤立的技术路径，首次被置于同一坐标系下对比。李飞飞进一步指出，这三者已经开始相互融合。“当它们的边界消失时，”她表示，“它们将共同重塑一个更宏大的命题：机器智能与物理世界之间的关系——这也是空间智能长期演进的轨迹。”

在她看来，这一演进的终点应是一个统一的世界模型：一个基础模型，既能渲染出照片级真实的画面，又能生成物理上精准的结构，还能规划行动序列，并根据不同下游需求在输出模式间自由切换。

她在文末点明核心：语言让机器能够谈论世界，而世界模型将让机器最终能够理解、想象、推理并与世界互动。隐含判断很明确：决定下一阶段AI上限的，不是模型多会“说话”，而是它多接近物理真实的“模拟能力”。

以下是原文内容编译，我们在不改变原意的前提下做了编辑。

世界不是由语言构成的

在先前的一篇文章中，我们已经论证过：空间智能是人工智能的下一个前沿，而世界模型是通往这一目标的路径。这一次，World Labs团队和我们希望更进一步：在如今被构建并称为“世界模型”的众多事物中，哪些功能性组件才真正构成了这种能力？每一部分分别用来做什么？

语言模型让机器掌握了概念、词汇和推理，这一点极为强大。但无论是虚拟世界还是真实世界，物理世界都运行在一套完全不同的底层结构上。语言模型学的是文本的统计结构，而世界模型要学的是时空的统计结构：光如何落在表面，一个花园在相机从未拍过的角度下会是什么样，物体对力会做出什么反应，以及物理定律如何起作用。

正因如此，“世界模型”成了当下AI领域最重要也最被滥用的术语。计算机视觉、机器人学、强化学习、生成式AI——这些领域都说自己在构建世界模型，但说的却是完全不同的东西。一个能生成华丽但物理上根本不可能实现的火焰视频的模型，一个即兴生成可玩游戏的模型（比如语言模型），一个忠实模拟燃烧过程的物理引擎，都会被叫作“世界模型”。

古希腊人从未就“世界由什么构成”达成一致：是火？水？还是不可分割的原子？因为“世界”从来就不是一个单一的东西。它永远只是一个替代性概念，用来指代某个思想家需要推理的整体。AI现在也面临同样的问题，而偏偏这时候，领域最需要的就是精确性。

分类之下的循环

要理清这种混乱，可以借助一个比上述所有技术都更古老的图式。强化学习教材，比如Sutton和Barto的经典著作，几十年来一直用类似的图来描述智能体如何与世界交互。这个图的正式名称是“部分可观测马尔可夫决策过程”（POMDP），而“世界模型”这个术语，最初就是从这一传统来的。

简单说，智能体——可以是人、机器人或软件系统——采取行动，这些行动会影响世界的状态。但智能体永远无法直接看到世界的完整状态，它只能接收到观测：比如落在视网膜上的光子、传感器的数据、视频帧里的像素。新的观测会引导新的行动，如此循环往复。

“状态”这个词需要解释一下，因为它在不同领域里的含义会变化。这里说的不是化学中的状态（固态、液态、气态），而是物理学和机器人学中的状态：在某一时刻，对世界正在发生的一切的完整描述——每一个物体、每一个位置、每一个速度、每一个属性。状态是世界的底层真实；原则上它是完整的，但对任何智能体来说都不可直接观察。观测是智能体对这个现实的部分视图，而行动是智能体对此做出的响应。

这个循环——从智能体到行动，到状态，再到观测，然后回到智能体——构成了现代“世界模型”这个概念的结构基础。这个短语本身出现得更早，可以追溯到1943年Kenneth Craik提出的观点：心智是通过运行现实的“小规模模型”来进行推理的。这一想法后来在1980年代末到1990年代初被引入神经网络领域。这个循环也解释了为什么今天人们会这样使用这个词：如今被称为世界模型的不同东西，其实都是这个循环的不同投影，每一种都输出其中不同的部分。

世界模型的三类功能

第一类世界模型是“渲染器”。渲染器输出的是观测——以人眼能看的像素形式呈现。它的核心指标就是视觉保真度。一个能把文本提示变成电影级航拍镜头的视频模型，就是渲染器。像Google的Genie 3或者World Labs自己的RTFM这类交互式系统也是一样，它们能在用户输入条件下实时生成画面。这类模型不具备对三维结构的显式理解。它们生成的是“看起来是什么”，而不是“实际上是什么”。所以，航拍镜头里的建筑，从上面看可能完美无瑕，但一旦你想在其中开车，这些结构就全塌了。

第二类是“模拟器”。模拟器输出的是状态——一种在几何、物理或动态上都忠实于世界的表示，人类和计算机程序都可以对其进行计算和交互。渲染器的承诺是纯视觉的，而模拟器的承诺是结构性的。它要求几何在检查下成立、物理遵循牛顿定律、动态行为符合世界在物理规律下应有的表现。模拟器同时服务两类对象：一类是人类专业人士，比如建筑师、设计师、电影制作人、游戏开发者——他们需要超越视觉合理性的精确性；另一类是计算机程序，比如强化学习智能体、机器人控制器、自动驾驶系统——它们把模拟器作为训练环境，在其中大规模与世界交互，测试那些在现实中危险、昂贵或根本不可能执行的场景。

第三类是“规划器”。规划器输出的是行动。在给定观测和目标的情况下，规划器回答智能体下一步该做什么。从某种意义上说，它是渲染器的反向过程：渲染器以行动为输入生成观测，而规划器以观测为输入生成行动，从而闭合感知—行动循环。视觉-语言-动作模型、基于模型的方法，以及新一代的“World Action Models”，都是在尝试构建规划器——也就是能在非结构化世界中决定机器人该做什么的系统。

这三类涵盖了当前实际落地的大多数系统，这种区分在实践中也很有用。但它们从根本上并不是彼此孤立的。关于世界如何运作的同一底层知识——几何、物理和动力学——支撑着它们全部。一个能从任意角度渲染杯子的模型，原则上也应该能模拟杯子被推动时会发生什么，并规划一只手去抓起它。而当下越来越多最有趣的研究，正是在有意模糊这三者之间的界限。

为什么模拟是关键？

在这三类里，模拟器获得的公众关注最少，但它却是三者中最具决定性的。这篇文章正是要讨论这种不对称性。

渲染器在商业上最成熟。大量图像或文本生成视频的产品，正在消费级和企业级市场快速扩张。Google的Nano Banana模型，已经把高质量图像生成能力带到了可能数亿用户面前。技术是真实的，市场也是真实的。然而，渲染器优化的是视觉合理性，而非物理准确性——这个上限非常重要。它们的输出很漂亮，但没法用来设计建筑，也没法用来训练机器人。

规划器最具吸引力，同时也最为初期。它与快速发展的机器人学习领域紧密相连。过去两年，这个领域展示了许多令人印象深刻的机器人演示视频。但我们需要坦诚地看这些演示的实际含义。几乎所有演示都局限在高度受控的实验室环境里，使用有限的物体集合和短任务周期。没有任何系统在现实世界部署所需的复杂性、变化性或持续时间上，得到了真正的验证。从令人惊艳的演示，到能在厨房、仓库或手术室里可靠工作的机器人之间，还有巨大的差距。尽管如此，商业投入依然巨大。一批资金雄厚的新玩家正在竞相推出通用规划系统，而最大的基础设施玩家，则在更广泛的模拟体系之上布局规划能力。一个能规划的机器人，才是一个能工作的机器人——整个行业都在争夺这个目标。

而模拟，正是连接这两者的桥梁。如果说语言是对世界的抽象，像素是对世界的投影，那么几何、物理和动力学，就是世界本身。模拟器必须在这个层面运作：这是一个结构性的骨架，从中既可以导出视觉外观（供渲染器使用），也可以导出行动结果（供规划器使用）。

一个掌握了模拟能力的模型，可以把它对世界的理解投射成供人类使用的像素，也可以投射成供具身智能体使用的行动预测。而一个只掌握渲染，或只掌握规划的模型，则做不到这两点。这背后的商业空间非常巨大。仅NVIDIA的Omniverse，就瞄准了公司估计超过一万亿美元的潜在市场——涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计，以及药物发现等所有领域，都依赖某种形式的模拟。

该领域最困难的开放问题，也集中在这里。带有明确几何、材料属性和物理标注的三维数据，相比渲染器依赖的互联网视频，要稀缺得多。“仿真到现实”的差距仍然存在——也就是模拟中的行为与现实中的行为之间的差异。在此基础上，生成式模拟器还引入了新的风险：AI生成的几何可能看起来正确，却包含自相交或尺度错误，从而导致物理行为毫无意义。而多物理场的大规模模拟——刚体、可变形物体、流体和布料的相互作用——在计算成本上，仍比单一领域模拟要高出好几个数量级。

在World Labs，我们的Marble就是进入这个领域的第一步。它能接受多模态提示（文本、图像、视频或空间草图），生成可探索的三维环境，同时输出用于视觉探索的Gaussian splats，以及供物理引擎使用的碰撞网格。但Marble只是个开端。整个领域正在书写一条更长的轨迹——渲染、模拟与规划之间的界限，正在逐渐消融。

界限正在崩塌，接下来会发生什么？

未来还会有更多进展。当前整个领域最重要的趋势是：这三类世界模型正在开始彼此融合。一个共同的洞见是：渲染世界、模拟世界、以及在世界中行动所需的知识，本质上是相同的。沿用之前的例子——一个真正理解杯子如何放在桌面上的模型（包括它的几何、材料属性、受力响应等），应该能从任意角度渲染这个杯子，模拟推动它时会发生什么，并规划一只手去抓起它。这三类，其实是同一底层理解的三种投影。

例如，来自几个机器人实验室的最新工作已经表明，至少在概念上，一个预训练的视频渲染器，可以作为联合世界与行动预测的基础——从而在渲染器和规划器之间搭起桥梁，让同一个模型既能想象会发生什么，也能决定该做什么。World Labs的Marble，已经能从一个模型中同时输出Gaussian splats和碰撞网格，这就打破了渲染器与模拟器之间的界限。每一层都在从被动输出转向交互系统：渲染器变得可以由行动条件控制，模拟器生成的世界变得更加可控和可编辑，而规划器则从简单反应，转向更具推理能力的决策。

这个逻辑的终点，就是一个统一的世界模型：一个基础模型，既能渲染出照片级真实的画面，又能生成物理上准确的结构，还能规划行动序列，并根据下游需求，在不同输出模式之间切换。当然，挑战依然巨大。数据分布极不均衡：渲染器坐拥海量互联网视频，而模拟器和规划器却严重缺乏三维资产和机器人演示数据。对视觉美感的优化，可能会牺牲机器人或高保真模拟所需的精确性。在同一架构中调和这些矛盾，是当前世界模型研究中最核心的开放问题，也是World Labs在推进Marble的过程中，试图解决的方向。

方向已经非常清晰。从1980年代末开始，这个领域就一直在押注一个核心命题：只要拥有足够丰富的世界模型，智能体就能观察世界、构建世界、并在世界中行动。如今，这个“重大赌注”正在驱动新一代研究。它的力量，正来自正在发生的融合：三条原本独立的研究路径，各自已经支撑起数十亿美元的产业，现在开始表现得像一个整体。当它们的边界消失时，它们将共同重塑一个更宏大的东西：机器智能与其所处物理世界之间的关系——也就是空间智能的长期演进轨迹。

语言让机器能够谈论世界。而世界模型，将让机器最终能够理解、想象、推理，并与世界互动。

参考链接

https://x.com/drfeifei/status/2062247238143996275

来源：互联网

上一篇 AI视频告别抽卡：2024导演模型推荐排行榜 下一篇 开源代码知识图谱引擎排行榜：GitNexus构建依赖关系图

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

李飞飞世界模型鉴别指南 权威分辨技巧

摘要