热点资讯

γ-World世界模型：英伟达清华团队登顶HuggingFace日榜

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

视频世界模型此前仅支持单参与者，英伟达清华团队γ-World通过正单纯形顶点编码和hubtoken

视频世界模型过去两年的进展称得上突飞猛进——Sora、Cosmos、Genie在画质、时序和交互能力上不断刷新记录。但所有这些成就都建立在一个共同前提之上：世界里只有一个参与者。而在真实应用场景中，这个前提几乎从不成立。

想象一下多人游戏：你的一个走位就会改变队友和对手的决策空间；工厂产线上，一台机械臂的轨迹直接约束着另一台的运动范围；具身智能体训练中，多个agent在同一个环境里同时探索、彼此影响。这些场景的共性是什么？因果耦合——一个主体的行为改变了共享环境的状态，其他所有主体都必须感知到并据此调整行动。这可不是单智能体框架加点数据就能解决的，而是设计层面压根没预留接口的问题。

现有方案都卡在了同一个瓶颈上

过去一年，多智能体世界模型方向涌现了不少新工作。Solaris在Minecraft里收集了大规模多人同步数据，训练出能同步生成双人视角的世界模型，算是目前公开方案里最接近实用的。Enigma Labs的Multiverse走开源路线，用两个模型搭建了多人赛车世界。Odyssey的Agora-1更激进，让四个玩家共享同一个实时生成的对战世界。

这些工作都证明了多智能体世界模型是可以实现的。但仔细看，它们都卡在了同一个地方：能做，但扩展不了。

拿Solaris来举例，两个结构性问题直接决定了它的天花板。第一个是对称性被打破了。Solaris给每个玩家学一套固定的槽位身份向量，表面上是给玩家分配ID，实际上是在模型里把1号玩家和2号玩家学成了两种不同的角色类型。模型学会的是这两个特定角色怎么互动，而不是多个平等的玩家如何共享一个世界。想加第三个玩家？必须重新训练。

第二个问题更致命：算力随人数呈平方级爆炸。Solaris让所有玩家的所有token两两交互，这个成本随玩家数量平方增长——2人到4人，计算量翻4倍；2人到8人，翻16倍。两人跑得动，多几个人基本就告别实时了。这两个问题，一个是建模哲学问题，一个是算法复杂度问题，靠堆算力和堆数据都解决不了。

Gamma-World：从底层重新设计

今年5月下旬，NVIDIA联合清华大学、多伦多大学和Vector Institute发布了Gamma-World。这个方案没有在现有世界模型的基础上修修补补，而是重新设计了一套全新的多玩家世界模型框架，把位置编码和注意力机制两个底层组件一并改写了，从而将上面两个问题一并解决。

关于对称性问题，Gamma-World的做法是把每个玩家映射到旋转角空间里一个正单纯形的顶点上。正单纯形的所有顶点之间距离完全相等——2个玩家是线段两端，4个玩家是正四面体的四个顶点，任意两点距离相同。这样一来，模型看到任何两个玩家，他们之间的几何关系完全一致，谁也不比谁特殊。这个编码不需要任何可学习参数，也不绑定固定玩家数量——训练时用两人，推理时想用四人，从顶点池里多取两个顶点就行，架构不用改，也不用重新训练。

复杂度问题呢？Gamma-World引入了一组hub token作为共享通信枢纽。玩家不再两两直连，而是所有人先把信息汇给枢纽，枢纽再广播给所有人。信息路径变成两跳：玩家到枢纽，枢纽再到玩家。计算成本从平方级被压到了线性级。8个玩家时，Gamma-World的算力消耗只有全连接方案的八分之一，延迟从17.6ms降到了4.5ms。

实际表现如何？

先看双人Minecraft交互。两路画面实时同步，一个玩家的走位和动作，立刻反映在另一个玩家的视角里。这可不是两段碰巧放在一起的视频——两路画面描述的是同一个世界，玩家A看到的和玩家B看到的，在空间上是完全自洽的。

接着是这个项目最有冲击力的结果：零样本四人泛化。这个模型从来没见过四个人的训练数据。推理时只需要从单纯形顶点池里多取两个顶点，四路同步视角直接生成，共享世界状态完整保留。这不是多生成几段视频，而是模型真的学会了多个主体共享同一个世界这件事本身。

最后是真实机器人场景。同一套框架，从Minecraft方块世界直接迁移到真实桌面操作，左右两条机械臂各作为一个独立智能体。生成的未来帧保持了双臂的协同运动和空间布局，没有任何额外改动。X上网友的评价很能说明问题：实时多智能体游戏，把游戏玩法扩展到UMI数据收集场景，将两个臂视为独立的袋里（共享观察空间），由于其实时效率，或许可以开始利用神经模拟而非物理交互来实现具身的数据采集。

这件事真正打开了什么？

Physical AI领域长期面临一个核心瓶颈：高质量的多智能体交互数据极度稀缺。语言数据可以从互联网挖，图像数据可以从相机采集，但物理交互数据——一台机器人拿起杯子、另一台做出响应，一个玩家改变环境、另一个据此决策——几乎不存在规模化的采集来源。采一小时真实双臂协作数据，需要两台机器人、一个操作空间、至少一个人全程监督。真实世界的数据产出速度，最终受限于人类时间和物理空间，这个瓶颈不是钱能直接解决的。

这也是为什么语言模型令全世界沸腾的scaling law在Physical AI领域迟迟没能复现——不是模型不够大，是数据根本不够。

多智能体世界模型有可能改变这个等式。当模型能在共享环境中同时模拟多个智能体的交互，它天然就成为一台交互数据的生成器：多个agent在虚拟世界中对抗、协作、探索，24小时不间断地产出轨迹数据，然后用这些数据训练真实的机器人和游戏AI。更重要的是，这个过程可以主动设计：想要更多双臂协作场景，就在虚拟环境里跑更多双臂任务；想要更极端的对抗场景，就让agent在虚拟世界里自我博弈。真实世界采数据是被动的，世界模型生成数据是主动的，这个主动性本身就是质的跃升。

而且这个飞轮一旦转起来，会自我加速：更好的世界模型生成更高质量的训练数据，更高质量的训练数据训练出更好的policy，更好的policy跑出更多样的交互轨迹，又反哺世界模型的下一轮训练。这个循环在单智能体时代已经有人在做了，多智能体世界模型把这个循环的覆盖范围扩展到了真正有价值的场景。

赛道格局正在悄然改变

Solaris证明了两个玩家是可行的；Gamma-World证明了扩展到更多玩家是可行的，而且不需要为每个新的玩家数重新训练。听起来只是一步，但这是这个赛道从能做到可扩展的关键跨越——就像当年游戏引擎从单机走向联机，不只是多了几个角色，而是整个游戏世界的生产逻辑变了。

Solaris、Multiverse、Agora-1、Gamma-World，各家技术路线不同，但指向同一个判断：单机时代的世界模型，已经到了天花板。

接下来的竞争会在几个维度同时展开。模型层面，谁能把多智能体一致性实时响应做得更好、支持更多agent、在更复杂场景下不崩；数据层面，多智能体世界模型本身就是数据生成器，谁的生成质量更高、物理规律更准，谁就能产出更好的训练数据反哺下一代模型；应用层面，从Minecraft到机械臂只是开始，自动驾驶、无人机编队、手术机器人协作，每一个都是独立的战场，也都指向千亿万亿级的市场规模。

但这些竞争背后有一个更根本的问题还没有答案：生成出来的多智能体交互，物理规律和因果逻辑能不能真正经得起检验？虚拟环境里学到的规则如果和真实世界对不上，灌再多数据也是噪声。Gamma-World在机械臂上的迁移实验是一个积极信号，但这个问题要真正答完，还需要更系统的验证。

这也是为什么这个方向现在如此值得关注——它不只是世界模型的多人版，而是在试图回答一个更大的问题：AI能不能真正理解一个有多个参与者的世界，以及这种理解能不能迁移到真实物理场景中去。这件事一旦答出来，Physical AI训练数据的生产方式将发生根本性的改变。

从单机到联机，世界模型的下一场战争，才刚刚开始。

来源：互联网

上一篇 雅迪摩登：女性出行最优解榜单 下一篇 李飞飞率队打造超越ImageNet的全新AI基准

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。