NVIDIA Cosmos 3 评测:物理AI推理世界与动作模型开发
摘要
NVIDIACosmos3是一个开源物理AI基础模型,通过混合变换器双塔架构将物理推理、世界生成与动
要让Physical AI真正落地,系统必须先读懂所处的三维空间。无论机器人、自动驾驶车辆,还是智能仓储、工厂等环境,都需要实时感知周围动态,预测下一步变化,再根据特定场景、对象和任务目标,生成精确的动作序列。
NVIDIA Cosmos 3正是为破解这一难题而设计的前沿基础模型。它将物理推理、世界生成与动作生成能力全部封装在一个开源模型中,不再像过去那样分散在多套模型里。
本次发布,NVIDIA 在 GitHub 与 Hugging Face 上开源了 Cosmos 3 的完整模型权重、训练脚本、部署工具及数据集,旨在提升物理AI开发的透明度与可复现性。下文将逐步拆解 Cosmos 3 的核心原理、技术报告关键要点以及完整技术工作流,帮助机器人操控、自动驾驶、仓库监控等团队快速切入实战。


本次发布的核心亮点如下:
- 在 Hugging Face 上开源 Cosmos 3 Nano 与 Cosmos 3 Super 模型权重及配套代码(GitHub)。
- 提供面向物理AI(如机器人、自动驾驶)的开源数据集。
- 开源用于将 Cosmos 3 适配至特定领域的后训练脚本。
- 推出 Cosmos NIM 微服务,在 NVIDIA GPU 上实现优化部署。
Cosmos 3 的新特性
此前的 Cosmos 版本需将世界生成、物理理解、可控场景生成等能力分散到不同模型与工作流中。本次 Cosmos 3 基于“混合变换器(MoT)”架构的双塔设计,将这些能力统一到一个模型中。
- 推理塔(Reasoner tower): 一个视觉语言模型,处理图像、视频与文本等多模态输入。采用自回归架构理解输入内容,从而捕捉运动、物体交互及其他物理上下文。可以将其视为模型的“大脑”——在任何生成动作发生前,先对世界进行推理。
- 生成塔(Generator tower): 负责生成未来的观察结果与动作序列。采用基于扩散的流程,以推理塔的理解为基础,生成符合物理规律的视频和动作输出。推理塔可独立调用,但生成塔每次激活时都会联动两个塔共同完成引导生成。

这种架构的精髓在于单个模型即可同时完成推理与生成任务,避免在多模型与推理流程之间来回编排,大幅简化开发流程。
如何选择合适的模型规模
目前 Cosmos 3 提供两种模型:
- Cosmos 3 Nano: 精简版,8B参数,专为高效推理优化。面向工作站级算力,例如 NVIDIA RTX PRO 6000 GPU,适合机器人实时推理等物理AI应用。
- Cosmos 3 Super: 旗舰版,32B参数,追求最高质量与性能。在各项基准测试中表现最佳,目标部署在 NVIDIA Hopper 和 Blackwell GPU 上,适合大规模合成数据生成与高级物理推理等任务。
支持的模态组合
Cosmos 3 统一的架构支持以下输入输出组合:
| 模型类型 | 输出 | 应用场景 |
|---|---|---|
| 文本 | 图像 | 符合物理规律的图像生成 |
| 文本 | 视频 | 视频 | 为罕见边缘案例生成视频数据的世界模型 |
| 文本 | 图像 | 视频 | 用于预测的世界模型 |
| 文本 | 图像 | 视频 | 文本 | 用于推理的视觉语言模型 |
| 动作 | 视频 | 文本 | 视频 | 动作条件世界模型 |
| 视频 | 文本 | 视频 | 动作 | 世界动作模型、视频动作模型、视觉语言动作模型、机器人学习策略模型 |
物理AI开源数据集
伴随 Cosmos 3 的发布,NVIDIA 还在 Hugging Face 上开源了六个合成数据生成(SDG)数据集。这些数据集覆盖机器人、物理仿真、空间推理、人体运动、驾驶和仓库环境,可用于 Cosmos 3 或其他模型的后训练。具体涉及以下六个场景:
- 具身机器人场景
- 物理交互场景
- 空间推理
- 数字人场景
- 自动驾驶场景
- 仓库作业场景






NVIDIA Cosmos 人类评估基准(HUE)
NVIDIA 推出的 HUE 框架专门用于评估 Cosmos 3 生成器在代表性领域任务中的质量。
当前,顶级视频生成模型在现有自动化榜单上表现趋近饱和,版本间分数差异往往不足以进行有意义对比。HUE 将评估方式从主观评分转向客观事实验证,可对顶尖模型进行精细比较。这为快速迭代和依赖完整人工评估的严格发布决策提供了更可靠的质量信号。
HUE 采用原子化的二元验证方式评估视频生成质量。对于每个生成的视频,从语义对齐、物理规律、几何推理和视觉完整性四个维度拆解出一个个是/否问题。这些问题通过 VLM 流程生成,再由人类专家精炼,最终作为开源资源发布在 Hugging Face 上。
基准测试结果
Cosmos 3 在多项基准测试套件中进行了评估,涵盖物理AI推理、生成质量和特定领域性能。
推理基准测试
Cosmos 3 Super 和 Nano 分别在 32B 和 8B 级别上引领 VANTAGE-Bench 排行榜:
- VANTAGE-Bench:首个用于评估视觉语言模型在仓库、交通和智能空间等固定摄像头实况视频上表现的公开基准。
- 交通异常推理(TAR):用于检测和理解交通视频异常事件的新排行榜,也是 AI City Challenge 2026 赛道3的官方榜单。
生成器基准测试
Cosmos 3 在 R-Bench、PAI-Bench、Physics-IQ 和 RoboLab 等多个公开榜单上取得开源 SOTA 成绩,具体包括:
- Artificial Analysis:一个为文本、图像和视频生成模型排名的基准平台。Cosmos 3 目前在文本到图像以及图像到视频(无音频)的排行榜上均处于开源模型领先地位。
- R-Bench:用于评估基于视频的世界模型在机器人视频生成中的表现,通过结构一致性、物理合理性、执行完整性等子指标衡量任务完成度和视觉质量。
- PAI-Bench:一个统一的基准,用于评估物理AI在视频理解和生成方面的能力,涵盖机器人、自动驾驶、物理常识等领域。
- Physics-IQ:一个使用真实世界视频的基准,旨在测试生成式视频模型是否真正理解物理原理,而不仅仅是追求视觉上的真实感。
- RoboLab:用于评估通用机器人策略的仿真基准。
训练方法
这次 Cosmos 3 发布的核心部分之一,是完全开源的训练方法。除了模型权重,还提供了用于将 Cosmos 3 适配到新领域、新实体和新数据集的代码、配置和工作流。
监督微调(SFT)后训练
SFT 让开发者可以将 Cosmos 3 模型适配到自己的数据上。发布的方案包括针对自定义视频数据集的视觉生成后训练,以及面向机器人和物理AI工作流的动作生成后训练。这样,开发者就能根据自己的目标领域(如机器人、自动驾驶、仓库自动化)来定制 Cosmos 3。相关的后训练代码和配置文件都在 GitHub 上开放。
动作后训练
动作后训练将 Cosmos 3 适配为能够处理动作感知的物理AI应用,包括前向动力学、逆向动力学和策略生成。开发者可以在带有动作标签的数据上进行后训练。对于机器人应用而言,这意味着几个重要的工作流:根据机器人动作生成未来的观察结果、从演示中推断出背后的动作、以及根据当前观察和任务提示预测动作序列。这使得 Cosmos 3 成为世界动作建模和策略学习的强大基础。
使用 NVIDIA NIM 微服务进行部署
Cosmos 3 模型还可以作为 NVIDIA NIM 微服务使用,以实现优化和可投入生产的部署。NIM 微服务将模型与优化的推理运行时打包在一起,无需手动调优服务基础设施即可获得高性能。对于推理工作流,使用 NIM 微服务比用 GitHub 上的 Cosmos 3 仓库要容易得多,后者更适合后训练工作流。
Cosmos 3 Reasoner NIM 现已可用,能够提供 Cosmos 3 模型的全部推理能力。Cosmos 3 Generator NIM 也将发布,届时会提供完整的生成能力。
用于加速推理的优化措施
- 量化: Cosmos 3 NIM 支持选择 BF16、FP8 或 NVFP4 量化检查点。NVFP4 量化将模型的数值精度从 BF16 降低到 4 位浮点数,推理速度最高可提升 2 倍。
- vLLM: 一个开源推理引擎,通过连续批处理、分页注意力和张量并行等技术来高效服务大模型。Cosmos 3 Reasoner NIM 的服务栈就基于 vLLM 构建,相比传统服务方式能提供更高的吞吐量。Cosmos 3 Nano 已准备好使用 vLLM-omni 和 NVIDIA Dynamo 来实现顶级性能。
- 高效视频采样(EVS): 该技术减少了推理时输入 VLM 的视频令牌数量,从而加速了 Cosmos Reason NIM。EVS 在块级别工作,保留每帧中最独特的块并剪掉其余的。较小的 GPU 往往能从这项技术中受益更多。
如何运行 NIM
需要拥有 NVIDIA NGC API 密钥,才能拉取容器并从 NGC 下载 Cosmos 3 模型。
拉取并运行 Cosmos3 Nano Reasoner NIM 的命令如下(对于 Cosmos3 Super Reasoner NIM,请指定 NIM_MODEL_SIZE=super):
docker run --gpus=all -e NGC_API_KEY=$NGC_API_KEY -e NIM_MODEL_SIZE=nano -p 8000:8000 nvcr.io/nim/nvidia/cosmos3-reasoner:latest
更多 API 使用细节请查阅相关文档。
快速上手
- 从 Hugging Face 下载 Cosmos 3 Nano 和 Super 模型检查点。
- 在 Cosmos 3 GitHub 上查找示例和代码。
- 亲自体验 Cosmos 3 Nano Reasoner 模型。
致谢
Cosmos 3 是 NVIDIA 内部众多团队和个人通力合作的成果,包括 Adeline Aubame、Aditya Mahajan、Aigul Dzhumamuratova、Akash Gokul、Akul Santhosh、Aleksandr Efitorov、Alex Sotelo、Alexander Schwarz、Alperen Degirmenci、Amol Fasale、Andrew Tham、Ankur Handa、Arihant Jain、Arslan Ali、Artur Zolkowski、Aryaman Gupta、Asawaree Bhide、Ashkan Mirzaei、Ashley Chow、Ashna Khetan、Atharva Joshi、Barnaby Simkin、Benedikt Falk、Brett Hamilton、Carlos Casanova、Chaeyeon Chung、Charles Zhou、Chen-Hsan Lin、Chen-Hsuan Lin、Chha vi Nijhawan、Chieh-Yun Chen、Chintan Shah、Chris Helvig、Chris Pruett、Cindy Zha、Cyrus Hogg、Dahjung Chung、Dan Blick、Da vid Wehr、Dawid Majchrowski、DeLesley Hutchins、Delin Qu、Dennis Lynch、Diego Garzon、Dima Zhylko、Durra Mohsin、Egor Krivov、Ekram Mukbil、Eric Cameracci、Fangyin Wei、Fengzhe Zhou、Francesco Ferroni、Freya Li、George Kurian、Gwanghyun Kim、Haaland Hao Liang、Hai Loc Lu、Hans Yang、Hao Liang、Hao Wang、Hesam Rabeti、Hugo Hadfield、Hyejin Moon、Itai Zadok、Jayjun Lee、Jeana Choi、JF Lafleche、Jiangran Lyu、Jiaojiao Fan、Jiaxiang Tang、Jibin Varghese、Jim Fan、Jingyi Jin、Jinwei Gu、Jon Allen、Joshua Bapst、Joyjit Daw、Julia Kiczka、Julian Ouyang、Kaichun Mo、Kayley Ting、Ke Ding、Kedi Wu、Kevin Brady、Kirill Motkov、Kristen Rumley、Krzysztof Tomala、Liang Feng、Liangkai Zhang、Ling Li、Louis Marcoux、Maciej Bala、Madison Huang、Magdalena Dadela、Mahesh Patekar、Marco Di Lucca、Marilyn Reeb、Mark Carlson、Martin Antolini、Mateusz Sieniawski、Matt Cragun、Meredith Price、Michael Huang、Miguel Guerrero、Miguel Martin、Min Shi、Ming-Yu Liu、Mohammad Harrim、Morteza Ramezanali、Mukesh Beladiya、Nalin Dadhich、Naomi Eigbe、Nathan Hayes-Roth、Nicole Drumheller、Nikhilesh Joshi、Omar Laymoun、Paris Zhang、Paula Ramos、Pawel Morkisz、Peter Gambrill、Pooya Jannaty、Pooya Khaloo、Pranjali Joshi、Qi Wang、Qianli Ma、Qiao Wang、Qing Miao、Qizhi Chen、Rahul Heinrich Steiger、Raju Wagwani、Robert Denomme、Rodrigo Vieira Del Monte、Roy Anthony、Ruqing Xu、Ryan Bernard、Ryan Ji、Saeid Motiian、Sandip Bhaskar、Sandra Skaff、Santanu Dutta、Saura v Kumar、Sehwi Park、Sergiy Fefilatyev、Shangkun Sun、Shangru Li、Shilin Zhu、Shreyas Misra、Shun Zhang、Shuran Song、Simon Yuen、Simon Zhang、Slawek Kierat、Smita Ithape、Soha Pouya、Sophia Huang、Stefanie Manzinger、Steven Baughman、Suneel Indupuru、Sunil Srinivasa、Sunny Kim、Ta vish Chen、Thabang Ngazimbi、Thomas Volk、Tianwei She、Tiffany Cai、Ting-Chun Wang、TJ Galda、Tolou Ta vakkoli、Tomasz Kornuta、Trung Pham、Tsung-Yi Lin、Vanni Brighella、Varun Pra veen、Wei-Cheng Tseng、Wenjie Luo、Wesley Li、Wojciech Kutak、Wojciech Rymer、Xiangyu Lu、Xiaodong Yang、Xiaotong Chen、Xin Kong、Xinquan Xu、Xiu Chia、Xuning Yang、Yan Chang、Yan Wang、Yanan Jian、Yao Xu、Yashraj Narang、Yeongho Seol、Yichu Yang、Yifan Ding、Yihuai Gao、Yilin Zhao、Yin Cui、Yogesh Balaji、Yu Wang、Yu-Wei Chao、Yue Tang、Yufan Huang、Yuke Zhu、Yuliya Zhautouskaya、Yurong You、Yuzhu Dong、Zaid Pervaiz Bhat、Zekun Hao、Zhaoshuo Li、Zhizheng Zhang。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。