英伟达全开源物理AI大模型Cosmos 3深度测评
摘要
英伟达正式推出Cosmos 3,这是一款面向物理人工智能的开源世界基础大模型,采用混合Transfo
英伟达正式推出Cosmos 3,这是一款面向物理人工智能的开源世界基础大模型,采用混合Transformer架构,将视觉推理、世界生成与动作预测集成于统一系统。

英伟达官方声称,Cosmos 3是全球首款完全开源的全模态大模型,支持对文本、图像、视频、环境音效及动作进行原生处理。其核心优势在于业界领先的物理仿真精度,可将物理人工智能的训练与评估周期从数月缩短至数天。
同期,英伟达组建了宇宙联盟(NVIDIA Cosmos Coalition),汇聚全球世界模型研发团队与AI开发者。联盟成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI,目标共同推动下一代世界模型技术演进。
黄仁勋表示:“多模态推理语言、视觉及世界模型接连突破,物理人工智能的变革时代已经临近。Cosmos 3系列开源前沿全模态模型,将使开发者实现技术跃迁,打造能在真实世界中感知、推理、规划并执行的机器人、自动驾驶汽车及视觉人工智能系统。”
物理人工智能长期面临的核心挑战在于:如何让机器人、自动驾驶车辆和视觉智能体在有限训练数据与碎片化仿真框架下,真正在真实场景中获得泛化能力。Cosmos 3正是针对这一痛点设计。
该模型通过混合Transformer架构实现突破,将推理型Transformer与生成型Transformer深度融合。具体流程为:模型先解析物体交互、运动规律及时空关联,随后生成视频并预测动作轨迹。
训练数据层面,Cosmos 3基于海量多模态物理人工智能数据集构建,涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者以此预训练基础模型为起点,可用更少数据、更低成本快速搭建自有物理人工智能系统。
从实际应用视角,开发者可将Cosmos 3作为三类工具使用:
1. 多模态图文大模型——实现跨模态理解与推理;
2. 世界模型/视频基础模型——用于物理环境仿真、未来场景状态预判,支撑模型训练与评估;
3. 世界动作模型主干网络——辅助机器人完成专项任务训练。
主流评测基准表现同样突出。在开源模型范畴内,Cosmos 3的世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench中均排名第一;动作策略能力在RoboLab和RoboArena基准上领先;视觉理解能力登顶VANTAGE-Bench和TAR榜单。
最后,Cosmos 3提供多个版本适配不同物理人工智能研发阶段需求。Cosmos 3 Super和Nano现已正式推出,Edge版即将上线,主要支持边缘端实时推理。


来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。