其他资讯人工智能大模型 3深度

英伟达全开源物理AI大模型Cosmos 3深度测评

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

英伟达正式推出Cosmos 3，这是一款面向物理人工智能的开源世界基础大模型，采用混合Transfo

英伟达正式推出Cosmos 3，这是一款面向物理人工智能的开源世界基础大模型，采用混合Transformer架构，将视觉推理、世界生成与动作预测集成于统一系统。

英伟达官方声称，Cosmos 3是全球首款完全开源的全模态大模型，支持对文本、图像、视频、环境音效及动作进行原生处理。其核心优势在于业界领先的物理仿真精度，可将物理人工智能的训练与评估周期从数月缩短至数天。

同期，英伟达组建了宇宙联盟（NVIDIA Cosmos Coalition），汇聚全球世界模型研发团队与AI开发者。联盟成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI，目标共同推动下一代世界模型技术演进。

黄仁勋表示：“多模态推理语言、视觉及世界模型接连突破，物理人工智能的变革时代已经临近。Cosmos 3系列开源前沿全模态模型，将使开发者实现技术跃迁，打造能在真实世界中感知、推理、规划并执行的机器人、自动驾驶汽车及视觉人工智能系统。”

物理人工智能长期面临的核心挑战在于：如何让机器人、自动驾驶车辆和视觉智能体在有限训练数据与碎片化仿真框架下，真正在真实场景中获得泛化能力。Cosmos 3正是针对这一痛点设计。

该模型通过混合Transformer架构实现突破，将推理型Transformer与生成型Transformer深度融合。具体流程为：模型先解析物体交互、运动规律及时空关联，随后生成视频并预测动作轨迹。

训练数据层面，Cosmos 3基于海量多模态物理人工智能数据集构建，涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者以此预训练基础模型为起点，可用更少数据、更低成本快速搭建自有物理人工智能系统。

从实际应用视角，开发者可将Cosmos 3作为三类工具使用：

1. 多模态图文大模型——实现跨模态理解与推理；
2. 世界模型/视频基础模型——用于物理环境仿真、未来场景状态预判，支撑模型训练与评估；
3. 世界动作模型主干网络——辅助机器人完成专项任务训练。

主流评测基准表现同样突出。在开源模型范畴内，Cosmos 3的世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench中均排名第一；动作策略能力在RoboLab和RoboArena基准上领先；视觉理解能力登顶VANTAGE-Bench和TAR榜单。

最后，Cosmos 3提供多个版本适配不同物理人工智能研发阶段需求。Cosmos 3 Super和Nano现已正式推出，Edge版即将上线，主要支持边缘端实时推理。

来源：互联网

上一篇 2024年iPhone通话记录查询指南苹果手机查看完整历史 下一篇 天工AI行业观察短文提示词怎么写才能观点不空泛？3个核心方法详解

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

英伟达全开源物理AI大模型Cosmos 3深度测评

摘要

相关文章推荐