菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 英伟达全开源物理AI大模型Cosmos 3深度测评
其他资讯 人工智能 大模型 3深度

英伟达全开源物理AI大模型Cosmos 3深度测评

2026-06-01
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

英伟达正式推出Cosmos 3,这是一款面向物理人工智能的开源世界基础大模型,采用混合Transfo

英伟达正式推出Cosmos 3,这是一款面向物理人工智能的开源世界基础大模型,采用混合Transformer架构,将视觉推理、世界生成与动作预测集成于统一系统。

英伟达官方声称,Cosmos 3是全球首款完全开源的全模态大模型,支持对文本、图像、视频、环境音效及动作进行原生处理。其核心优势在于业界领先的物理仿真精度,可将物理人工智能的训练与评估周期从数月缩短至数天。

同期,英伟达组建了宇宙联盟(NVIDIA Cosmos Coalition),汇聚全球世界模型研发团队与AI开发者。联盟成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI,目标共同推动下一代世界模型技术演进。

黄仁勋表示:“多模态推理语言、视觉及世界模型接连突破,物理人工智能的变革时代已经临近。Cosmos 3系列开源前沿全模态模型,将使开发者实现技术跃迁,打造能在真实世界中感知、推理、规划并执行的机器人、自动驾驶汽车及视觉人工智能系统。”

物理人工智能长期面临的核心挑战在于:如何让机器人、自动驾驶车辆和视觉智能体在有限训练数据与碎片化仿真框架下,真正在真实场景中获得泛化能力。Cosmos 3正是针对这一痛点设计。

该模型通过混合Transformer架构实现突破,将推理型Transformer与生成型Transformer深度融合。具体流程为:模型先解析物体交互、运动规律及时空关联,随后生成视频并预测动作轨迹。

训练数据层面,Cosmos 3基于海量多模态物理人工智能数据集构建,涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者以此预训练基础模型为起点,可用更少数据、更低成本快速搭建自有物理人工智能系统。

从实际应用视角,开发者可将Cosmos 3作为三类工具使用:

1. 多模态图文大模型——实现跨模态理解与推理;
2. 世界模型/视频基础模型——用于物理环境仿真、未来场景状态预判,支撑模型训练与评估;
3. 世界动作模型主干网络——辅助机器人完成专项任务训练。

主流评测基准表现同样突出。在开源模型范畴内,Cosmos 3的世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench中均排名第一;动作策略能力在RoboLab和RoboArena基准上领先;视觉理解能力登顶VANTAGE-Bench和TAR榜单。

最后,Cosmos 3提供多个版本适配不同物理人工智能研发阶段需求。Cosmos 3 Super和Nano现已正式推出,Edge版即将上线,主要支持边缘端实时推理。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多