进阶教程
综合资讯
NVIDIA Cosmos评测:物理智能宇宙的十大亮点
摘要
NVIDIACosmos是一个由世界模型、数据集和工具构成的开放平台,旨在为机器人、自动驾驶等Phy
如果說大語言模型讓機器學會了“說話”,那 NVIDIA Cosmos 的野心顯然更進一步——它想讓機器真正開始“看世界、懂世界、想象世界”。
它不單單是一個只盯著文本做續寫的系統,更像一位正在成長中的世界學徒。它會看圖、讀視頻、理解動作、預測接下來會發生什麼,還能將一句文字描述擴展成圖像、視頻、聲音,甚至帶着動作軌跡去推演未來。它不只是回答問題,更像是在試圖理解現實,並為機器人、自動駕駛、智能基礎設施等 Physical AI 場景,搭建一個可以練習、推理、模擬、預見的舞台。
NVIDIA 對這個項目的描述非常明確:**Cosmos 是一個由世界模型、數據集和工具構成的開放平台,用來幫助開發者構建 Physical AI。**
一句話聽起來很硬核,但如果換一種更貼近直覺的說法:Cosmos 正在為機器打造“感知世界的大腦”和“預演未來的想像力”。
---
## Cosmos 是誰
從倉庫的 README 和描述來看,Cosmos 的核心定位非常鮮明:
它是一個 **open platform**,不是單一模型,也不是一個孤立的推理 API,而是一整套圍繞世界模型展開的能力體系。它面向的不是純文本應用,而是更貼近真實物理世界的智能體,包括:
- 機器人
- 自動駕駛車輛
- 智能基礎設施
- 以及更多需要理解現實、預測變化、執行行動的 Physical AI 系統
換句話說,Cosmos 不滿足於讓 AI 只會“聊天”,它更想讓 AI 學會:
- 看懂發生了什麼
- 推斷下一步會發生什麼
- 根據環境和目標進行規劃
- 生成可用於訓練、仿真和決策的數據
- 讓機器在真實部署前,先在模型世界裏練習很多遍
從這個角度看,Cosmos 像是一位“造世界的人”。它一邊觀察現實,一邊複製現實,一邊理解現實,一邊模擬現實。現實世界太昂貴、太複雜、太危險,於是它決定先在數字宇宙裏搭一座訓練場。
---
## Cosmos 3:這個宇宙裏最新的主角
當前倉庫重點介紹的是 **Cosmos 3**,這是 Cosmos 最新的模型家族。
README 把 Cosmos 3 的能力拆成了兩大運行表面:
| Surface | Inputs | Outputs | Use Cases |
|----------|----------|----------|----------|
| Reasoner | Text, vision | Text | 世界理解、grounding、物理推理、任務規劃、動作預測、具身智能推理、自主系統決策 |
| Generator | Text, vision, sound, action | Vision, sound, action | 世界生成、世界模擬、未來預測、合成數據生成、策略學習、機器人訓練 |
這兩位角色非常像一對搭檔。
### Reasoner 像什麼
Reasoner 像一個冷靜的觀察者。它看視頻、看圖像、接收文本問題,然後給出文字回答。
它擅長的事情包括:
- 視頻和圖像理解
- 事件定位
- 物理常識判斷
- 任務規劃
- 動作預測
- 2D grounding
- 情境理解
- 駕駛場景推理
- 具身智能推理
你可以把它想像成一位站在現場的分析師。別人看到一個機器人在桌面邊晃動手臂,它看到的則是:環境約束、物體關係、潛在動作、可能結果、是否符合物理常識。
### Generator 像什麼
Generator 更像一個導演兼預演師。你給它文字、圖像、視頻、動作,它可以生成新的圖像、視頻、聲音,甚至基於動作去推演未來狀態。
它可以做:
- text-to-image
- text-to-video
- image-to-video
- video-to-video
- text-to-video with sound
- image-to-video with sound
- forward dynamics
- action policy
- inverse dynamics
如果說 Reasoner 是“懂世界的人”,那 Generator 就是“會造世界的人”。一個負責理解,一個負責想象;一個負責判斷,一個負責生成。兩者組合在一起,機器就不再只是一個被動響應器,而是像是開始擁有了“先看懂,再推演,再行動”的閉環。
---
## 它為什麼值得關注
今天很多 AI 項目已經能做到驚豔的文本生成、圖像生成、視頻生成,但 Cosmos 的野心不單是“內容生成”,而是更貼近真實系統建設的 **world model**。
這裏的關鍵詞不是“華麗”,而是“物理世界”。
README 中提到的能力方向,幾乎都圍繞現實任務展開:
- world understanding
- world generation
- action modeling
- policy learning
- robot training
- autonomous system decision making
- synthetic data generation
- future prediction
這意味着 Cosmos 並不是單純做一個看起來很炫的視頻模型,而是在試圖解決一個更深的問題:
**機器如何在複雜的現實世界裏理解環境、預測變化、訓練策略,並安全地學會行動。**
這也是為什麼它特別適合機器人、自動駕駛、智能基礎設施這類場景。因為這些系統不是答錯一段文案而已,它們面對的是空間、時間、運動、因果、約束、風險、反饋。
換句話說,Cosmos 不只是讓 AI “更聰明”,而是讓 AI “更像一個能在現實中做事的存在”。
---
## Cosmos 3 的關鍵能力,看起來像在給機器裝感官和直覺
README 裏給出了幾個非常關鍵的能力標籤,每一個都值得單獨拿出來說。
### 1. World understanding
它能分析圖像和視頻,做字幕描述、時間事件理解、下一步動作預測、空間 grounding、物理合理性判斷、因果結果推斷。
這就像它不僅會“看”,還開始會“理解為什麼”。
一個普通模型也許會說:“畫面裏有一個機器人。”而 Cosmos 更想回答的是:
- 機器人在做什麼
- 這個動作接下來可能導致什麼
- 某個事件大概發生在視頻的哪個時間段
- 當前場景是否符合物理常識
- 目標對像在圖像中的哪裏
這已經不是簡單的視覺識別,而是在向“場景理解”和“過程推理”邁進。
### 2. World generation
它可以從文本、圖像、視頻、動作輸入中生成圖像、視頻、同步聲音,以及動作條件下的 rollout。
這意味着它能夠把“描述”變成“可視化現實”,也能把“當前狀態”推進到“未來狀態”。
這很適合做模擬、訓練、合成數據、策略驗證。現實世界採集成本高、試錯風險大,而在模型世界裏,機器可以先把未來演幾遍。
### 3. Action modeling
它支持策略動作預測、逆動力學、前向動力學,覆蓋機器人、相機運動、自車運動、自動駕駛等場景。
這一部分尤其像是在給模型注入“動作感”。它不只是看見物體,更會思考:
- 應該怎麼動
- 剛才是怎麼動成現在這樣的
- 如果下一步這樣動,會發生什麼
當一個模型開始把“感知”與“動作”聯結起來,它就越來越接近真正的具身智能。
### 4. Research and production paths
README 裏還特別強調了不同集成路徑:
- Diffusers / Transformers 適合 Python-first 的研究開發
- vLLM-Omni / vLLM 適合 OpenAI-compatible serving
- NIM 提供生產級部署路徑
- Cosmos Framework 面向更完整的訓練、微調、評估流程
這說明 Cosmos 不是那種只在論文裏發光、落地時沉默的項目。它很清楚開發者分成不同人群:
- 有人想研究模型
- 有人想快速做原型
- 有人想搭服務
- 有人想做訓練和評估
- 有人只想盡快部署一個可調用的接口
Cosmos 沒有把所有人都趕進同一條路,而是像一個成熟的平台那樣,給出了多條入口。
---
## Cosmos 3 的模型家族:不是一個人單打獨鬥,而是一整支艦隊
README 裏列出了當前的模型家族:
- **Cosmos3-Nano**,16B:緊湊型 omnimodal world model,適合多模態理解、世界模擬、未來預測、動作推理、Physical AI 應用
- **Cosmos3-Super**,64B:前沿級 omnimodal world model,能力更強,適合更高階任務
- **Cosmos3-Super-Text2Image**,64B:高保真文生圖
- **Cosmos3-Super-Image2Video**,64B:強調時間一致性的圖生視頻
- **Cosmos3-Nano-Policy-DROID**,16B:面向 DROID manipulation and control 的視覺語言機器人策略模型
從命名就能感受到它的角色分工非常明確。Nano 像敏捷的偵察兵,Super 像重裝主力艦,而針對特定場景的模型則像專業作戰單位。
這類家族化設計很重要,因為 Physical AI 的需求本來就不是單一的。有的場景追求推理能力,有的更關心視頻生成,有的要做動作策略,有的看重部署效率。Cosmos 沒把它們硬塞進同一張臉,而是把它們組織成了一套生態化編隊。
---
## 支持的生成設定,看得出它不是玩具,而是認真給開發者用的
在生成能力上,Cosmos 3 給出了相當具體的支持範圍:
- 分辨率:256p、480p、720p
- 長寬比:16:9、4:3、1:1、3:4、9:16
- 幀率:10、16、24、30 FPS
- 幀數:5 到 300
- 精度:BF16 tested
- 操作系統:Linux
- GPU 架構:NVIDIA Ampere、Hopper、Blackwell
這些信息看似枯燥,但恰恰說明它的 README 寫得非常工程化。它沒有隻告訴你“我們很強”,而是直接告訴你:
- 可以怎麼跑
- 跑到什麼規格
- 在什麼硬件上跑
- 適合什麼系統環境
對於開發者來說,這種明確性很珍貴。它像一個經驗豐富的工程師,不跟你空談願景,先把規格表掏出來給你看。
---
## 輸入和輸出:它接住的不只是文字,而是更完整的世界片段
Cosmos 3 支持的輸入類型包括:
- Text
- Text image
- Text video
- Text image action
輸入格式包括:
- 文本字符串
- JPG / PNG / JPEG / WEBP 圖像
- MP4 視頻
- JSON action array
輸出則可以是:
- 圖像
- 視頻
- 聲音
- 動作狀態
- 文本
這種 I/O 設計非常像一個真正的“多模態世界接口”。很多模型處理的是“內容”,而 Cosmos 處理的是“場景”和“行為”。你給它的不只是 prompt,而像是在遞給它一小段現實:一張圖、一段視頻、一串動作、一句任務意圖。然後它還給你的,也不只是答案,而可能是未來、結果、聲音、軌跡、動作。
它開始像一個數字化實驗室,而不只是一個文本補全器。
---
## Generator 的世界:它不隻會畫圖,還會把未來拍成片子
README 裏對 Generator 的工作流列得很完整,包括:
- Text-to-image
- Text-to-video
- Text-to-video with sound
- Image-to-video
- Image-to-video with sound
- Video-to-video
- Video-to-video with sound
- Forward dynamics
- Action policy
這份列表裏最讓人印象深刻的部分,是它把生成和動作建模放在了一起。這就意味着 Cosmos 的“生成”不是單純做一個視覺結果,而是在向“模擬世界演化”靠攏。
舉個直觀的例子:
- 普通視頻生成像是在做一段鏡頭
- Cosmos 的 forward dynamics 更像是在預測“如果按這個動作執行,未來畫面會變成什麼樣”
這對機器人訓練和策略驗證太關鍵了。因為機器真正需要的,不是好看的畫面,而是“如果我這樣做,世界會怎樣回應”。
---
## Reasoner 的世界:它像在給視頻做推理,而不是做描述
README 中給出的 Reasoner 工作流也很豐富:
- Caption
- Temporal localization
- Embodied reasoning
- Common-sense reasoning
- 2D grounding
- Describe anything
- Action CoT
- Physical Plausibility Analysis
- Situation Understanding
這套能力列表有個非常鮮明的特徵:**它並不滿足於靜態識別,而是在努力處理時間、動作、空間、因果與常識。**
比如 temporal localization,不只是“視頻裏發生了什麼”,而是“某件事在什麼時候發生”。比如 embodied reasoning,不只是“看到了什麼”,而是“下一步應該做什麼”。比如 physical plausibility,不只是“畫面像不像”,而是“這件事是否符合物理常識”。
這種能力結構,非常適合通往機器人與自動駕駛。因為現實世界中的智能,不是背答案,而是不斷面對這些問題:
- 現在是什麼狀態
- 接下來會發生什麼
- 什麼動作是合理的
- 哪些結果是不符合物理規律的
- 哪個目標在什麼位置
- 當前情境意味着什麼
Cosmos 的 Reasoner,像是在學習把這些問題串成一條完整的思考鏈。
---
## 它的架構也很有意思:像把“思考”和“生成”裝進了一台統一機器
README 提到,Cosmos 3 是一個 **omnimodal world model**,基於統一的 **Mixture-of-Transformers (MoT)** 架構。它結合了:
- 用於推理的 autoregressive transformer
- 用於生成的 diffusion transformer
這個設計很有意味。因為在很多系統裏,“理解”和“生成”往往是拆開的,像兩個部門各管一攤。而 Cosmos 更像是把它們安排進同一個組織架構裏,讓“推理”和“生成”彼此協作。
可以把它想像成一座城市:
- AR transformer 像城市裏的思考中樞,負責判斷、組織語言、推理問題
- Diffusion transformer 像城市裏的造景師,負責把想法和條件擴散成圖像、視頻、聲音和動態結果
於是 Cosmos 不只是會說“我理解了”,還會說“我給你演出來”。
---
## 快速上手:在真正跑起來之前,它先要求你有通行證
在 Quickstart 裏,Cosmos 的第一個動作不是急着炫技,而是提醒你先完成 Hugging Face 認證:
```bash
uvx hf@latest auth login
```
這一步很像宇宙入口的通行閘機。你得先拿到訪問模型倉庫的權限,才能進入後續世界。
如果你想使用共享緩存或者更大的磁盤空間,還可以設置:
```bash
export HF_HOME=/path/to/cache
```
這類提示很接地氣,因為大模型環境往往不是“裝上就跑”那麼簡單。模型體積、緩存位置、驅動兼容、CUDA 版本、依賴關係,都會在你真正開跑前先來一輪現實教育。Cosmos 的 README 很坦率,它沒有裝作這些問題不存在,而是把它們正大光明地寫出來。
---
## 用 Diffusers 跑 Generator:這是偏研究與開發者友好的入口
如果你想從 Python-first 的方式體驗 Cosmos 3 Generator,README 推薦了 Diffusers 路線。
環境安裝示例:
```bash
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto
"diffusers @ git https://github.com/huggingface/diffusers.git"
accelerate
a v
cosmos_guardrail
huggingface_hub
imageio
imageio-ffmpeg
torch
torchvision
transformers
```
然後就可以直接在 Python 中加載 `Cosmos3OmniPipeline`:
```python
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano",
torch_dtype=torch.bfloat16,
device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)
result = pipe(
prompt="A mobile robot na vigates a warehouse aisle and stops at a shelf.",
negative_prompt="",
image=None,
num_frames=189,
height=720,
width=1280,
fps=24,
num_inference_steps=35,
guidance_scale=6.0,
enable_sound=False,
add_resolution_template=False,
add_duration_template=False,
generator=torch.Generator(device="cuda").manual_seed(1234),
)
export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1)
```
這段代碼最迷人的地方在於,它不像在調一個普通媒體模型,更像是在召喚一個“會做世界片段的導演”。你寫下一句提示詞:一個移動機器人穿過倉庫貨架並停在貨架前。然後模型接過這句話,開始把它變成一段具有時間流動感的視頻。這一刻,文字不再只是文字,而像是一張簡短的分鏡腳本。
---
## 用 vLLM-Omni 跑 Generator:讓世界生成走向服務化
如果你想把 Cosmos 3 Generator 放進生產環境,README 推薦用 **vLLM-Omni**。這條路徑的關鍵意義在於:它讓生成能力可以通過 OpenAI-compatible API 暴露出來,服務化、工程化、可集成。
Docker 啟動示例:
```bash
docker run --runtime nvidia --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
-v "$(pwd):/workspace"
-p 8000:8000
--ipc=host
vllm/vllm-omni:cosmos3
vllm serve nvidia/Cosmos3-Nano
--omni
--model-class-name Cosmos3OmniDiffusersPipeline
--allowed-local-media-path /
--port 8000
--init-timeout 1800
```
服務器啟動後,可以直接通過接口發起視頻生成請求:
```bash
curl -sS -X POST http://localhost:8000/v1/videos/sync
--form-string "prompt=A small warehouse robot moves a blue box across a clean floor."
--form-string "negative_prompt=blurry, distorted, low quality"
--form-string "size=1280x720"
--form-string "num_frames=189"
--form-string "fps=24"
--form-string "num_inference_steps=35"
--form-string "guidance_scale=6.0"
--form-string "flow_shift=10.0"
--form-string "seed=0"
--form-string 'extra_params={"use_resolution_template":false,"use_duration_template":false,"guardrails":true}'
-o cosmos3_t2v_output.mp4
```
這就很像你在對一個“世界生成引擎”發起指令。不是讓它寫文案,而是讓它給你產出一段新的視頻世界。
更重要的是,README 還說明了它不僅能做 text-to-video,還支持:
- text-to-image
- text-to-video
- image-to-video
- video-to-video
- video with sound
- action policy
- inverse dynamics
- forward dynamics
也就是說,這台服務不是一個單一按鈕,而像是一間多功能工作室。有時候它是剪輯師,有時候是導演,有時候是模擬器,有時候又像一個會預測動作後果的未來播放器。
---
## 用 vLLM 跑 Reasoner:它開始像一個真正可用的視覺推理服務
對於 Reasoner,README 給出的生產級推理路徑是 vLLM。
安裝:
```bash
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=cu130 "vllm==0.21.0"
"vllm-cosmos3 @ git https://github.com/NVIDIA/cosmos-framework.git#subdirectory=packages/vllm-cosmos3"
```
啟動服務:
```bash
vllm serve nvidia/Cosmos3-Nano
--hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}'
--async-scheduling
--allowed-local-media-path /
--port 8000
```
之後,就可以像調用 OpenAI 風格接口一樣調用它。例如在 Python 中:
```python
import openai
image_url = (
"https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/"
"assets/cosmos3/inputs/vision/robot_153.jpg"
)
client = openai.OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")
response = client.chat.completions.create(
model=client.models.list().data[0].id,
messages=[
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "Caption the image in detail."},
],
}
],
max_tokens=4096,
seed=0,
)
print(response.choices[0].message.content)
```
這種體驗很有意思。你給它一張圖片和一句問題,它不是機械地做識別標籤,而是像一個真的在“讀圖”的觀察者,開始組織細緻的描述與分析。
如果再進一步接上視頻、時間定位、具身推理和物理常識任務,這個服務就會越來越像一個視覺場景理解中台,而不僅是一個圖像問答小工具。
---
## 用 NIM 跑 Reasoner:最快走向生產的一條路
README 裏還提供了一個非常務實的選擇:**NIM**。
如果你不想自己折騰太多 vLLM/CUDA 細節,而是希望盡快得到一個生產級、OpenAI-compatible 的 Reasoner 端點,那麼 NIM 是更直接的路徑。
啟動容器示例:
```bash
export CONTAINER_NAME="nvidia-cosmos3-reasoner"
export IMG_NAME="nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0"
export LOCAL_NIM_CACHE=~/.cache/nim
mkdir -p "$LOCAL_NIM_CACHE"
docker run -it --rm --name=$CONTAINER_NAME
--runtime=nvidia
--gpus all
--shm-size=32GB
-e NGC_API_KEY=$NGC_API_KEY
-e NIM_MODEL_SIZE=nano
-v "$LOCAL_NIM_CACHE:/opt/nim/.cache"
-u $(id -u)
-p 8000:8000
$IMG_NAME
```
隨後可直接通過 OpenAI 風格接口請求:
```bash
curl -X POST 'http://127.0.0.1:8000/v1/chat/completions'
-H 'Accept: application/json'
-H 'Content-Type: application/json'
-d '{
"model": "nvidia/cosmos3-nano-reasoner",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/assets/cosmos3/inputs/vision/robot_153.jpg"}},
{"type": "text", "text": "Describe what is happening in this image in one sentence."}
]}
],
"max_tokens": 256,
"stream": false
}'
```
這條路徑很像 NVIDIA 在說:如果你不是來研究底層,而是想把能力盡快裝進系統裏,那我也給你準備好了入口。這是一種成熟平台才會有的姿態。它知道不是每個開發者都想從原始碼和依賴地獄開始,所以它給了一個相對順滑的着陸點。
---
## Cookbook 與生態:Cosmos 不只是模型倉庫,更像一套完整施工圖
Cosmos 的一個很強的信號是,它不是“只有 README”。整個倉庫非常強調 cookbook、backend 選擇、環境搭建、訓練、評估、推理和生態協同。
共享環境配置裏列出了多種後端:
- Cosmos Framework
- Diffusers
- Transformers
- vLLM
- vLLM-Omni
- NIM
這說明它不是讓你能按一種方式理解和使用模型,而是把研究、開發、部署三條線都接上了。
同時,README 裏還列出了生態項目:
- **Cosmos Framework**:端到端 Physical AI 框架,用於訓練和服務 world models
- **Cosmos Curator**:分佈式 Physical AI 數據整理系統,覆蓋處理、標註、過濾、去重
- **Cosmos Evaluator**:自動化 Physical AI 評估系統,用於 world generation 和 world reasoning 輸出評估
這一整套生態看上去就不再像一個單倉庫,而像一支正在建設基礎設施的隊伍。如果說單個模型像一名強力選手,那麼 Cosmos 系列更像一座正在擴建的工業園區:
- Framework 負責生產線
- Curator 負責數據篩選和加工
- Evaluator 負責質檢
- Cosmos 主倉庫負責把世界模型能力組織起來
- 不同 serving 路徑負責把能力送到應用側
這也是為什麼它特別有“平台感”。
---
## 它也很誠實:能力強,不代表沒有限制
一個讓人很加分的部分,是 README 裏專門寫了 **Limitations**。
Cosmos 3 可能在以下情況下出現問題:
- 長時間輸出
- 高分辨率輸出
- 複雜物理場景
- 時間一致性問題
- 相機或物體運動不穩定
- 聲畫不精確對齊
- 複雜動作與長期物理約束處理不穩定
這段內容雖然不花哨,但很重要。因為真正做工程的人都知道,一個系統值不值得信任,往往不只是看它最好的時候有多亮眼,更看它是否誠實地告訴你在哪些地方還會失手。
Cosmos 沒把自己包裝成無所不能的神,而更像一個有雄心也有自知之明的探索者。它在說:我已經能做很多事,但我還在繼續成長,尤其是在長期、高複雜度、強物理一致性的任務上,我仍然有進步空間。這種坦誠,反而讓它更像一個可靠的平台。
---
## CUDA、環境和工程現實:宇宙很宏大,落地也很具體
Cosmos 的 README 和 cookbook 裏,還有很多非常現實的工程提醒,比如:
- 推薦 CUDA 13 或 12.8
- 系統 CUDA 和 PyTorch CUDA major version 要匹配
- Linux 環境
- 可能遇到 `torch.cuda.is_a vailable()` 為 false
- 可能缺失 `libxcb.so.1`
- `uv` 需要足夠新的版本
- vLLM 和 torch backend 要成對匹配
- 大模型初始化時間可能很長,要設置 `--init-timeout 1800`
這些內容像是在提醒開發者:歡迎來到真實世界。這裏只有強大模型還不夠,驅動、容器、緩存、依賴、GPU 拓撲、端口配置、權限訪問,都會在門口排隊迎接你。
但正因為 README 把這些問題寫得很清楚,所以 Cosmos 不是那種“論文發佈當天看起來無比美麗,真上手時一句文檔都沒有”的項目。它知道真正的開發者會被什麼問題絆住,於是提前把坑位標出來。這種文檔氣質,本身就很工程。
---
## 它適合誰
如果問 Cosmos 最適合什麼樣的人,可以說,它特別適合下面這些開發者和團隊:
### 1. 想做機器人與具身智能的人
如果你關心的是:動作建模、策略學習、未來狀態推演、世界理解、機器人訓練,那麼 Cosmos 幾乎是直接貼着你的需求寫的。
### 2. 做自動駕駛與複雜場景理解的人
它的時間推理、物理合理性判斷、動作鏈路和視頻理解能力,天然與自動駕駛、車端決策、交通場景分析高度相關。
### 3. 需要合成數據與仿真的團隊
真實數據昂貴、標註困難、長尾複雜,而 world generation 與 world simulation 正是合成數據和預訓練的重要方向。
### 4. 既想研究,也想部署的人
Cosmos 最特別的一點,是它不是單純偏研究,也不是只偏部署。它同時提供:
- Python-first 研究入口
- OpenAI-compatible serving 路線
- 容器化部署方案
- Framework 訓練與微調能力
- Cookbook 實例和工程文檔
所以它很適合那些不想把研究和工程完全割裂開的團隊。
---
## 為什麼這個項目會讓人有“未來感”
Cosmos 最打動人的地方,不是它有多大,而是它試圖回答的問題本身就很大。
很多模型在擴展“語言的邊界”,而 Cosmos 更像在擴展“機器與現實交互的邊界”。它想讓機器:
- 看見世界
- 理解世界
- 描述世界
- 推理世界
- 生成世界
- 預測世界
- 在世界中行動
這是一條非常宏大的路線。它讓 AI 從“知識處理者”慢慢靠近“現實參與者”。
如果文本模型像是坐在書房裏長大的智者,Cosmos 則更像終於走出書房,開始去工廠、倉庫、道路、攝像頭和機器人現場認識世界的學徒。它會跌跌撞撞,會犯錯,會有局限,但它已經不滿足於只在紙面上思考問題了。
它想真正進入這個世界。
---
## 一個很值得記住的判斷
NVIDIA Cosmos 並不是一個只為展示模型能力而存在的倉庫。從 README 的寫法、能力劃分、後端路線、部署方式、訓練生態,到對限制和環境問題的說明,它都在傳達同一件事:
**這不是一個“會生成”的模型項目,而是一個認真朝着 Physical AI 基礎平台邁進的工程體系。**
你可以把它看作一扇窗。透過這扇窗,我們能看到未來的 AI 可能不再只是“寫得好、說得順、畫得像”,而是開始真正理解空間、時間、動作、因果和物理規律,開始在模擬與現實之間搭橋,開始為機器人、自動駕駛和智能基礎設施提供新的認知底座。
Cosmos 這個名字取得也很妙。宇宙並不是因為巨大才迷人,而是因為它同時承載了秩序、變化、運動和未知。而 NVIDIA Cosmos 所做的事情,正像是在給機器建造一個可以學習這些東西的小型宇宙。
在這個宇宙裏,模型不只是回答,它開始觀察。不只是觀察,它開始推演。不只是推演,它開始生成。不只是生成,它開始嘗試理解行動與結果之間那條最重要的線。
也許,這就是 Physical AI 最令人着迷的地方:當機器不再只會處理符號,而開始認真面對真實世界時,智能才真正顯得立體起來。
---
## 參考的快速啟動命令匯總
如果你想快速感受一下 Cosmos 的幾個典型入口,可以從下面這些命令開始。
### Hugging Face 認證
```bash
uvx hf@latest auth login
```
### Diffusers 方式安裝 Generator 依賴
```bash
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto
"diffusers @ git https://github.com/huggingface/diffusers.git"
accelerate
a v
cosmos_guardrail
huggingface_hub
imageio
imageio-ffmpeg
torch
torchvision
transformers
```
### vLLM 啟動 Reasoner 服務
```bash
vllm serve nvidia/Cosmos3-Nano
--hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}'
--async-scheduling
--allowed-local-media-path /
--port 8000
```
### vLLM-Omni 啟動 Generator 服務
```bash
docker run --runtime nvidia --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
-v "$(pwd):/workspace"
-p 8000:8000
--ipc=host
vllm/vllm-omni:cosmos3
vllm serve nvidia/Cosmos3-Nano
--omni
--model-class-name Cosmos3OmniDiffusersPipeline
--allowed-local-media-path /
--port 8000
--init-timeout 1800
```
### 檢查服務模型是否正常加載
```bash
curl http://localhost:8000/v1/models
```
---
## 結尾
如果你關注的是下一代 AI 會如何真正進入現實世界,那麼 NVIDIA Cosmos 是一個很值得認真閱讀和上手的項目。
它不像一些項目那樣只在單點能力上炫技,而是試圖把世界模型、推理、生成、動作、部署、訓練、評估這些關鍵環節串起來,慢慢構成 Physical AI 的基礎設施。
它像一個正在擴張中的宇宙。裏面有觀察者,有導演,有推理者,有模擬器,也有訓練場。而開發者要做的,不只是圍觀它發光,而是走進去,拿它來搭建屬於自己的世界。
當機器終於不再只會複述世界,而開始理解世界、想像世界、預演世界,Cosmos 的故事,可能才剛剛開始。
它不單單是一個只盯著文本做續寫的系統,更像一位正在成長中的世界學徒。它會看圖、讀視頻、理解動作、預測接下來會發生什麼,還能將一句文字描述擴展成圖像、視頻、聲音,甚至帶着動作軌跡去推演未來。它不只是回答問題,更像是在試圖理解現實,並為機器人、自動駕駛、智能基礎設施等 Physical AI 場景,搭建一個可以練習、推理、模擬、預見的舞台。
NVIDIA 對這個項目的描述非常明確:**Cosmos 是一個由世界模型、數據集和工具構成的開放平台,用來幫助開發者構建 Physical AI。**
一句話聽起來很硬核,但如果換一種更貼近直覺的說法:Cosmos 正在為機器打造“感知世界的大腦”和“預演未來的想像力”。
---
## Cosmos 是誰
從倉庫的 README 和描述來看,Cosmos 的核心定位非常鮮明:
它是一個 **open platform**,不是單一模型,也不是一個孤立的推理 API,而是一整套圍繞世界模型展開的能力體系。它面向的不是純文本應用,而是更貼近真實物理世界的智能體,包括:
- 機器人
- 自動駕駛車輛
- 智能基礎設施
- 以及更多需要理解現實、預測變化、執行行動的 Physical AI 系統
換句話說,Cosmos 不滿足於讓 AI 只會“聊天”,它更想讓 AI 學會:
- 看懂發生了什麼
- 推斷下一步會發生什麼
- 根據環境和目標進行規劃
- 生成可用於訓練、仿真和決策的數據
- 讓機器在真實部署前,先在模型世界裏練習很多遍
從這個角度看,Cosmos 像是一位“造世界的人”。它一邊觀察現實,一邊複製現實,一邊理解現實,一邊模擬現實。現實世界太昂貴、太複雜、太危險,於是它決定先在數字宇宙裏搭一座訓練場。
---
## Cosmos 3:這個宇宙裏最新的主角
當前倉庫重點介紹的是 **Cosmos 3**,這是 Cosmos 最新的模型家族。
README 把 Cosmos 3 的能力拆成了兩大運行表面:
| Surface | Inputs | Outputs | Use Cases |
|----------|----------|----------|----------|
| Reasoner | Text, vision | Text | 世界理解、grounding、物理推理、任務規劃、動作預測、具身智能推理、自主系統決策 |
| Generator | Text, vision, sound, action | Vision, sound, action | 世界生成、世界模擬、未來預測、合成數據生成、策略學習、機器人訓練 |
這兩位角色非常像一對搭檔。
### Reasoner 像什麼
Reasoner 像一個冷靜的觀察者。它看視頻、看圖像、接收文本問題,然後給出文字回答。
它擅長的事情包括:
- 視頻和圖像理解
- 事件定位
- 物理常識判斷
- 任務規劃
- 動作預測
- 2D grounding
- 情境理解
- 駕駛場景推理
- 具身智能推理
你可以把它想像成一位站在現場的分析師。別人看到一個機器人在桌面邊晃動手臂,它看到的則是:環境約束、物體關係、潛在動作、可能結果、是否符合物理常識。
### Generator 像什麼
Generator 更像一個導演兼預演師。你給它文字、圖像、視頻、動作,它可以生成新的圖像、視頻、聲音,甚至基於動作去推演未來狀態。
它可以做:
- text-to-image
- text-to-video
- image-to-video
- video-to-video
- text-to-video with sound
- image-to-video with sound
- forward dynamics
- action policy
- inverse dynamics
如果說 Reasoner 是“懂世界的人”,那 Generator 就是“會造世界的人”。一個負責理解,一個負責想象;一個負責判斷,一個負責生成。兩者組合在一起,機器就不再只是一個被動響應器,而是像是開始擁有了“先看懂,再推演,再行動”的閉環。
---
## 它為什麼值得關注
今天很多 AI 項目已經能做到驚豔的文本生成、圖像生成、視頻生成,但 Cosmos 的野心不單是“內容生成”,而是更貼近真實系統建設的 **world model**。
這裏的關鍵詞不是“華麗”,而是“物理世界”。
README 中提到的能力方向,幾乎都圍繞現實任務展開:
- world understanding
- world generation
- action modeling
- policy learning
- robot training
- autonomous system decision making
- synthetic data generation
- future prediction
這意味着 Cosmos 並不是單純做一個看起來很炫的視頻模型,而是在試圖解決一個更深的問題:
**機器如何在複雜的現實世界裏理解環境、預測變化、訓練策略,並安全地學會行動。**
這也是為什麼它特別適合機器人、自動駕駛、智能基礎設施這類場景。因為這些系統不是答錯一段文案而已,它們面對的是空間、時間、運動、因果、約束、風險、反饋。
換句話說,Cosmos 不只是讓 AI “更聰明”,而是讓 AI “更像一個能在現實中做事的存在”。
---
## Cosmos 3 的關鍵能力,看起來像在給機器裝感官和直覺
README 裏給出了幾個非常關鍵的能力標籤,每一個都值得單獨拿出來說。
### 1. World understanding
它能分析圖像和視頻,做字幕描述、時間事件理解、下一步動作預測、空間 grounding、物理合理性判斷、因果結果推斷。
這就像它不僅會“看”,還開始會“理解為什麼”。
一個普通模型也許會說:“畫面裏有一個機器人。”而 Cosmos 更想回答的是:
- 機器人在做什麼
- 這個動作接下來可能導致什麼
- 某個事件大概發生在視頻的哪個時間段
- 當前場景是否符合物理常識
- 目標對像在圖像中的哪裏
這已經不是簡單的視覺識別,而是在向“場景理解”和“過程推理”邁進。
### 2. World generation
它可以從文本、圖像、視頻、動作輸入中生成圖像、視頻、同步聲音,以及動作條件下的 rollout。
這意味着它能夠把“描述”變成“可視化現實”,也能把“當前狀態”推進到“未來狀態”。
這很適合做模擬、訓練、合成數據、策略驗證。現實世界採集成本高、試錯風險大,而在模型世界裏,機器可以先把未來演幾遍。
### 3. Action modeling
它支持策略動作預測、逆動力學、前向動力學,覆蓋機器人、相機運動、自車運動、自動駕駛等場景。
這一部分尤其像是在給模型注入“動作感”。它不只是看見物體,更會思考:
- 應該怎麼動
- 剛才是怎麼動成現在這樣的
- 如果下一步這樣動,會發生什麼
當一個模型開始把“感知”與“動作”聯結起來,它就越來越接近真正的具身智能。
### 4. Research and production paths
README 裏還特別強調了不同集成路徑:
- Diffusers / Transformers 適合 Python-first 的研究開發
- vLLM-Omni / vLLM 適合 OpenAI-compatible serving
- NIM 提供生產級部署路徑
- Cosmos Framework 面向更完整的訓練、微調、評估流程
這說明 Cosmos 不是那種只在論文裏發光、落地時沉默的項目。它很清楚開發者分成不同人群:
- 有人想研究模型
- 有人想快速做原型
- 有人想搭服務
- 有人想做訓練和評估
- 有人只想盡快部署一個可調用的接口
Cosmos 沒有把所有人都趕進同一條路,而是像一個成熟的平台那樣,給出了多條入口。
---
## Cosmos 3 的模型家族:不是一個人單打獨鬥,而是一整支艦隊
README 裏列出了當前的模型家族:
- **Cosmos3-Nano**,16B:緊湊型 omnimodal world model,適合多模態理解、世界模擬、未來預測、動作推理、Physical AI 應用
- **Cosmos3-Super**,64B:前沿級 omnimodal world model,能力更強,適合更高階任務
- **Cosmos3-Super-Text2Image**,64B:高保真文生圖
- **Cosmos3-Super-Image2Video**,64B:強調時間一致性的圖生視頻
- **Cosmos3-Nano-Policy-DROID**,16B:面向 DROID manipulation and control 的視覺語言機器人策略模型
從命名就能感受到它的角色分工非常明確。Nano 像敏捷的偵察兵,Super 像重裝主力艦,而針對特定場景的模型則像專業作戰單位。
這類家族化設計很重要,因為 Physical AI 的需求本來就不是單一的。有的場景追求推理能力,有的更關心視頻生成,有的要做動作策略,有的看重部署效率。Cosmos 沒把它們硬塞進同一張臉,而是把它們組織成了一套生態化編隊。
---
## 支持的生成設定,看得出它不是玩具,而是認真給開發者用的
在生成能力上,Cosmos 3 給出了相當具體的支持範圍:
- 分辨率:256p、480p、720p
- 長寬比:16:9、4:3、1:1、3:4、9:16
- 幀率:10、16、24、30 FPS
- 幀數:5 到 300
- 精度:BF16 tested
- 操作系統:Linux
- GPU 架構:NVIDIA Ampere、Hopper、Blackwell
這些信息看似枯燥,但恰恰說明它的 README 寫得非常工程化。它沒有隻告訴你“我們很強”,而是直接告訴你:
- 可以怎麼跑
- 跑到什麼規格
- 在什麼硬件上跑
- 適合什麼系統環境
對於開發者來說,這種明確性很珍貴。它像一個經驗豐富的工程師,不跟你空談願景,先把規格表掏出來給你看。
---
## 輸入和輸出:它接住的不只是文字,而是更完整的世界片段
Cosmos 3 支持的輸入類型包括:
- Text
- Text image
- Text video
- Text image action
輸入格式包括:
- 文本字符串
- JPG / PNG / JPEG / WEBP 圖像
- MP4 視頻
- JSON action array
輸出則可以是:
- 圖像
- 視頻
- 聲音
- 動作狀態
- 文本
這種 I/O 設計非常像一個真正的“多模態世界接口”。很多模型處理的是“內容”,而 Cosmos 處理的是“場景”和“行為”。你給它的不只是 prompt,而像是在遞給它一小段現實:一張圖、一段視頻、一串動作、一句任務意圖。然後它還給你的,也不只是答案,而可能是未來、結果、聲音、軌跡、動作。
它開始像一個數字化實驗室,而不只是一個文本補全器。
---
## Generator 的世界:它不隻會畫圖,還會把未來拍成片子
README 裏對 Generator 的工作流列得很完整,包括:
- Text-to-image
- Text-to-video
- Text-to-video with sound
- Image-to-video
- Image-to-video with sound
- Video-to-video
- Video-to-video with sound
- Forward dynamics
- Action policy
這份列表裏最讓人印象深刻的部分,是它把生成和動作建模放在了一起。這就意味着 Cosmos 的“生成”不是單純做一個視覺結果,而是在向“模擬世界演化”靠攏。
舉個直觀的例子:
- 普通視頻生成像是在做一段鏡頭
- Cosmos 的 forward dynamics 更像是在預測“如果按這個動作執行,未來畫面會變成什麼樣”
這對機器人訓練和策略驗證太關鍵了。因為機器真正需要的,不是好看的畫面,而是“如果我這樣做,世界會怎樣回應”。
---
## Reasoner 的世界:它像在給視頻做推理,而不是做描述
README 中給出的 Reasoner 工作流也很豐富:
- Caption
- Temporal localization
- Embodied reasoning
- Common-sense reasoning
- 2D grounding
- Describe anything
- Action CoT
- Physical Plausibility Analysis
- Situation Understanding
這套能力列表有個非常鮮明的特徵:**它並不滿足於靜態識別,而是在努力處理時間、動作、空間、因果與常識。**
比如 temporal localization,不只是“視頻裏發生了什麼”,而是“某件事在什麼時候發生”。比如 embodied reasoning,不只是“看到了什麼”,而是“下一步應該做什麼”。比如 physical plausibility,不只是“畫面像不像”,而是“這件事是否符合物理常識”。
這種能力結構,非常適合通往機器人與自動駕駛。因為現實世界中的智能,不是背答案,而是不斷面對這些問題:
- 現在是什麼狀態
- 接下來會發生什麼
- 什麼動作是合理的
- 哪些結果是不符合物理規律的
- 哪個目標在什麼位置
- 當前情境意味着什麼
Cosmos 的 Reasoner,像是在學習把這些問題串成一條完整的思考鏈。
---
## 它的架構也很有意思:像把“思考”和“生成”裝進了一台統一機器
README 提到,Cosmos 3 是一個 **omnimodal world model**,基於統一的 **Mixture-of-Transformers (MoT)** 架構。它結合了:
- 用於推理的 autoregressive transformer
- 用於生成的 diffusion transformer
這個設計很有意味。因為在很多系統裏,“理解”和“生成”往往是拆開的,像兩個部門各管一攤。而 Cosmos 更像是把它們安排進同一個組織架構裏,讓“推理”和“生成”彼此協作。
可以把它想像成一座城市:
- AR transformer 像城市裏的思考中樞,負責判斷、組織語言、推理問題
- Diffusion transformer 像城市裏的造景師,負責把想法和條件擴散成圖像、視頻、聲音和動態結果
於是 Cosmos 不只是會說“我理解了”,還會說“我給你演出來”。
---
## 快速上手:在真正跑起來之前,它先要求你有通行證
在 Quickstart 裏,Cosmos 的第一個動作不是急着炫技,而是提醒你先完成 Hugging Face 認證:
```bash
uvx hf@latest auth login
```
這一步很像宇宙入口的通行閘機。你得先拿到訪問模型倉庫的權限,才能進入後續世界。
如果你想使用共享緩存或者更大的磁盤空間,還可以設置:
```bash
export HF_HOME=/path/to/cache
```
這類提示很接地氣,因為大模型環境往往不是“裝上就跑”那麼簡單。模型體積、緩存位置、驅動兼容、CUDA 版本、依賴關係,都會在你真正開跑前先來一輪現實教育。Cosmos 的 README 很坦率,它沒有裝作這些問題不存在,而是把它們正大光明地寫出來。
---
## 用 Diffusers 跑 Generator:這是偏研究與開發者友好的入口
如果你想從 Python-first 的方式體驗 Cosmos 3 Generator,README 推薦了 Diffusers 路線。
環境安裝示例:
```bash
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto
"diffusers @ git https://github.com/huggingface/diffusers.git"
accelerate
a v
cosmos_guardrail
huggingface_hub
imageio
imageio-ffmpeg
torch
torchvision
transformers
```
然後就可以直接在 Python 中加載 `Cosmos3OmniPipeline`:
```python
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano",
torch_dtype=torch.bfloat16,
device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)
result = pipe(
prompt="A mobile robot na vigates a warehouse aisle and stops at a shelf.",
negative_prompt="",
image=None,
num_frames=189,
height=720,
width=1280,
fps=24,
num_inference_steps=35,
guidance_scale=6.0,
enable_sound=False,
add_resolution_template=False,
add_duration_template=False,
generator=torch.Generator(device="cuda").manual_seed(1234),
)
export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1)
```
這段代碼最迷人的地方在於,它不像在調一個普通媒體模型,更像是在召喚一個“會做世界片段的導演”。你寫下一句提示詞:一個移動機器人穿過倉庫貨架並停在貨架前。然後模型接過這句話,開始把它變成一段具有時間流動感的視頻。這一刻,文字不再只是文字,而像是一張簡短的分鏡腳本。
---
## 用 vLLM-Omni 跑 Generator:讓世界生成走向服務化
如果你想把 Cosmos 3 Generator 放進生產環境,README 推薦用 **vLLM-Omni**。這條路徑的關鍵意義在於:它讓生成能力可以通過 OpenAI-compatible API 暴露出來,服務化、工程化、可集成。
Docker 啟動示例:
```bash
docker run --runtime nvidia --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
-v "$(pwd):/workspace"
-p 8000:8000
--ipc=host
vllm/vllm-omni:cosmos3
vllm serve nvidia/Cosmos3-Nano
--omni
--model-class-name Cosmos3OmniDiffusersPipeline
--allowed-local-media-path /
--port 8000
--init-timeout 1800
```
服務器啟動後,可以直接通過接口發起視頻生成請求:
```bash
curl -sS -X POST http://localhost:8000/v1/videos/sync
--form-string "prompt=A small warehouse robot moves a blue box across a clean floor."
--form-string "negative_prompt=blurry, distorted, low quality"
--form-string "size=1280x720"
--form-string "num_frames=189"
--form-string "fps=24"
--form-string "num_inference_steps=35"
--form-string "guidance_scale=6.0"
--form-string "flow_shift=10.0"
--form-string "seed=0"
--form-string 'extra_params={"use_resolution_template":false,"use_duration_template":false,"guardrails":true}'
-o cosmos3_t2v_output.mp4
```
這就很像你在對一個“世界生成引擎”發起指令。不是讓它寫文案,而是讓它給你產出一段新的視頻世界。
更重要的是,README 還說明了它不僅能做 text-to-video,還支持:
- text-to-image
- text-to-video
- image-to-video
- video-to-video
- video with sound
- action policy
- inverse dynamics
- forward dynamics
也就是說,這台服務不是一個單一按鈕,而像是一間多功能工作室。有時候它是剪輯師,有時候是導演,有時候是模擬器,有時候又像一個會預測動作後果的未來播放器。
---
## 用 vLLM 跑 Reasoner:它開始像一個真正可用的視覺推理服務
對於 Reasoner,README 給出的生產級推理路徑是 vLLM。
安裝:
```bash
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=cu130 "vllm==0.21.0"
"vllm-cosmos3 @ git https://github.com/NVIDIA/cosmos-framework.git#subdirectory=packages/vllm-cosmos3"
```
啟動服務:
```bash
vllm serve nvidia/Cosmos3-Nano
--hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}'
--async-scheduling
--allowed-local-media-path /
--port 8000
```
之後,就可以像調用 OpenAI 風格接口一樣調用它。例如在 Python 中:
```python
import openai
image_url = (
"https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/"
"assets/cosmos3/inputs/vision/robot_153.jpg"
)
client = openai.OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")
response = client.chat.completions.create(
model=client.models.list().data[0].id,
messages=[
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "Caption the image in detail."},
],
}
],
max_tokens=4096,
seed=0,
)
print(response.choices[0].message.content)
```
這種體驗很有意思。你給它一張圖片和一句問題,它不是機械地做識別標籤,而是像一個真的在“讀圖”的觀察者,開始組織細緻的描述與分析。
如果再進一步接上視頻、時間定位、具身推理和物理常識任務,這個服務就會越來越像一個視覺場景理解中台,而不僅是一個圖像問答小工具。
---
## 用 NIM 跑 Reasoner:最快走向生產的一條路
README 裏還提供了一個非常務實的選擇:**NIM**。
如果你不想自己折騰太多 vLLM/CUDA 細節,而是希望盡快得到一個生產級、OpenAI-compatible 的 Reasoner 端點,那麼 NIM 是更直接的路徑。
啟動容器示例:
```bash
export CONTAINER_NAME="nvidia-cosmos3-reasoner"
export IMG_NAME="nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0"
export LOCAL_NIM_CACHE=~/.cache/nim
mkdir -p "$LOCAL_NIM_CACHE"
docker run -it --rm --name=$CONTAINER_NAME
--runtime=nvidia
--gpus all
--shm-size=32GB
-e NGC_API_KEY=$NGC_API_KEY
-e NIM_MODEL_SIZE=nano
-v "$LOCAL_NIM_CACHE:/opt/nim/.cache"
-u $(id -u)
-p 8000:8000
$IMG_NAME
```
隨後可直接通過 OpenAI 風格接口請求:
```bash
curl -X POST 'http://127.0.0.1:8000/v1/chat/completions'
-H 'Accept: application/json'
-H 'Content-Type: application/json'
-d '{
"model": "nvidia/cosmos3-nano-reasoner",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/assets/cosmos3/inputs/vision/robot_153.jpg"}},
{"type": "text", "text": "Describe what is happening in this image in one sentence."}
]}
],
"max_tokens": 256,
"stream": false
}'
```
這條路徑很像 NVIDIA 在說:如果你不是來研究底層,而是想把能力盡快裝進系統裏,那我也給你準備好了入口。這是一種成熟平台才會有的姿態。它知道不是每個開發者都想從原始碼和依賴地獄開始,所以它給了一個相對順滑的着陸點。
---
## Cookbook 與生態:Cosmos 不只是模型倉庫,更像一套完整施工圖
Cosmos 的一個很強的信號是,它不是“只有 README”。整個倉庫非常強調 cookbook、backend 選擇、環境搭建、訓練、評估、推理和生態協同。
共享環境配置裏列出了多種後端:
- Cosmos Framework
- Diffusers
- Transformers
- vLLM
- vLLM-Omni
- NIM
這說明它不是讓你能按一種方式理解和使用模型,而是把研究、開發、部署三條線都接上了。
同時,README 裏還列出了生態項目:
- **Cosmos Framework**:端到端 Physical AI 框架,用於訓練和服務 world models
- **Cosmos Curator**:分佈式 Physical AI 數據整理系統,覆蓋處理、標註、過濾、去重
- **Cosmos Evaluator**:自動化 Physical AI 評估系統,用於 world generation 和 world reasoning 輸出評估
這一整套生態看上去就不再像一個單倉庫,而像一支正在建設基礎設施的隊伍。如果說單個模型像一名強力選手,那麼 Cosmos 系列更像一座正在擴建的工業園區:
- Framework 負責生產線
- Curator 負責數據篩選和加工
- Evaluator 負責質檢
- Cosmos 主倉庫負責把世界模型能力組織起來
- 不同 serving 路徑負責把能力送到應用側
這也是為什麼它特別有“平台感”。
---
## 它也很誠實:能力強,不代表沒有限制
一個讓人很加分的部分,是 README 裏專門寫了 **Limitations**。
Cosmos 3 可能在以下情況下出現問題:
- 長時間輸出
- 高分辨率輸出
- 複雜物理場景
- 時間一致性問題
- 相機或物體運動不穩定
- 聲畫不精確對齊
- 複雜動作與長期物理約束處理不穩定
這段內容雖然不花哨,但很重要。因為真正做工程的人都知道,一個系統值不值得信任,往往不只是看它最好的時候有多亮眼,更看它是否誠實地告訴你在哪些地方還會失手。
Cosmos 沒把自己包裝成無所不能的神,而更像一個有雄心也有自知之明的探索者。它在說:我已經能做很多事,但我還在繼續成長,尤其是在長期、高複雜度、強物理一致性的任務上,我仍然有進步空間。這種坦誠,反而讓它更像一個可靠的平台。
---
## CUDA、環境和工程現實:宇宙很宏大,落地也很具體
Cosmos 的 README 和 cookbook 裏,還有很多非常現實的工程提醒,比如:
- 推薦 CUDA 13 或 12.8
- 系統 CUDA 和 PyTorch CUDA major version 要匹配
- Linux 環境
- 可能遇到 `torch.cuda.is_a vailable()` 為 false
- 可能缺失 `libxcb.so.1`
- `uv` 需要足夠新的版本
- vLLM 和 torch backend 要成對匹配
- 大模型初始化時間可能很長,要設置 `--init-timeout 1800`
這些內容像是在提醒開發者:歡迎來到真實世界。這裏只有強大模型還不夠,驅動、容器、緩存、依賴、GPU 拓撲、端口配置、權限訪問,都會在門口排隊迎接你。
但正因為 README 把這些問題寫得很清楚,所以 Cosmos 不是那種“論文發佈當天看起來無比美麗,真上手時一句文檔都沒有”的項目。它知道真正的開發者會被什麼問題絆住,於是提前把坑位標出來。這種文檔氣質,本身就很工程。
---
## 它適合誰
如果問 Cosmos 最適合什麼樣的人,可以說,它特別適合下面這些開發者和團隊:
### 1. 想做機器人與具身智能的人
如果你關心的是:動作建模、策略學習、未來狀態推演、世界理解、機器人訓練,那麼 Cosmos 幾乎是直接貼着你的需求寫的。
### 2. 做自動駕駛與複雜場景理解的人
它的時間推理、物理合理性判斷、動作鏈路和視頻理解能力,天然與自動駕駛、車端決策、交通場景分析高度相關。
### 3. 需要合成數據與仿真的團隊
真實數據昂貴、標註困難、長尾複雜,而 world generation 與 world simulation 正是合成數據和預訓練的重要方向。
### 4. 既想研究,也想部署的人
Cosmos 最特別的一點,是它不是單純偏研究,也不是只偏部署。它同時提供:
- Python-first 研究入口
- OpenAI-compatible serving 路線
- 容器化部署方案
- Framework 訓練與微調能力
- Cookbook 實例和工程文檔
所以它很適合那些不想把研究和工程完全割裂開的團隊。
---
## 為什麼這個項目會讓人有“未來感”
Cosmos 最打動人的地方,不是它有多大,而是它試圖回答的問題本身就很大。
很多模型在擴展“語言的邊界”,而 Cosmos 更像在擴展“機器與現實交互的邊界”。它想讓機器:
- 看見世界
- 理解世界
- 描述世界
- 推理世界
- 生成世界
- 預測世界
- 在世界中行動
這是一條非常宏大的路線。它讓 AI 從“知識處理者”慢慢靠近“現實參與者”。
如果文本模型像是坐在書房裏長大的智者,Cosmos 則更像終於走出書房,開始去工廠、倉庫、道路、攝像頭和機器人現場認識世界的學徒。它會跌跌撞撞,會犯錯,會有局限,但它已經不滿足於只在紙面上思考問題了。
它想真正進入這個世界。
---
## 一個很值得記住的判斷
NVIDIA Cosmos 並不是一個只為展示模型能力而存在的倉庫。從 README 的寫法、能力劃分、後端路線、部署方式、訓練生態,到對限制和環境問題的說明,它都在傳達同一件事:
**這不是一個“會生成”的模型項目,而是一個認真朝着 Physical AI 基礎平台邁進的工程體系。**
你可以把它看作一扇窗。透過這扇窗,我們能看到未來的 AI 可能不再只是“寫得好、說得順、畫得像”,而是開始真正理解空間、時間、動作、因果和物理規律,開始在模擬與現實之間搭橋,開始為機器人、自動駕駛和智能基礎設施提供新的認知底座。
Cosmos 這個名字取得也很妙。宇宙並不是因為巨大才迷人,而是因為它同時承載了秩序、變化、運動和未知。而 NVIDIA Cosmos 所做的事情,正像是在給機器建造一個可以學習這些東西的小型宇宙。
在這個宇宙裏,模型不只是回答,它開始觀察。不只是觀察,它開始推演。不只是推演,它開始生成。不只是生成,它開始嘗試理解行動與結果之間那條最重要的線。
也許,這就是 Physical AI 最令人着迷的地方:當機器不再只會處理符號,而開始認真面對真實世界時,智能才真正顯得立體起來。
---
## 參考的快速啟動命令匯總
如果你想快速感受一下 Cosmos 的幾個典型入口,可以從下面這些命令開始。
### Hugging Face 認證
```bash
uvx hf@latest auth login
```
### Diffusers 方式安裝 Generator 依賴
```bash
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto
"diffusers @ git https://github.com/huggingface/diffusers.git"
accelerate
a v
cosmos_guardrail
huggingface_hub
imageio
imageio-ffmpeg
torch
torchvision
transformers
```
### vLLM 啟動 Reasoner 服務
```bash
vllm serve nvidia/Cosmos3-Nano
--hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}'
--async-scheduling
--allowed-local-media-path /
--port 8000
```
### vLLM-Omni 啟動 Generator 服務
```bash
docker run --runtime nvidia --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
-v "$(pwd):/workspace"
-p 8000:8000
--ipc=host
vllm/vllm-omni:cosmos3
vllm serve nvidia/Cosmos3-Nano
--omni
--model-class-name Cosmos3OmniDiffusersPipeline
--allowed-local-media-path /
--port 8000
--init-timeout 1800
```
### 檢查服務模型是否正常加載
```bash
curl http://localhost:8000/v1/models
```
---
## 結尾
如果你關注的是下一代 AI 會如何真正進入現實世界,那麼 NVIDIA Cosmos 是一個很值得認真閱讀和上手的項目。
它不像一些項目那樣只在單點能力上炫技,而是試圖把世界模型、推理、生成、動作、部署、訓練、評估這些關鍵環節串起來,慢慢構成 Physical AI 的基礎設施。
它像一個正在擴張中的宇宙。裏面有觀察者,有導演,有推理者,有模擬器,也有訓練場。而開發者要做的,不只是圍觀它發光,而是走進去,拿它來搭建屬於自己的世界。
當機器終於不再只會複述世界,而開始理解世界、想像世界、預演世界,Cosmos 的故事,可能才剛剛開始。 来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。