NVIDIA Cosmos评测：物理智能宇宙的十大亮点

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

NVIDIACosmos是一个由世界模型、数据集和工具构成的开放平台，旨在为机器人、自动驾驶等Phy

如果說大語言模型讓機器學會了“說話”，那 NVIDIA Cosmos 的野心顯然更進一步——它想讓機器真正開始“看世界、懂世界、想象世界”。当世界开始学会观察、推演与想象：走进 NVIDIA Cosmos 的物理智能宇宙

它不單單是一個只盯著文本做續寫的系統，更像一位正在成長中的世界學徒。它會看圖、讀視頻、理解動作、預測接下來會發生什麼，還能將一句文字描述擴展成圖像、視頻、聲音，甚至帶着動作軌跡去推演未來。它不只是回答問題，更像是在試圖理解現實，並為機器人、自動駕駛、智能基礎設施等 Physical AI 場景，搭建一個可以練習、推理、模擬、預見的舞台。 NVIDIA 對這個項目的描述非常明確：**Cosmos 是一個由世界模型、數據集和工具構成的開放平台，用來幫助開發者構建 Physical AI。** 一句話聽起來很硬核，但如果換一種更貼近直覺的說法：Cosmos 正在為機器打造“感知世界的大腦”和“預演未來的想像力”。 --- ## Cosmos 是誰從倉庫的 README 和描述來看，Cosmos 的核心定位非常鮮明：它是一個 **open platform**，不是單一模型，也不是一個孤立的推理 API，而是一整套圍繞世界模型展開的能力體系。它面向的不是純文本應用，而是更貼近真實物理世界的智能體，包括： - 機器人 - 自動駕駛車輛 - 智能基礎設施 - 以及更多需要理解現實、預測變化、執行行動的 Physical AI 系統換句話說，Cosmos 不滿足於讓 AI 只會“聊天”，它更想讓 AI 學會： - 看懂發生了什麼 - 推斷下一步會發生什麼 - 根據環境和目標進行規劃 - 生成可用於訓練、仿真和決策的數據 - 讓機器在真實部署前，先在模型世界裏練習很多遍從這個角度看，Cosmos 像是一位“造世界的人”。它一邊觀察現實，一邊複製現實，一邊理解現實，一邊模擬現實。現實世界太昂貴、太複雜、太危險，於是它決定先在數字宇宙裏搭一座訓練場。 --- ## Cosmos 3：這個宇宙裏最新的主角當前倉庫重點介紹的是 **Cosmos 3**，這是 Cosmos 最新的模型家族。 README 把 Cosmos 3 的能力拆成了兩大運行表面： | Surface | Inputs | Outputs | Use Cases | |----------|----------|----------|----------| | Reasoner | Text, vision | Text | 世界理解、grounding、物理推理、任務規劃、動作預測、具身智能推理、自主系統決策 | | Generator | Text, vision, sound, action | Vision, sound, action | 世界生成、世界模擬、未來預測、合成數據生成、策略學習、機器人訓練 | 這兩位角色非常像一對搭檔。 ### Reasoner 像什麼 Reasoner 像一個冷靜的觀察者。它看視頻、看圖像、接收文本問題，然後給出文字回答。它擅長的事情包括： - 視頻和圖像理解 - 事件定位 - 物理常識判斷 - 任務規劃 - 動作預測 - 2D grounding - 情境理解 - 駕駛場景推理 - 具身智能推理你可以把它想像成一位站在現場的分析師。別人看到一個機器人在桌面邊晃動手臂，它看到的則是：環境約束、物體關係、潛在動作、可能結果、是否符合物理常識。 ### Generator 像什麼 Generator 更像一個導演兼預演師。你給它文字、圖像、視頻、動作，它可以生成新的圖像、視頻、聲音，甚至基於動作去推演未來狀態。它可以做： - text-to-image - text-to-video - image-to-video - video-to-video - text-to-video with sound - image-to-video with sound - forward dynamics - action policy - inverse dynamics 如果說 Reasoner 是“懂世界的人”，那 Generator 就是“會造世界的人”。一個負責理解，一個負責想象；一個負責判斷，一個負責生成。兩者組合在一起，機器就不再只是一個被動響應器，而是像是開始擁有了“先看懂，再推演，再行動”的閉環。 --- ## 它為什麼值得關注今天很多 AI 項目已經能做到驚豔的文本生成、圖像生成、視頻生成，但 Cosmos 的野心不單是“內容生成”，而是更貼近真實系統建設的 **world model**。這裏的關鍵詞不是“華麗”，而是“物理世界”。 README 中提到的能力方向，幾乎都圍繞現實任務展開： - world understanding - world generation - action modeling - policy learning - robot training - autonomous system decision making - synthetic data generation - future prediction 這意味着 Cosmos 並不是單純做一個看起來很炫的視頻模型，而是在試圖解決一個更深的問題： **機器如何在複雜的現實世界裏理解環境、預測變化、訓練策略，並安全地學會行動。** 這也是為什麼它特別適合機器人、自動駕駛、智能基礎設施這類場景。因為這些系統不是答錯一段文案而已，它們面對的是空間、時間、運動、因果、約束、風險、反饋。換句話說，Cosmos 不只是讓 AI “更聰明”，而是讓 AI “更像一個能在現實中做事的存在”。 --- ## Cosmos 3 的關鍵能力，看起來像在給機器裝感官和直覺 README 裏給出了幾個非常關鍵的能力標籤，每一個都值得單獨拿出來說。 ### 1. World understanding 它能分析圖像和視頻，做字幕描述、時間事件理解、下一步動作預測、空間 grounding、物理合理性判斷、因果結果推斷。這就像它不僅會“看”，還開始會“理解為什麼”。一個普通模型也許會說：“畫面裏有一個機器人。”而 Cosmos 更想回答的是： - 機器人在做什麼 - 這個動作接下來可能導致什麼 - 某個事件大概發生在視頻的哪個時間段 - 當前場景是否符合物理常識 - 目標對像在圖像中的哪裏這已經不是簡單的視覺識別，而是在向“場景理解”和“過程推理”邁進。 ### 2. World generation 它可以從文本、圖像、視頻、動作輸入中生成圖像、視頻、同步聲音，以及動作條件下的 rollout。這意味着它能夠把“描述”變成“可視化現實”，也能把“當前狀態”推進到“未來狀態”。這很適合做模擬、訓練、合成數據、策略驗證。現實世界採集成本高、試錯風險大，而在模型世界裏，機器可以先把未來演幾遍。 ### 3. Action modeling 它支持策略動作預測、逆動力學、前向動力學，覆蓋機器人、相機運動、自車運動、自動駕駛等場景。這一部分尤其像是在給模型注入“動作感”。它不只是看見物體，更會思考： - 應該怎麼動 - 剛才是怎麼動成現在這樣的 - 如果下一步這樣動，會發生什麼當一個模型開始把“感知”與“動作”聯結起來，它就越來越接近真正的具身智能。 ### 4. Research and production paths README 裏還特別強調了不同集成路徑： - Diffusers / Transformers 適合 Python-first 的研究開發 - vLLM-Omni / vLLM 適合 OpenAI-compatible serving - NIM 提供生產級部署路徑 - Cosmos Framework 面向更完整的訓練、微調、評估流程這說明 Cosmos 不是那種只在論文裏發光、落地時沉默的項目。它很清楚開發者分成不同人群： - 有人想研究模型 - 有人想快速做原型 - 有人想搭服務 - 有人想做訓練和評估 - 有人只想盡快部署一個可調用的接口 Cosmos 沒有把所有人都趕進同一條路，而是像一個成熟的平台那樣，給出了多條入口。 --- ## Cosmos 3 的模型家族：不是一個人單打獨鬥，而是一整支艦隊 README 裏列出了當前的模型家族： - **Cosmos3-Nano**，16B：緊湊型 omnimodal world model，適合多模態理解、世界模擬、未來預測、動作推理、Physical AI 應用 - **Cosmos3-Super**，64B：前沿級 omnimodal world model，能力更強，適合更高階任務 - **Cosmos3-Super-Text2Image**，64B：高保真文生圖 - **Cosmos3-Super-Image2Video**，64B：強調時間一致性的圖生視頻 - **Cosmos3-Nano-Policy-DROID**，16B：面向 DROID manipulation and control 的視覺語言機器人策略模型從命名就能感受到它的角色分工非常明確。Nano 像敏捷的偵察兵，Super 像重裝主力艦，而針對特定場景的模型則像專業作戰單位。這類家族化設計很重要，因為 Physical AI 的需求本來就不是單一的。有的場景追求推理能力，有的更關心視頻生成，有的要做動作策略，有的看重部署效率。Cosmos 沒把它們硬塞進同一張臉，而是把它們組織成了一套生態化編隊。 --- ## 支持的生成設定，看得出它不是玩具，而是認真給開發者用的在生成能力上，Cosmos 3 給出了相當具體的支持範圍： - 分辨率：256p、480p、720p - 長寬比：16:9、4:3、1:1、3:4、9:16 - 幀率：10、16、24、30 FPS - 幀數：5 到 300 - 精度：BF16 tested - 操作系統：Linux - GPU 架構：NVIDIA Ampere、Hopper、Blackwell 這些信息看似枯燥，但恰恰說明它的 README 寫得非常工程化。它沒有隻告訴你“我們很強”，而是直接告訴你： - 可以怎麼跑 - 跑到什麼規格 - 在什麼硬件上跑 - 適合什麼系統環境對於開發者來說，這種明確性很珍貴。它像一個經驗豐富的工程師，不跟你空談願景，先把規格表掏出來給你看。 --- ## 輸入和輸出：它接住的不只是文字，而是更完整的世界片段 Cosmos 3 支持的輸入類型包括： - Text - Text image - Text video - Text image action 輸入格式包括： - 文本字符串 - JPG / PNG / JPEG / WEBP 圖像 - MP4 視頻 - JSON action array 輸出則可以是： - 圖像 - 視頻 - 聲音 - 動作狀態 - 文本這種 I/O 設計非常像一個真正的“多模態世界接口”。很多模型處理的是“內容”，而 Cosmos 處理的是“場景”和“行為”。你給它的不只是 prompt，而像是在遞給它一小段現實：一張圖、一段視頻、一串動作、一句任務意圖。然後它還給你的，也不只是答案，而可能是未來、結果、聲音、軌跡、動作。它開始像一個數字化實驗室，而不只是一個文本補全器。 --- ## Generator 的世界：它不隻會畫圖，還會把未來拍成片子 README 裏對 Generator 的工作流列得很完整，包括： - Text-to-image - Text-to-video - Text-to-video with sound - Image-to-video - Image-to-video with sound - Video-to-video - Video-to-video with sound - Forward dynamics - Action policy 這份列表裏最讓人印象深刻的部分，是它把生成和動作建模放在了一起。這就意味着 Cosmos 的“生成”不是單純做一個視覺結果，而是在向“模擬世界演化”靠攏。舉個直觀的例子： - 普通視頻生成像是在做一段鏡頭 - Cosmos 的 forward dynamics 更像是在預測“如果按這個動作執行，未來畫面會變成什麼樣” 這對機器人訓練和策略驗證太關鍵了。因為機器真正需要的，不是好看的畫面，而是“如果我這樣做，世界會怎樣回應”。 --- ## Reasoner 的世界：它像在給視頻做推理，而不是做描述 README 中給出的 Reasoner 工作流也很豐富： - Caption - Temporal localization - Embodied reasoning - Common-sense reasoning - 2D grounding - Describe anything - Action CoT - Physical Plausibility Analysis - Situation Understanding 這套能力列表有個非常鮮明的特徵：**它並不滿足於靜態識別，而是在努力處理時間、動作、空間、因果與常識。** 比如 temporal localization，不只是“視頻裏發生了什麼”，而是“某件事在什麼時候發生”。比如 embodied reasoning，不只是“看到了什麼”，而是“下一步應該做什麼”。比如 physical plausibility，不只是“畫面像不像”，而是“這件事是否符合物理常識”。這種能力結構，非常適合通往機器人與自動駕駛。因為現實世界中的智能，不是背答案，而是不斷面對這些問題： - 現在是什麼狀態 - 接下來會發生什麼 - 什麼動作是合理的 - 哪些結果是不符合物理規律的 - 哪個目標在什麼位置 - 當前情境意味着什麼 Cosmos 的 Reasoner，像是在學習把這些問題串成一條完整的思考鏈。 --- ## 它的架構也很有意思：像把“思考”和“生成”裝進了一台統一機器 README 提到，Cosmos 3 是一個 **omnimodal world model**，基於統一的 **Mixture-of-Transformers (MoT)** 架構。它結合了： - 用於推理的 autoregressive transformer - 用於生成的 diffusion transformer 這個設計很有意味。因為在很多系統裏，“理解”和“生成”往往是拆開的，像兩個部門各管一攤。而 Cosmos 更像是把它們安排進同一個組織架構裏，讓“推理”和“生成”彼此協作。可以把它想像成一座城市： - AR transformer 像城市裏的思考中樞，負責判斷、組織語言、推理問題 - Diffusion transformer 像城市裏的造景師，負責把想法和條件擴散成圖像、視頻、聲音和動態結果於是 Cosmos 不只是會說“我理解了”，還會說“我給你演出來”。 --- ## 快速上手：在真正跑起來之前，它先要求你有通行證在 Quickstart 裏，Cosmos 的第一個動作不是急着炫技，而是提醒你先完成 Hugging Face 認證： ```bash uvx hf@latest auth login ``` 這一步很像宇宙入口的通行閘機。你得先拿到訪問模型倉庫的權限，才能進入後續世界。如果你想使用共享緩存或者更大的磁盤空間，還可以設置： ```bash export HF_HOME=/path/to/cache ``` 這類提示很接地氣，因為大模型環境往往不是“裝上就跑”那麼簡單。模型體積、緩存位置、驅動兼容、CUDA 版本、依賴關係，都會在你真正開跑前先來一輪現實教育。Cosmos 的 README 很坦率，它沒有裝作這些問題不存在，而是把它們正大光明地寫出來。 --- ## 用 Diffusers 跑 Generator：這是偏研究與開發者友好的入口如果你想從 Python-first 的方式體驗 Cosmos 3 Generator，README 推薦了 Diffusers 路線。環境安裝示例： ```bash uv venv --python 3.13 --seed --managed-python source .venv/bin/activate uv pip install --torch-backend=auto "diffusers @ git https://github.com/huggingface/diffusers.git" accelerate a v cosmos_guardrail huggingface_hub imageio imageio-ffmpeg torch torchvision transformers ``` 然後就可以直接在 Python 中加載 `Cosmos3OmniPipeline`： ```python import torch from diffusers import Cosmos3OmniPipeline from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler from diffusers.utils import export_to_video pipe = Cosmos3OmniPipeline.from_pretrained( "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda", ) pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0) result = pipe( prompt="A mobile robot na vigates a warehouse aisle and stops at a shelf.", negative_prompt="", image=None, num_frames=189, height=720, width=1280, fps=24, num_inference_steps=35, guidance_scale=6.0, enable_sound=False, add_resolution_template=False, add_duration_template=False, generator=torch.Generator(device="cuda").manual_seed(1234), ) export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1) ``` 這段代碼最迷人的地方在於，它不像在調一個普通媒體模型，更像是在召喚一個“會做世界片段的導演”。你寫下一句提示詞：一個移動機器人穿過倉庫貨架並停在貨架前。然後模型接過這句話，開始把它變成一段具有時間流動感的視頻。這一刻，文字不再只是文字，而像是一張簡短的分鏡腳本。 --- ## 用 vLLM-Omni 跑 Generator：讓世界生成走向服務化如果你想把 Cosmos 3 Generator 放進生產環境，README 推薦用 **vLLM-Omni**。這條路徑的關鍵意義在於：它讓生成能力可以通過 OpenAI-compatible API 暴露出來，服務化、工程化、可集成。 Docker 啟動示例： ```bash docker run --runtime nvidia --gpus all -v ~/.cache/huggingface:/root/.cache/huggingface -v "$(pwd):/workspace" -p 8000:8000 --ipc=host vllm/vllm-omni:cosmos3 vllm serve nvidia/Cosmos3-Nano --omni --model-class-name Cosmos3OmniDiffusersPipeline --allowed-local-media-path / --port 8000 --init-timeout 1800 ``` 服務器啟動後，可以直接通過接口發起視頻生成請求： ```bash curl -sS -X POST http://localhost:8000/v1/videos/sync --form-string "prompt=A small warehouse robot moves a blue box across a clean floor." --form-string "negative_prompt=blurry, distorted, low quality" --form-string "size=1280x720" --form-string "num_frames=189" --form-string "fps=24" --form-string "num_inference_steps=35" --form-string "guidance_scale=6.0" --form-string "flow_shift=10.0" --form-string "seed=0" --form-string 'extra_params={"use_resolution_template":false,"use_duration_template":false,"guardrails":true}' -o cosmos3_t2v_output.mp4 ``` 這就很像你在對一個“世界生成引擎”發起指令。不是讓它寫文案，而是讓它給你產出一段新的視頻世界。更重要的是，README 還說明了它不僅能做 text-to-video，還支持： - text-to-image - text-to-video - image-to-video - video-to-video - video with sound - action policy - inverse dynamics - forward dynamics 也就是說，這台服務不是一個單一按鈕，而像是一間多功能工作室。有時候它是剪輯師，有時候是導演，有時候是模擬器，有時候又像一個會預測動作後果的未來播放器。 --- ## 用 vLLM 跑 Reasoner：它開始像一個真正可用的視覺推理服務對於 Reasoner，README 給出的生產級推理路徑是 vLLM。安裝： ```bash uv venv --python 3.13 --seed --managed-python source .venv/bin/activate uv pip install --torch-backend=cu130 "vllm==0.21.0" "vllm-cosmos3 @ git https://github.com/NVIDIA/cosmos-framework.git#subdirectory=packages/vllm-cosmos3" ``` 啟動服務： ```bash vllm serve nvidia/Cosmos3-Nano --hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}' --async-scheduling --allowed-local-media-path / --port 8000 ``` 之後，就可以像調用 OpenAI 風格接口一樣調用它。例如在 Python 中： ```python import openai image_url = ( "https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/" "assets/cosmos3/inputs/vision/robot_153.jpg" ) client = openai.OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1") response = client.chat.completions.create( model=client.models.list().data[0].id, messages=[ { "role": "user", "content": [ {"type": "image_url", "image_url": {"url": image_url}}, {"type": "text", "text": "Caption the image in detail."}, ], } ], max_tokens=4096, seed=0, ) print(response.choices[0].message.content) ``` 這種體驗很有意思。你給它一張圖片和一句問題，它不是機械地做識別標籤，而是像一個真的在“讀圖”的觀察者，開始組織細緻的描述與分析。如果再進一步接上視頻、時間定位、具身推理和物理常識任務，這個服務就會越來越像一個視覺場景理解中台，而不僅是一個圖像問答小工具。 --- ## 用 NIM 跑 Reasoner：最快走向生產的一條路 README 裏還提供了一個非常務實的選擇：**NIM**。如果你不想自己折騰太多 vLLM/CUDA 細節，而是希望盡快得到一個生產級、OpenAI-compatible 的 Reasoner 端點，那麼 NIM 是更直接的路徑。啟動容器示例： ```bash export CONTAINER_NAME="nvidia-cosmos3-reasoner" export IMG_NAME="nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0" export LOCAL_NIM_CACHE=~/.cache/nim mkdir -p "$LOCAL_NIM_CACHE" docker run -it --rm --name=$CONTAINER_NAME --runtime=nvidia --gpus all --shm-size=32GB -e NGC_API_KEY=$NGC_API_KEY -e NIM_MODEL_SIZE=nano -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" -u $(id -u) -p 8000:8000 $IMG_NAME ``` 隨後可直接通過 OpenAI 風格接口請求： ```bash curl -X POST 'http://127.0.0.1:8000/v1/chat/completions' -H 'Accept: application/json' -H 'Content-Type: application/json' -d '{ "model": "nvidia/cosmos3-nano-reasoner", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": [ {"type": "image_url", "image_url": {"url": "https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/assets/cosmos3/inputs/vision/robot_153.jpg"}}, {"type": "text", "text": "Describe what is happening in this image in one sentence."} ]} ], "max_tokens": 256, "stream": false }' ``` 這條路徑很像 NVIDIA 在說：如果你不是來研究底層，而是想把能力盡快裝進系統裏，那我也給你準備好了入口。這是一種成熟平台才會有的姿態。它知道不是每個開發者都想從原始碼和依賴地獄開始，所以它給了一個相對順滑的着陸點。 --- ## Cookbook 與生態：Cosmos 不只是模型倉庫，更像一套完整施工圖 Cosmos 的一個很強的信號是，它不是“只有 README”。整個倉庫非常強調 cookbook、backend 選擇、環境搭建、訓練、評估、推理和生態協同。共享環境配置裏列出了多種後端： - Cosmos Framework - Diffusers - Transformers - vLLM - vLLM-Omni - NIM 這說明它不是讓你能按一種方式理解和使用模型，而是把研究、開發、部署三條線都接上了。同時，README 裏還列出了生態項目： - **Cosmos Framework**：端到端 Physical AI 框架，用於訓練和服務 world models - **Cosmos Curator**：分佈式 Physical AI 數據整理系統，覆蓋處理、標註、過濾、去重 - **Cosmos Evaluator**：自動化 Physical AI 評估系統，用於 world generation 和 world reasoning 輸出評估這一整套生態看上去就不再像一個單倉庫，而像一支正在建設基礎設施的隊伍。如果說單個模型像一名強力選手，那麼 Cosmos 系列更像一座正在擴建的工業園區： - Framework 負責生產線 - Curator 負責數據篩選和加工 - Evaluator 負責質檢 - Cosmos 主倉庫負責把世界模型能力組織起來 - 不同 serving 路徑負責把能力送到應用側這也是為什麼它特別有“平台感”。 --- ## 它也很誠實：能力強，不代表沒有限制一個讓人很加分的部分，是 README 裏專門寫了 **Limitations**。 Cosmos 3 可能在以下情況下出現問題： - 長時間輸出 - 高分辨率輸出 - 複雜物理場景 - 時間一致性問題 - 相機或物體運動不穩定 - 聲畫不精確對齊 - 複雜動作與長期物理約束處理不穩定這段內容雖然不花哨，但很重要。因為真正做工程的人都知道，一個系統值不值得信任，往往不只是看它最好的時候有多亮眼，更看它是否誠實地告訴你在哪些地方還會失手。 Cosmos 沒把自己包裝成無所不能的神，而更像一個有雄心也有自知之明的探索者。它在說：我已經能做很多事，但我還在繼續成長，尤其是在長期、高複雜度、強物理一致性的任務上，我仍然有進步空間。這種坦誠，反而讓它更像一個可靠的平台。 --- ## CUDA、環境和工程現實：宇宙很宏大，落地也很具體 Cosmos 的 README 和 cookbook 裏，還有很多非常現實的工程提醒，比如： - 推薦 CUDA 13 或 12.8 - 系統 CUDA 和 PyTorch CUDA major version 要匹配 - Linux 環境 - 可能遇到 `torch.cuda.is_a vailable()` 為 false - 可能缺失 `libxcb.so.1` - `uv` 需要足夠新的版本 - vLLM 和 torch backend 要成對匹配 - 大模型初始化時間可能很長，要設置 `--init-timeout 1800` 這些內容像是在提醒開發者：歡迎來到真實世界。這裏只有強大模型還不夠，驅動、容器、緩存、依賴、GPU 拓撲、端口配置、權限訪問，都會在門口排隊迎接你。但正因為 README 把這些問題寫得很清楚，所以 Cosmos 不是那種“論文發佈當天看起來無比美麗，真上手時一句文檔都沒有”的項目。它知道真正的開發者會被什麼問題絆住，於是提前把坑位標出來。這種文檔氣質，本身就很工程。 --- ## 它適合誰如果問 Cosmos 最適合什麼樣的人，可以說，它特別適合下面這些開發者和團隊： ### 1. 想做機器人與具身智能的人如果你關心的是：動作建模、策略學習、未來狀態推演、世界理解、機器人訓練，那麼 Cosmos 幾乎是直接貼着你的需求寫的。 ### 2. 做自動駕駛與複雜場景理解的人它的時間推理、物理合理性判斷、動作鏈路和視頻理解能力，天然與自動駕駛、車端決策、交通場景分析高度相關。 ### 3. 需要合成數據與仿真的團隊真實數據昂貴、標註困難、長尾複雜，而 world generation 與 world simulation 正是合成數據和預訓練的重要方向。 ### 4. 既想研究，也想部署的人 Cosmos 最特別的一點，是它不是單純偏研究，也不是只偏部署。它同時提供： - Python-first 研究入口 - OpenAI-compatible serving 路線 - 容器化部署方案 - Framework 訓練與微調能力 - Cookbook 實例和工程文檔所以它很適合那些不想把研究和工程完全割裂開的團隊。 --- ## 為什麼這個項目會讓人有“未來感” Cosmos 最打動人的地方，不是它有多大，而是它試圖回答的問題本身就很大。很多模型在擴展“語言的邊界”，而 Cosmos 更像在擴展“機器與現實交互的邊界”。它想讓機器： - 看見世界 - 理解世界 - 描述世界 - 推理世界 - 生成世界 - 預測世界 - 在世界中行動這是一條非常宏大的路線。它讓 AI 從“知識處理者”慢慢靠近“現實參與者”。如果文本模型像是坐在書房裏長大的智者，Cosmos 則更像終於走出書房，開始去工廠、倉庫、道路、攝像頭和機器人現場認識世界的學徒。它會跌跌撞撞，會犯錯，會有局限，但它已經不滿足於只在紙面上思考問題了。它想真正進入這個世界。 --- ## 一個很值得記住的判斷 NVIDIA Cosmos 並不是一個只為展示模型能力而存在的倉庫。從 README 的寫法、能力劃分、後端路線、部署方式、訓練生態，到對限制和環境問題的說明，它都在傳達同一件事： **這不是一個“會生成”的模型項目，而是一個認真朝着 Physical AI 基礎平台邁進的工程體系。** 你可以把它看作一扇窗。透過這扇窗，我們能看到未來的 AI 可能不再只是“寫得好、說得順、畫得像”，而是開始真正理解空間、時間、動作、因果和物理規律，開始在模擬與現實之間搭橋，開始為機器人、自動駕駛和智能基礎設施提供新的認知底座。 Cosmos 這個名字取得也很妙。宇宙並不是因為巨大才迷人，而是因為它同時承載了秩序、變化、運動和未知。而 NVIDIA Cosmos 所做的事情，正像是在給機器建造一個可以學習這些東西的小型宇宙。在這個宇宙裏，模型不只是回答，它開始觀察。不只是觀察，它開始推演。不只是推演，它開始生成。不只是生成，它開始嘗試理解行動與結果之間那條最重要的線。也許，這就是 Physical AI 最令人着迷的地方：當機器不再只會處理符號，而開始認真面對真實世界時，智能才真正顯得立體起來。 --- ## 參考的快速啟動命令匯總如果你想快速感受一下 Cosmos 的幾個典型入口，可以從下面這些命令開始。 ### Hugging Face 認證 ```bash uvx hf@latest auth login ``` ### Diffusers 方式安裝 Generator 依賴 ```bash uv venv --python 3.13 --seed --managed-python source .venv/bin/activate uv pip install --torch-backend=auto "diffusers @ git https://github.com/huggingface/diffusers.git" accelerate a v cosmos_guardrail huggingface_hub imageio imageio-ffmpeg torch torchvision transformers ``` ### vLLM 啟動 Reasoner 服務 ```bash vllm serve nvidia/Cosmos3-Nano --hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}' --async-scheduling --allowed-local-media-path / --port 8000 ``` ### vLLM-Omni 啟動 Generator 服務 ```bash docker run --runtime nvidia --gpus all -v ~/.cache/huggingface:/root/.cache/huggingface -v "$(pwd):/workspace" -p 8000:8000 --ipc=host vllm/vllm-omni:cosmos3 vllm serve nvidia/Cosmos3-Nano --omni --model-class-name Cosmos3OmniDiffusersPipeline --allowed-local-media-path / --port 8000 --init-timeout 1800 ``` ### 檢查服務模型是否正常加載 ```bash curl http://localhost:8000/v1/models ``` --- ## 結尾如果你關注的是下一代 AI 會如何真正進入現實世界，那麼 NVIDIA Cosmos 是一個很值得認真閱讀和上手的項目。它不像一些項目那樣只在單點能力上炫技，而是試圖把世界模型、推理、生成、動作、部署、訓練、評估這些關鍵環節串起來，慢慢構成 Physical AI 的基礎設施。它像一個正在擴張中的宇宙。裏面有觀察者，有導演，有推理者，有模擬器，也有訓練場。而開發者要做的，不只是圍觀它發光，而是走進去，拿它來搭建屬於自己的世界。當機器終於不再只會複述世界，而開始理解世界、想像世界、預演世界，Cosmos 的故事，可能才剛剛開始。

来源：互联网

上一篇 2022年计算机技术论文排行榜Top10 下一篇 Code Llama 70B API调用指南：从零到生产部署

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

NVIDIA Cosmos评测：物理智能宇宙的十大亮点

摘要

相关文章推荐