其他资讯人工智能正式公布世界模型路线

VAST获2亿美元融资正式公布世界模型路线

2026-06-03

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

通用人工智能公司VAST近期连续发布两项重磅进展。一是完成近2亿美元的新一轮融资，二是

通用人工智能公司VAST近期连续发布两项重磅进展。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

一是完成近2亿美元的新一轮融资，二是正式对外公开其世界模型技术路线。

先看融资。VAST近期完成合计近2亿美元的A+及A++轮融资，领投方为渶策资本和国寿长三角科创基金。投资阵容含金量极高——涵盖头部市场化基金、国资平台及产业龙头战略投资。具体名单包括：深圳市人工智能终端产业基金（产业方为全球头部终端厂商荣耀）、上海半导体产投等产业投资方，以及深创投、元生资本、沃赋创投、方广资本等一线财务资本。此外，春华创投、靖亚资本、BV百度风投、东方嘉富等老股东继续超额追投。

这是VAST继今年3月完成5000万美元A轮融资后，再次获得资本加持。市场对AI 3D赛道的信心正在持续加码。

本轮融资的同时，VAST同步披露了其世界模型的最新成果：Project Eden。

该项目的技术路径与业界常见的「动作条件视频生成」或「静态3D场景生成」截然不同。Project Eden首创性地将底层状态推演与视觉呈现进行了原生解耦。

AI 3D与世界模型本就是同一条河流的不同分支。VAST正式披露世界模型路线，实属水到渠成。

VAST首席科学家曹炎培表示：从第一天起，VAST的核心目标就是解锁下一代互动内容的底层基础设施，为通用人工智能构建专属世界底座。整个技术路径分为两阶段：第一步「造万物」——用AI生成天然兼容工业管线的3D资产；第二步「造世界」——构建可动态推演、多人实时交互、状态永久留存的虚拟环境。

Project Eden：一条完全不同的世界模型技术路线

行业内流传一个梗：「什么模型都可以叫世界模型」。这并非全无道理。目前世界模型的技术路线五花八门，各家都在押注不同的核心假设。

Google DeepMind的Genie走的是单体视频模型路线，将空间、世界、交互、视角全部压缩进像素历史。但问题在于——镜头一旦移开，模型就失去对那片区域的所有信息。缺乏独立的状态概念，架构上几乎不可能支持多玩家交互。

「AI教母」李飞飞创立的World Labs走另一条路。Marble强调空间结构和几何一致性，从单图生成持久3D世界，空间感知表现不错。但这条路径剥离了时间维度和物理运行逻辑，目前仍停留在静态3D场景重建，缺乏时间维度的状态变化和推演。

Yann LeCun力推的JEPA主张在潜空间维护内部状态进行推演，与VAST在底层哲学上有一定契合，但前者目前更多停留在学术纲领层面。

VAST认为，一套合格的通用世界模型必须同时解决两大核心命题：第一，定义世界当下的客观状态（State）；第二，驱动世界持续自主演化（Transition）。最终目标是构造可交互的虚拟世界——支持多人交互、环境永久存在、可随时重访。

Project Eden的技术核心，正是将底层状态推演与视觉呈现进行原生解耦。

具体而言，系统分为三层。

底层是结构化状态层，维护一个跨时间持续存在的全局世界状态。该状态独立于相机视角——无论镜头转向何处，底层世界持续运转。这是一种紧凑的隐式表征，记录场景几何结构、物体身份属性和全局事件逻辑，计算效率有保障。

中间是条件接口层，负责将底层3D状态转化为特定视角下的语义和几何约束。所有视角的渲染同源于同一个底层世界，物理一致性从架构层面天然保证，而非靠模型「猜」出来。

上层是生成式渲染层，接收状态约束后，专注补全纹理、光照、材质和局部动态细节。不再需要盲猜画面结构，算力全部集中于渲染本身。

问题来了：为什么一定要把状态和渲染拆开？不能放在一个模型里一起训练吗？

曹炎培举了个例子：假设玩家按下灭火器，世界下一刻会发生什么？在紧凑的状态空间里推理这件事，给定充足数据，其实并不复杂。但若将「状态预测」和「画面呈现」耦合在同一个模型里，两件事同时考虑——不仅要判断灭火器粉末是否喷出，还要确保喷出的样子足够逼真——模型负担会指数级增加。

解耦后，状态模型只负责推理「发生了什么」，渲染模型只负责呈现「看起来怎样」。两者都能做得更专、更准。

支撑这套架构运转的是两层数据策略。

L1是海量互联网视频自标注。依托Tripo积累的3D基础模型能力，对互联网2D视频进行反向解构，提取深度、相机位姿与几何轨迹，将普通视频提炼为同时包含底层推演态和视觉渲染态的双态数据，为模型打下泛化底座。互联网视频的体量是合成数据无法比拟的，这是L1能够持续scale的根本。

L2是引擎合成数据，负责精准。游戏引擎天然同时运行两种状态，是最理想的双态数据来源。但若靠人工录制，即使有1万台机器，也很难找到1万个人持续操作出足够多样的内容。VAST的做法是让Agent在引擎环境里7×24小时不间断探索，自动录制带有精准3D状态标注的训练配对数据，帮助模型掌握严密的物理演变和控制逻辑。

三大能力与三大落地场景

得益于对状态的解耦，Project Eden走出了单体视频模型无法逾越的三座大山。

第一，原生的环境持久化。对象离开相机视锥后，依然在底层状态中持续运转。用户转回视角时，模型查询的是确定存在的客观状态，而非靠历史帧重新生成——从而实现了长程记忆和一致性。

第二，场景自由复用与模块化。传统视频世界模型是一镜到底的盲盒，时间线不可逆。而Project Eden允许用户反复介入一个正在运转的底层世界状态。用户对场景的破坏、改造等操作被真实留存在底层状态中，后续进入者看到的是完全一致的结果。同一个底层世界状态，支持反复介入与模块化搭建，无需重复生成场景。

第三，原生多玩家交互。状态演化与渲染流程相互解耦后，单一底层世界可同时承载大量真人用户与AI智能体多并发在线交互。如果是单体视频模型，处理多玩家时每个视角各自维护一套像素历史，算力会随人数指数爆炸。而Project Eden的底层状态被所有智能体共享并同步推演，系统只需根据各自坐标分别渲染多路画面——算力成本是线性可控的。真正的多人在线世界，在架构上第一次成立。

这三大能力，打开了两个方向的落地空间：

面向消费创作者，这是AI原生沙盒平台。用户以自然语言或简易动作，即可一键创作可多人共享的互动数字世界。内容持续累积，无需每次重新生成。

面向科研，则是具身智能的高质量仿真基座。具备稳定物理逻辑、时序一致、可长期持久化的生成式世界，天然支持集群式智能体训练和多智能体协同研究。

曹炎培表示，VAST的愿景是让每个人都能亲手创造、自由探索无数个可交互的世界。

Project Eden这个名字本身也耐人寻味，源自西方神话中的伊甸园。《创世记》里，人类因偷食禁果被逐出伊甸园。整个西方文明叙事开端，就是一次人类好奇心被惩罚——在创世之初，求知本身就要付出代价。而Project Eden想要改写这个开端：世界可以拥有成千上万座花园，朝着无需批准的方向恣意生长，结出无数种果实，等待所有人采摘和品尝。

从造万物到造世界，这条路有根可循

如曹炎培所言，从AI 3D到世界模型，两者紧密相连。两步走：从造万物到造世界。

李飞飞也曾指出，空间智能是机器在3D空间和时间中感知、推理和行动的能力。在她看来，AI发展必然迈向对三维世界的理解。而谢赛宁与李飞飞的合作研究明确强调，空间推理对人类智能至关重要，视觉空间智能在现实世界的应用比以往任何时候都更接近。

3D能力是世界模型绕不过去的地基。问题在于，谁在这条路上积累最深？VAST必然榜上有名——它坐拥全球最大的高质量原生3D数据集，旗下Tripo系列产品已成为全球使用最广泛的通用3D生成大模型之一。

生态合作覆盖阿里巴巴、腾讯、字节、网易、上汽、拓竹、群核科技等头部企业，旗下Tripo Studio平台已聚集超过2000万创作者。

过去三年，Tripo系列模型每次迭代都成为全球行业标杆。2026年3月正式上线的Tripo H3.1，以雕塑级几何细节刷新了AI 3D的精度天花板。Tripo P1.0是全球唯一能在数秒内输出生产级网格的3D大模型，较市面其他方案提速百倍，代际领先。Tripo 8K贴图是业内首款原生8K AI贴图算法，将资深贴图师需要3至5天完成的工作压缩至2分钟以内。智能部件拆分Segmentation V2依托升级后的多模态3D结构理解模型，引入三档颗粒度控制，覆盖3D打印、游戏开发、精细模组等不同下游场景。

在开源生态上，VAST已历经三季开源计划。第一季与Stability AI联合开源TripoSR，将单图3D生成速度压缩至0.5秒级别。第二季陆续释放TripoSG、TripoSF、UniRig、HoloPart等八大项目，UniRig稳居全球3D自动绑骨开源方案标杆。第三季聚焦动态互动内容，与清华大学联合开源TripoSplat（DeG）、SkinTokens，与香港大学联合开源AniGen——从静态生成到可动资产，再到动态交互，脉络清晰。三年累计对外开源项目超30个，覆盖从基础表征到生成管线的完整技术栈。

可以说，VAST是目前全球商业化落地最深的AI 3D公司之一。VAST长期积累的深度估计、相机位姿、几何结构、多视角一致性能力，直接支撑了Project Eden的数据策略和架构设计。从Tripo系列的3D生成，到Project Eden的状态与渲染解耦，这是一条逻辑连贯的技术演进路线。曹炎培表示，推进世界模型的研发，与他们从第一天起就树立的「造世界」目标完全吻合，是一个水到渠成的过程。

VAST背后的创始团队同样具备深厚技术底蕴。创始人兼CEO宋亚宸，97年出生，曾在商汤科技推动多个AI项目落地，参与创立通用大模型公司MiniMax。CTO梁鼎，清华大学本硕博，人工智能领域深耕十余年，发表论文50余篇，拥有100多项专利，累计引用上万次，曾任商汤科技通用模型负责人。首席科学家曹炎培，清华大学计算机系本科及博士，主导threestudio、TripoSR等开源项目累计获超15000 GitHub星标，曾联合创立Owlii后被快手收购，后任腾讯ARC实验室与AI Lab专家研究员——是国内生成式3D领域最具代表性的研究者之一。

当然，VAST也清楚还有两块硬骨头要啃。

一块是更高复杂度场景的物理演化——未来的世界底座，需要支持更丰富的物理动态、更广阔的自由视角，以及颗粒度更细的对象间交互。

另一块是状态的自主维护——完整的闭环需要一个强大的状态转移模型，能够完全根据智能体的交互行为与视觉观测，持续自监督地更新底层状态，不再依赖外部标注和引擎辅助。这一步实现之后，世界才真正「活」起来。

通向世界模型的征程，才刚刚起步。技术路线远没有收敛。而在起点，VAST就做了一个不跟随的选择——提出了一条全新的技术路线。世界模型最终长什么样，没有人知道。但至少在这个起点上，VAST已经走出了自己的方向。

来源：互联网

上一篇 OpenAI机器人业务加码招聘信息曝光 CEO亲自发布 下一篇 萤石EP8 Ultra双镜头可视门铃测评：交互式屏幕升级智能入户体验

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

VAST获2亿美元融资 正式公布世界模型路线

摘要

Project Eden：一条完全不同的世界模型技术路线

三大能力与三大落地场景

从造万物到造世界，这条路有根可循

相关文章推荐

VAST获2亿美元融资正式公布世界模型路线