VAST获2亿美元融资 正式公布世界模型路线
摘要
通用人工智能公司VAST近期连续发布两项重磅进展。 一是完成近2亿美元的新一轮融资,二是
通用人工智能公司VAST近期连续发布两项重磅进展。

一是完成近2亿美元的新一轮融资,二是正式对外公开其世界模型技术路线。
先看融资。VAST近期完成合计近2亿美元的A+及A++轮融资,领投方为渶策资本和国寿长三角科创基金。投资阵容含金量极高——涵盖头部市场化基金、国资平台及产业龙头战略投资。具体名单包括:深圳市人工智能终端产业基金(产业方为全球头部终端厂商荣耀)、上海半导体产投等产业投资方,以及深创投、元生资本、沃赋创投、方广资本等一线财务资本。此外,春华创投、靖亚资本、BV百度风投、东方嘉富等老股东继续超额追投。
这是VAST继今年3月完成5000万美元A轮融资后,再次获得资本加持。市场对AI 3D赛道的信心正在持续加码。
本轮融资的同时,VAST同步披露了其世界模型的最新成果:Project Eden。
该项目的技术路径与业界常见的「动作条件视频生成」或「静态3D场景生成」截然不同。Project Eden首创性地将底层状态推演与视觉呈现进行了原生解耦。
AI 3D与世界模型本就是同一条河流的不同分支。VAST正式披露世界模型路线,实属水到渠成。
VAST首席科学家曹炎培表示:从第一天起,VAST的核心目标就是解锁下一代互动内容的底层基础设施,为通用人工智能构建专属世界底座。整个技术路径分为两阶段:第一步「造万物」——用AI生成天然兼容工业管线的3D资产;第二步「造世界」——构建可动态推演、多人实时交互、状态永久留存的虚拟环境。
Project Eden:一条完全不同的世界模型技术路线
行业内流传一个梗:「什么模型都可以叫世界模型」。这并非全无道理。目前世界模型的技术路线五花八门,各家都在押注不同的核心假设。
Google DeepMind的Genie走的是单体视频模型路线,将空间、世界、交互、视角全部压缩进像素历史。但问题在于——镜头一旦移开,模型就失去对那片区域的所有信息。缺乏独立的状态概念,架构上几乎不可能支持多玩家交互。
「AI教母」李飞飞创立的World Labs走另一条路。Marble强调空间结构和几何一致性,从单图生成持久3D世界,空间感知表现不错。但这条路径剥离了时间维度和物理运行逻辑,目前仍停留在静态3D场景重建,缺乏时间维度的状态变化和推演。
Yann LeCun力推的JEPA主张在潜空间维护内部状态进行推演,与VAST在底层哲学上有一定契合,但前者目前更多停留在学术纲领层面。
VAST认为,一套合格的通用世界模型必须同时解决两大核心命题:第一,定义世界当下的客观状态(State);第二,驱动世界持续自主演化(Transition)。最终目标是构造可交互的虚拟世界——支持多人交互、环境永久存在、可随时重访。
Project Eden的技术核心,正是将底层状态推演与视觉呈现进行原生解耦。
具体而言,系统分为三层。
底层是结构化状态层,维护一个跨时间持续存在的全局世界状态。该状态独立于相机视角——无论镜头转向何处,底层世界持续运转。这是一种紧凑的隐式表征,记录场景几何结构、物体身份属性和全局事件逻辑,计算效率有保障。
中间是条件接口层,负责将底层3D状态转化为特定视角下的语义和几何约束。所有视角的渲染同源于同一个底层世界,物理一致性从架构层面天然保证,而非靠模型「猜」出来。
上层是生成式渲染层,接收状态约束后,专注补全纹理、光照、材质和局部动态细节。不再需要盲猜画面结构,算力全部集中于渲染本身。
问题来了:为什么一定要把状态和渲染拆开?不能放在一个模型里一起训练吗?
曹炎培举了个例子:假设玩家按下灭火器,世界下一刻会发生什么?在紧凑的状态空间里推理这件事,给定充足数据,其实并不复杂。但若将「状态预测」和「画面呈现」耦合在同一个模型里,两件事同时考虑——不仅要判断灭火器粉末是否喷出,还要确保喷出的样子足够逼真——模型负担会指数级增加。
解耦后,状态模型只负责推理「发生了什么」,渲染模型只负责呈现「看起来怎样」。两者都能做得更专、更准。
支撑这套架构运转的是两层数据策略。
L1是海量互联网视频自标注。依托Tripo积累的3D基础模型能力,对互联网2D视频进行反向解构,提取深度、相机位姿与几何轨迹,将普通视频提炼为同时包含底层推演态和视觉渲染态的双态数据,为模型打下泛化底座。互联网视频的体量是合成数据无法比拟的,这是L1能够持续scale的根本。
L2是引擎合成数据,负责精准。游戏引擎天然同时运行两种状态,是最理想的双态数据来源。但若靠人工录制,即使有1万台机器,也很难找到1万个人持续操作出足够多样的内容。VAST的做法是让Agent在引擎环境里7×24小时不间断探索,自动录制带有精准3D状态标注的训练配对数据,帮助模型掌握严密的物理演变和控制逻辑。
三大能力与三大落地场景
得益于对状态的解耦,Project Eden走出了单体视频模型无法逾越的三座大山。
第一,原生的环境持久化。对象离开相机视锥后,依然在底层状态中持续运转。用户转回视角时,模型查询的是确定存在的客观状态,而非靠历史帧重新生成——从而实现了长程记忆和一致性。
第二,场景自由复用与模块化。传统视频世界模型是一镜到底的盲盒,时间线不可逆。而Project Eden允许用户反复介入一个正在运转的底层世界状态。用户对场景的破坏、改造等操作被真实留存在底层状态中,后续进入者看到的是完全一致的结果。同一个底层世界状态,支持反复介入与模块化搭建,无需重复生成场景。
第三,原生多玩家交互。状态演化与渲染流程相互解耦后,单一底层世界可同时承载大量真人用户与AI智能体多并发在线交互。如果是单体视频模型,处理多玩家时每个视角各自维护一套像素历史,算力会随人数指数爆炸。而Project Eden的底层状态被所有智能体共享并同步推演,系统只需根据各自坐标分别渲染多路画面——算力成本是线性可控的。真正的多人在线世界,在架构上第一次成立。
这三大能力,打开了两个方向的落地空间:
面向消费创作者,这是AI原生沙盒平台。用户以自然语言或简易动作,即可一键创作可多人共享的互动数字世界。内容持续累积,无需每次重新生成。
面向科研,则是具身智能的高质量仿真基座。具备稳定物理逻辑、时序一致、可长期持久化的生成式世界,天然支持集群式智能体训练和多智能体协同研究。
曹炎培表示,VAST的愿景是让每个人都能亲手创造、自由探索无数个可交互的世界。
Project Eden这个名字本身也耐人寻味,源自西方神话中的伊甸园。《创世记》里,人类因偷食禁果被逐出伊甸园。整个西方文明叙事开端,就是一次人类好奇心被惩罚——在创世之初,求知本身就要付出代价。而Project Eden想要改写这个开端:世界可以拥有成千上万座花园,朝着无需批准的方向恣意生长,结出无数种果实,等待所有人采摘和品尝。
从造万物到造世界,这条路有根可循
如曹炎培所言,从AI 3D到世界模型,两者紧密相连。两步走:从造万物到造世界。
李飞飞也曾指出,空间智能是机器在3D空间和时间中感知、推理和行动的能力。在她看来,AI发展必然迈向对三维世界的理解。而谢赛宁与李飞飞的合作研究明确强调,空间推理对人类智能至关重要,视觉空间智能在现实世界的应用比以往任何时候都更接近。
3D能力是世界模型绕不过去的地基。问题在于,谁在这条路上积累最深?VAST必然榜上有名——它坐拥全球最大的高质量原生3D数据集,旗下Tripo系列产品已成为全球使用最广泛的通用3D生成大模型之一。
生态合作覆盖阿里巴巴、腾讯、字节、网易、上汽、拓竹、群核科技等头部企业,旗下Tripo Studio平台已聚集超过2000万创作者。
过去三年,Tripo系列模型每次迭代都成为全球行业标杆。2026年3月正式上线的Tripo H3.1,以雕塑级几何细节刷新了AI 3D的精度天花板。Tripo P1.0是全球唯一能在数秒内输出生产级网格的3D大模型,较市面其他方案提速百倍,代际领先。Tripo 8K贴图是业内首款原生8K AI贴图算法,将资深贴图师需要3至5天完成的工作压缩至2分钟以内。智能部件拆分Segmentation V2依托升级后的多模态3D结构理解模型,引入三档颗粒度控制,覆盖3D打印、游戏开发、精细模组等不同下游场景。
在开源生态上,VAST已历经三季开源计划。第一季与Stability AI联合开源TripoSR,将单图3D生成速度压缩至0.5秒级别。第二季陆续释放TripoSG、TripoSF、UniRig、HoloPart等八大项目,UniRig稳居全球3D自动绑骨开源方案标杆。第三季聚焦动态互动内容,与清华大学联合开源TripoSplat(DeG)、SkinTokens,与香港大学联合开源AniGen——从静态生成到可动资产,再到动态交互,脉络清晰。三年累计对外开源项目超30个,覆盖从基础表征到生成管线的完整技术栈。
可以说,VAST是目前全球商业化落地最深的AI 3D公司之一。VAST长期积累的深度估计、相机位姿、几何结构、多视角一致性能力,直接支撑了Project Eden的数据策略和架构设计。从Tripo系列的3D生成,到Project Eden的状态与渲染解耦,这是一条逻辑连贯的技术演进路线。曹炎培表示,推进世界模型的研发,与他们从第一天起就树立的「造世界」目标完全吻合,是一个水到渠成的过程。
VAST背后的创始团队同样具备深厚技术底蕴。创始人兼CEO宋亚宸,97年出生,曾在商汤科技推动多个AI项目落地,参与创立通用大模型公司MiniMax。CTO梁鼎,清华大学本硕博,人工智能领域深耕十余年,发表论文50余篇,拥有100多项专利,累计引用上万次,曾任商汤科技通用模型负责人。首席科学家曹炎培,清华大学计算机系本科及博士,主导threestudio、TripoSR等开源项目累计获超15000 GitHub星标,曾联合创立Owlii后被快手收购,后任腾讯ARC实验室与AI Lab专家研究员——是国内生成式3D领域最具代表性的研究者之一。
当然,VAST也清楚还有两块硬骨头要啃。
一块是更高复杂度场景的物理演化——未来的世界底座,需要支持更丰富的物理动态、更广阔的自由视角,以及颗粒度更细的对象间交互。
另一块是状态的自主维护——完整的闭环需要一个强大的状态转移模型,能够完全根据智能体的交互行为与视觉观测,持续自监督地更新底层状态,不再依赖外部标注和引擎辅助。这一步实现之后,世界才真正「活」起来。
通向世界模型的征程,才刚刚起步。技术路线远没有收敛。而在起点,VAST就做了一个不跟随的选择——提出了一条全新的技术路线。世界模型最终长什么样,没有人知道。但至少在这个起点上,VAST已经走出了自己的方向。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。