2026年4月16日:一个巧合与一个时代的序幕 2026年4月16日,科技圈上演了一出有趣的“撞车”
2026年4月16日,科技圈上演了一出有趣的“撞车”事件。腾讯和阿里在同一天,各自亮出了一款名为“世界模型”的产品。腾讯开源了混元3D世界模型2.0(HY-World 2.0),阿里则推出了主打实时交互的HappyOyster。这种默契的“同台竞技”,在科技行业早已是心照不宣的常态——巨头们紧盯着彼此的发布日历,谁都不愿在关键赛道上慢人一步。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
事实上,“世界模型”这个概念在学术界和产业界已经热炒了两年,但多数时候停留在理论探讨和未来预言阶段。真正将其推向公众视野的,是Meta前首席AI科学家杨立昆(Yann LeCun)在2025年底MIT研讨会上的那句断言:“三到五年内,世界模型将取代LLM成为主流AI架构,没有理智正常的人还会用我们今天这种大语言模型。”这番话在硅谷激起了不小的波澜,也让“世界模型”从一个技术术语,变成了一个主流话题。
杨立昆的预言能否成真,业界分歧巨大。但一个不争的事实是:资本、顶尖人才和顶级实验室的目光,正以前所未有的速度向这个方向聚焦。李飞飞的World Labs完成了新一轮10亿美元融资,英伟达的Cosmos平台下载量突破500万次,杨立昆本人离开Meta创立的AMI Labs,也拿到了10.3亿美元的种子轮资金。
视线转回国内,你会发现战局同样激烈。腾讯、阿里、生数科技、群核科技等玩家,正沿着不同的技术路径押注未来。中国力量在这场全球竞赛中的参与深度,远超许多外界观察者的想象。
在此背景下,要看清这场竞赛的全貌,我们需要理清三个环环相扣的问题:世界模型与大语言模型的本质区别究竟在哪?全球的技术路线是如何分化的?以及,中国玩家在这场游戏中,到底手握怎样的牌局?
要理解世界模型为何兴起,得先看清大语言模型(LLM)的“天花板”。LLM的核心机制,本质是在浩瀚的语言文本中寻找统计规律:给定前面一串词,预测下一个词最可能是什么。
这种机制在海量数据训练后,确实涌现出了令人惊叹的能力:写作、推理、编程、翻译,样样在行。但能力的底层,始终是统计意义上的“文字接龙”,而非对物理世界的真实理解。举个例子,LLM知道“玻璃杯掉到地上会碎”,是因为这个句子在它的训练数据里重复了成千上万次,而不是因为它理解了重力、材料脆性和冲击能量。对它而言,“重力”只是一个常与特定语境一起出现的词语,而非一个可以推演至新场景的物理定律。
在聊天、摘要、代码生成这类纯信息处理任务中,这个缺陷无关紧要,LLM已经足够好用。然而,一旦AI需要与物理世界发生真实的、具身的交互,其局限性便暴露无遗。
想想这些场景:让机器人规划一条从桌边绕过障碍物取杯子的路径,需要理解三维空间、物体形状质量、动作的力度与方向;让自动驾驶系统预测前车下一秒的位置,需要理解速度、加速度和驾驶员的潜在意图;让游戏中的AI角色做出合理行为,需要理解场景背后的因果逻辑,而不仅仅是画面像素的视觉连贯性。这些任务,语言建模的框架从根子上就不适合处理。
世界模型的出发点,正是为了填补这个根本性的空缺。简而言之,世界模型预测的不是“下一个词”,而是“下一个状态”。物体在空间中的位置会如何变化?一个动作会引发怎样的连锁反应?光线在不同材质表面反射后,随着视角移动会如何演变?它试图构建的,是一个对物理现实的内部模拟器,让AI能在这个模拟中进行规划、预测和推理,而不仅仅是在语言符号间做模式匹配。

打个或许不那么精确但很形象的比方:LLM像一位熟读万卷旅行指南的图书管理员,他能告诉你北京任何一条胡同的典故,但若真把他放在那条胡同里,他未必知道该往哪边走才能找到地铁站。而世界模型,则试图培养出一位真正在城市里穿行过、对空间有切身感知的活地图向导。
这无关知识量的多寡,而是知识性质的截然不同。
不过,眼下“世界模型”这个术语的边界还相当模糊。不同团队在做的事,差异远比这个统一的名字所暗示的要大。有的团队专注于基于视频的交互式生成,核心是让模型学会“如果用户这样操作,画面接下来会怎么变”;有的团队致力于从图像或描述直接生成可编辑的三维几何资产,重点在于产出物的工程可用性;还有的团队在为机器人和自动驾驶构建物理仿真训练环境,追求的是数据的物理正确性。
这三条路线的交集有限,背后的商业逻辑也迥然不同。理解这一点,是看清当前全球竞争格局的前提。
从技术路径看,全球的世界模型竞赛大致沿着三个方向展开,每条路都有其内在逻辑,也面临着固有的挑战。
第一条路线:视频基世界模型。 这条路径的核心假设是,视频是记录物理世界最丰富的信息载体,只要让模型深度“啃透”海量视频数据,它就能自行领悟世界的运行规律。谷歌的Genie系列是此路线的学术标杆,其Genie 3版本于2025年8月向部分研究者开放,能够根据文字描述实时生成可交互的三维场景。
李飞飞的World Labs推出的Marble,能从文本或图片生成风格多样的可漫游虚拟世界。阿里巴巴ATH事业部的HappyOyster也属此列,其差异化在于原生多模态架构与流式生成能力的结合。模型在生成过程中能持续接收用户指令并实时响应,用户可以像导演一样,在已生成的场景里调整镜头、改写剧情、调度角色,而非被动等待一整段视频渲染完成。

目前,HappyOyster支持连续三分钟以上的实时“导演级”交互,在体验层面是国内此路线中最成熟的产品。但这条路线存在一个内置的局限:基于视频学习的世界模型,生成的是“像素意义上”的连贯,而不一定是“物理意义上”的真实。画面看起来流畅,不代表背后有真实的三维结构;光影看起来合理,也不意味着模型真正理解了光的传播规律。HappyOyster的技术文档也坦承,其漫游模式与导演模式尚未完全打通,长时序场景的一致性仍有提升空间。这是整条路线在当前阶段共同面临的工程挑战。
第二条路线:3D资产化世界模型。 腾讯的混元3D世界模型HY-World 2.0是这条路线目前的代表。其关键转变在于,直接生成可编辑的三维几何资产(如Mesh、3DGS、点云),这些文件可以无缝导入Unity、Unreal Engine等主流游戏引擎,进行二次编辑和物理交互。
腾讯押注此路,战略逻辑非常清晰。它坐拥海量的3D游戏数据和成熟的引擎工程积累,提升游戏3D内容的生产效率,是最直接、最迫切的商业验证场景。传统上,一张开放世界地图的建模周期以月计,需数十名美术人员参与;而据称,使用HY-World 2.0生成一个可交互的3D游戏原型场景,仅需约12分钟。这个数字即便在实际应用中打些折扣,对游戏行业效率的提升也是碘伏性的。
当然,这条路线同样有其边界。3D资产生成解决的是“内容生产效率”问题,但它本质上仍是一个生成模型,而非真正理解物理规律的仿真系统。它能生成视觉上合理的3D场景,却不一定能保证物理意义上的正确性,比如碰撞检测、材质属性、动力学行为等,在游戏引擎中仍需工程师介入校正。这个差距在游戏原型阶段尚可接受,但如果要迁移到机器人训练或高精度数字孪生等场景,距离就会被迅速放大。
第三条路线:空间数据与仿真平台。 这条路更偏向基础设施层,不直接做终端产品,而是提供高质量的三维训练数据、物理正确的仿真环境、以及连接虚拟与真实世界的工具链。
国内这条路线值得关注的案例是群核科技。这家家装设计软件公司的入局逻辑,与腾讯、阿里截然不同,它是从其十余年积累的海量、结构化设计数据中,找到了一条通向空间智能的独特路径。
酷家乐平台上积累的4.8亿个三维模型和5亿个结构化空间场景,是物理属性正确的真实世界设计数据。群核科技在2025年英伟达GTC大会上开源的空间语言模型SpatialLM,仅凭一段手机拍摄的视频就能生成带有物理约束的三维场景布局,开源后迅速登上HuggingFace趋势榜第二。其空间智能平台SpatialVerse,已与智元机器人、银河通用、穹彻智能等具身智能公司建立合作,为机器人提供虚拟训练环境。
2026年4月17日,群核科技以“全球空间智能第一股”身份登陆港交所,上市首日股价高开171%,市场对其赛道卡位给予了高度认可。
横向对比这三条路线,中美竞争格局呈现出结构性差异。美国的格局是:大平台公司(如英伟达、谷歌)专注于通用基础设施和前沿研究,学术创业公司(如World Labs、AMI Labs)进行尖端技术探索,而中间的商业化产品层尚未出现成熟的巨头玩家——Meta和OpenAI在世界模型领域的实质性投入相对谨慎,前者更多停留在理论表态,后者重心仍在大语言模型的商业化上。
中国的格局则是:头部大厂更倾向于从自身最强的垂直场景(如腾讯的游戏、阿里的交互体验)切入,同时有一批垂直数据公司(如群核科技)在上游资产层成功卡位。两种格局的竞争逻辑不同,美国更强调技术原理的通用性与前沿性,中国则更强调场景落地的速度与数据资产的稀缺性。这种差异在下一阶段的竞争中会如何演化,目前仍是未知数。
如果把视线从宏观的技术路线比较,下沉到产业微观运行的层面,会发现上述差异正在中国本土衍生出一系列具体且短期内难以回避的摩擦。中国玩家凭借场景与数据优势迅速入场,热闹非凡,但也正因为入局太快,一些基础性的共识与规则尚未建立,导致赛道在繁荣的表象下,暗藏着独特的系统性风险。
这些问题业界鲜少公开讨论,但它们真实存在,并将深刻影响未来两三年的赛道走向。
第一个问题,是定义的模糊性正在制造虚假的繁荣感。 目前国内大量冠以“世界模型”之名的产品,使用的虽是同一个词,指代的却是差异极大的东西。有的本质是视频生成模型加了一层交互包装,有的是3D重建工具强化了实时渲染能力,有的则在探索真正意义上的物理仿真。这种定义的混乱,在资本层面容易导致误判,在用户层面可能积累失望,在行业层面则会模糊真实的技术进展与市场炒作之间的边界。
若要给“真正的世界模型”一个更具操作性的判断标准,或许可以这样定义:模型能否在没有显式标注的情况下,从原始感知数据中自主学习因果关系,并在从未见过的新场景里,作出物理上可靠的预测与规划。如果用这个标准来衡量当前市面上的大多数产品,距离还相当遥远。当然,这并非否定这些产品的价值,而是提醒,将迭代进展等同于范式跃迁,是一种需要警惕的认知偷懒。
第二个问题,是数据壁垒的含金量可能被高估了。 中国玩家确实拥有真实的数据优势,例如腾讯的游戏三维数据、群核的空间设计数据、各家自动驾驶公司的路测数据,这些在体量上构成了护城河。但关键在于,世界模型对数据的要求,与大语言模型存在根本性不同。LLM可以从海量但嘈杂的文本中学习规律,数据的“广度”比“精度”更重要;而世界模型需要的是物理正确、时序连贯、标注精准的三维数据,“质量”远比“数量”关键。

现有数据资产中,能真正用于世界模型高质量训练的比例,往往远低于对外宣称的规模。合成数据的争议进一步复杂化了这个问题:由于高质量真实三维数据的采集成本极高,许多团队转向用模拟器生成合成数据来补充训练集。然而,2024年《自然》杂志报道的研究趋势显示,持续使用合成数据训练模型,可能导致模型性能随迭代轮次加速退化,研究者将这种现象比作“近亲繁殖”。这个问题至今尚无普遍接受的解决方案,这也意味着,中国玩家的数据优势,可能比想象中更为脆弱。
第三个问题,是老生常谈却至关重要的商业化路径。 大语言模型在ChatGPT出现后,商业模式已逐渐清晰——API计费、企业订阅、垂直行业部署,链路基本跑通。反观世界模型,至今没有一家公司拿出了可规模复制、形成闭环的商业模型。腾讯的HY-World 2.0目前主要作为开发者工具开源;群核科技2025年财报显示,其96.9%的营收来自软件订阅服务(主要为酷家乐和Coohom),而空间智能相关业务(包括SpatialVerse等)仅占3.1%,其中核心的SpatialVerse平台仅贡献0.6%的营收。
游戏公司愿意为AI生成的3D场景付费的前提,是生成质量能真正替代或大幅缩减人工成本,目前看来差距尚存;影视行业的工作流整合周期漫长;具身智能公司的采购规模远未达到支撑商业化所需的体量。可以说,世界模型目前更像一张拥有巨大想象空间、但兑现时间表尚不确定的支票。
这既是当前的困境,也恰恰是未来的机会所在。毫无疑问,未来第一个在某个垂直场景中验证出可复制商业单元的玩家,将获得远超比例的先发优势。
大语言模型的崛起证明了一件事:当模型规模足够大,仅仅通过预测语言,就能涌现出远超设计者预期的能力。这种“规模涌现”的逻辑,能否成功迁移到对物理世界的建模上,正是“世界模型”这场豪赌最核心的命题。
技术层面的挑战是真实且巨大的。物理世界的复杂度远高于离散的语言空间。语言的基本单元是词语,而物理世界的状态是连续的、高维的,依赖于远比语法规则复杂的因果结构。数据的采集与标注成本高出几个数量级,训练范式需要从头设计,评估方法也远不如NLP领域成熟。这条路,注定比语言模型走过的路更长、更艰难,且布满了未知的弯路。
然而,驱动力同样真实而迫切。机器人、自动驾驶、数字孪生、沉浸式内容……无数领域对“真正理解物理世界的AI”有着刚需,这种需求随着智能硬件的普及只会越来越强烈。
中国在这场全球竞赛中的优势与劣势都相当具体:场景数据的深厚积累与垂直行业的落地压力,构成了有力的支撑;而基础研究的相对深度与清晰商业验证路径的缺乏,则是真实的短板。
腾讯和阿里选择在同一天发布世界模型产品,这个巧合本身就是一个强烈的信号:在中国最头部的科技公司内部,对于AI下一个主战场的判断,已经形成了战略共识。至于这种共识是否正确,答案只能交给时间。
未来,可能比我们想象得更近,也比我们期望得更远。
菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。