Roblox AI场景生成测评:为何游戏体验缺乏明确目标?
摘要
Roblox团队开发了AI视频模型生成游戏场景,但缺乏规则难以成为真正游戏。为此引入“游戏
游戏的核心是什么?
答案并非华丽的画面或流畅的操作,甚至不完全是开放世界的广度。真正的游戏,其灵魂在于明确的目标、严谨的规则,以及驱动“成功”或“失败”的底层状态逻辑。

Roblox研究员Alberto Hojel近期发表的研究,直指这一核心:一个由视频世界模型驱动的环境,究竟需要什么才能真正“可玩”?
他们的探索最终指向了一个复古而精准的概念:强大的生成模型只是基础,你还需要一张「游戏卡带」。
AI世界模型的现实困境
Roblox训练了一个140亿参数的视频世界模型,能以24fps实时生成画面,并响应玩家的键盘操作(如WASD)即时改变场景。
效果令人印象深刻。从纽约街头无缝切换至喜马拉雅雪山,再潜入深海,AI负责所有实时渲染,物理反馈与光影表现都相当逼真。
模型设计将控制解耦为四个维度:操作、世界、角色与动态。这一架构的巧妙之处在于,当需要更换游戏场景时,开发者无需重构角色与物理规则,只需调整对应模块。

然而,当这个模型交由内部游戏开发者测试时,根本性问题立刻暴露。
玩家陷入了目标缺失的迷茫。
视觉与操控俱在,世界也足够广阔。但这里没有生命值显示,没有任务指引,也没有“收集三个能量核心以升级”的反馈机制。AI生成的世界,是一片精美的技术荒漠——它尚未成为一款真正的游戏。
从游戏史中寻找答案
团队转而向游戏史的源头寻找灵感,例如《Zork》、《Oregon Trail》这类早期文字冒险游戏。
“这些游戏几乎没有图形界面,却拥有极其丰富的世界设定与游戏逻辑。它们的本质,是一个处理文本输入、并输出下一个世界状态的‘状态机’。”
这一类比揭示了关键:游戏的核心是状态管理,而非视觉渲染。AI视频模型擅长创造视觉奇观,但它无法追踪玩家收集了多少钻石,也不记得角色的生命值还剩多少。
问题由此转化:如何让AI专注于其擅长的画面生成,而将严谨的游戏逻辑交由代码负责?
“游戏卡带”究竟是什么?
答案便是Game Cartridge(游戏卡带)——一套运行在Roblox游戏引擎内的可编程代码框架。

具体流程是:开发者使用Luau代码编写一个“状态机”,所有游戏逻辑——生命值、背包系统、任务进度——都封装其中。当特定条件被触发(例如拾取能量罐),游戏引擎便将当前状态打包成文本提示词,传递给视频模型以生成下一帧画面。代码负责逻辑,AI负责渲染,各司其职。

但这里存在一个关键挑战:代码如何“感知”AI生成的画面中发生了什么?玩家是否真的捡起了那个能量罐?
为此,他们引入了第三个角色:视觉语言模型(VLM)作为实时观察者。开发者在代码中定义“视觉触发条件”,例如“玩家是否捡起了能量罐?”。VLM则持续“注视”视频模型生成的每一帧画面,一旦条件满足,立即回调通知游戏引擎更新状态。
至此,逻辑闭环形成:代码管理状态,AI生成画面,VLM作为桥梁将两者精准连接。
团队也尝试过更简化的方案——让VLM直接分析画面并生成提示词回传给视频模型,完全绕过Roblox引擎。但效果不佳。原因很直接:代码能够存储变量、运行确定性的逻辑,这是当前VLM所不具备的核心能力。
原型验证:从概念到可玩体验

基于这套架构,内部开发者构建了一款名为Worlds Research Station的原型游戏,并进行了短暂的公开测试。
游戏采用协作模式:一名玩家在AI实时生成的世界中探索,另一组玩家则在“任务控制中心”远程操控环境变化。探索者的目标是在这个动态世界中找到能量罐以维持生命,努力生存。

一位参与开发的工程师总结:
“我们通过这个项目掌握了两点:第一是如何利用AI模型本身来创造视觉效果,通过组合提示词构建世界;第二是如何在模型与Roblox游戏引擎之间建立有效的通信桥梁。”
这一过程,已非常接近传统的游戏开发管线。
尚未攻克的技术挑战
当然,团队也坦率指出了当前的局限性。主要有两个问题尚未完美解决。
首先是空间控制的精度不足。例如,执行指令“在角色前方生成一个能量罐”后,如果玩家转身离开,AI仍会在其原始“前方”位置持续生成能量罐——它无法理解玩家朝向已改变。对三维空间的精准理解,仍是当前技术的瓶颈。

另一个更微妙的问题是角色的“外观漂移”。在长时间运行后,由于滑动窗口的KV缓存容量限制,角色外观的一致性难以维持。转身再回来,角色的模样可能已发生细微变化。
这两个问题并不意外,毕竟视频世界模型最初并非专为游戏设计。但论文中有一个值得玩味的发现:这套代码框架本身可以反过来成为一种评测工具。利用具体的游戏任务来评估模型在连贯性、可控性等方面的进展,比依赖FVD(Fréchet Video Distance)等抽象指标更为直观,也更贴近实际应用需求。
游戏,正在成为检验世界模型能力的终极试炼场。
未来的演进方向
Roblox的判断是:随着视频世界模型能力增强,游戏引擎的角色将逐渐演变——从管理全部游戏状态,过渡到仅负责核心抽象逻辑,而将视觉渲染完全交由AI处理。

“卡带”这个比喻十分精准。卡带定义了某段游戏体验的规则与叙事,但世界本身由AI实时绘制。更换一张卡带,就意味着开启一个全新的游戏——同一底层模型,却能承载截然不同的体验。
这引出了一个更深层的行业思考。“代码管逻辑,AI管画面”的分工模式听起来清晰高效,但历史经验表明,过于清晰的职责划分往往是阶段性的——每一次“这部分交给机器,那部分留给人”的界定,最终都会被重新谈判。
真正的不确定性或许不在技术瓶颈。而在于:当画面生成彻底交给AI后,游戏开发者还剩下什么?是成为“编写卡带的人”,即规则架构师?还是说,未来连规则本身也会被AI从海量玩家行为数据中归纳出来,开发者则退居为审核与确认的角色?
不过,有一点似乎可以确定:Roblox使用“卡带”这个词,不仅仅是在向经典致敬。他们或许在暗示,这套系统未来的价值,并不完全取决于AI模型本身有多强大,而在于有多少独特、高质量的“卡带”被创造出来。模型可以被复现,但由数百万开发者创作的、海量而多样的卡带内容生态,才是难以逾越的护城河。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。