其他资讯

Roblox AI场景生成测评：为何游戏体验缺乏明确目标？

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Roblox团队开发了AI视频模型生成游戏场景，但缺乏规则难以成为真正游戏。为此引入“游戏

当AI学会“画”世界：游戏卡带如何定义下一代玩法？

游戏的核心是什么？

答案并非华丽的画面或流畅的操作，甚至不完全是开放世界的广度。真正的游戏，其灵魂在于明确的目标、严谨的规则，以及驱动“成功”或“失败”的底层状态逻辑。

Alberto Hojel 在 X 上发布的研究文章截图，浏览量达245K

Roblox研究员Alberto Hojel近期发表的研究，直指这一核心：一个由视频世界模型驱动的环境，究竟需要什么才能真正“可玩”？

他们的探索最终指向了一个复古而精准的概念：强大的生成模型只是基础，你还需要一张「游戏卡带」。

AI世界模型的现实困境

Roblox训练了一个140亿参数的视频世界模型，能以24fps实时生成画面，并响应玩家的键盘操作（如WASD）即时改变场景。

效果令人印象深刻。从纽约街头无缝切换至喜马拉雅雪山，再潜入深海，AI负责所有实时渲染，物理反馈与光影表现都相当逼真。

模型设计将控制解耦为四个维度：操作、世界、角色与动态。这一架构的巧妙之处在于，当需要更换游戏场景时，开发者无需重构角色与物理规则，只需调整对应模块。

Roblox Game Cartridges 展示的六种不同风格世界场景

然而，当这个模型交由内部游戏开发者测试时，根本性问题立刻暴露。

玩家陷入了目标缺失的迷茫。

视觉与操控俱在，世界也足够广阔。但这里没有生命值显示，没有任务指引，也没有“收集三个能量核心以升级”的反馈机制。AI生成的世界，是一片精美的技术荒漠——它尚未成为一款真正的游戏。

从游戏史中寻找答案

团队转而向游戏史的源头寻找灵感，例如《Zork》、《Oregon Trail》这类早期文字冒险游戏。

“这些游戏几乎没有图形界面，却拥有极其丰富的世界设定与游戏逻辑。它们的本质，是一个处理文本输入、并输出下一个世界状态的‘状态机’。”

这一类比揭示了关键：游戏的核心是状态管理，而非视觉渲染。AI视频模型擅长创造视觉奇观，但它无法追踪玩家收集了多少钻石，也不记得角色的生命值还剩多少。

问题由此转化：如何让AI专注于其擅长的画面生成，而将严谨的游戏逻辑交由代码负责？

“游戏卡带”究竟是什么？

答案便是Game Cartridge（游戏卡带）——一套运行在Roblox游戏引擎内的可编程代码框架。

基础视频世界模型循环示意图：文字提示词 + 玩家操作 → 视频模型 → 下一帧画面

具体流程是：开发者使用Luau代码编写一个“状态机”，所有游戏逻辑——生命值、背包系统、任务进度——都封装其中。当特定条件被触发（例如拾取能量罐），游戏引擎便将当前状态打包成文本提示词，传递给视频模型以生成下一帧画面。代码负责逻辑，AI负责渲染，各司其职。

Game Cartridge 完整架构图：游戏引擎管逻辑，视频模型管画面，VLM 负责感知

但这里存在一个关键挑战：代码如何“感知”AI生成的画面中发生了什么？玩家是否真的捡起了那个能量罐？

为此，他们引入了第三个角色：视觉语言模型（VLM）作为实时观察者。开发者在代码中定义“视觉触发条件”，例如“玩家是否捡起了能量罐？”。VLM则持续“注视”视频模型生成的每一帧画面，一旦条件满足，立即回调通知游戏引擎更新状态。

至此，逻辑闭环形成：代码管理状态，AI生成画面，VLM作为桥梁将两者精准连接。

团队也尝试过更简化的方案——让VLM直接分析画面并生成提示词回传给视频模型，完全绕过Roblox引擎。但效果不佳。原因很直接：代码能够存储变量、运行确定性的逻辑，这是当前VLM所不具备的核心能力。

原型验证：从概念到可玩体验

完整系统循环示意图：VLM 读取视觉触发条件，回调更新游戏引擎状态

基于这套架构，内部开发者构建了一款名为Worlds Research Station的原型游戏，并进行了短暂的公开测试。

游戏采用协作模式：一名玩家在AI实时生成的世界中探索，另一组玩家则在“任务控制中心”远程操控环境变化。探索者的目标是在这个动态世界中找到能量罐以维持生命，努力生存。

游戏实际运行画面：AI 实时生成的雪山场景

一位参与开发的工程师总结：

“我们通过这个项目掌握了两点：第一是如何利用AI模型本身来创造视觉效果，通过组合提示词构建世界；第二是如何在模型与Roblox游戏引擎之间建立有效的通信桥梁。”

这一过程，已非常接近传统的游戏开发管线。

尚未攻克的技术挑战

当然，团队也坦率指出了当前的局限性。主要有两个问题尚未完美解决。

首先是空间控制的精度不足。例如，执行指令“在角色前方生成一个能量罐”后，如果玩家转身离开，AI仍会在其原始“前方”位置持续生成能量罐——它无法理解玩家朝向已改变。对三维空间的精准理解，仍是当前技术的瓶颈。

水下世界场景：AI 生成的光影效果自然，但空间定位仍是挑战

另一个更微妙的问题是角色的“外观漂移”。在长时间运行后，由于滑动窗口的KV缓存容量限制，角色外观的一致性难以维持。转身再回来，角色的模样可能已发生细微变化。

这两个问题并不意外，毕竟视频世界模型最初并非专为游戏设计。但论文中有一个值得玩味的发现：这套代码框架本身可以反过来成为一种评测工具。利用具体的游戏任务来评估模型在连贯性、可控性等方面的进展，比依赖FVD（Fréchet Video Distance）等抽象指标更为直观，也更贴近实际应用需求。

游戏，正在成为检验世界模型能力的终极试炼场。

未来的演进方向

Roblox的判断是：随着视频世界模型能力增强，游戏引擎的角色将逐渐演变——从管理全部游戏状态，过渡到仅负责核心抽象逻辑，而将视觉渲染完全交由AI处理。

奇幻世界场景：骑乘飞龙，AI 实时渲染翅膀拍打的物理效果

“卡带”这个比喻十分精准。卡带定义了某段游戏体验的规则与叙事，但世界本身由AI实时绘制。更换一张卡带，就意味着开启一个全新的游戏——同一底层模型，却能承载截然不同的体验。

这引出了一个更深层的行业思考。“代码管逻辑，AI管画面”的分工模式听起来清晰高效，但历史经验表明，过于清晰的职责划分往往是阶段性的——每一次“这部分交给机器，那部分留给人”的界定，最终都会被重新谈判。

真正的不确定性或许不在技术瓶颈。而在于：当画面生成彻底交给AI后，游戏开发者还剩下什么？是成为“编写卡带的人”，即规则架构师？还是说，未来连规则本身也会被AI从海量玩家行为数据中归纳出来，开发者则退居为审核与确认的角色？

不过，有一点似乎可以确定：Roblox使用“卡带”这个词，不仅仅是在向经典致敬。他们或许在暗示，这套系统未来的价值，并不完全取决于AI模型本身有多强大，而在于有多少独特、高质量的“卡带”被创造出来。模型可以被复现，但由数百万开发者创作的、海量而多样的卡带内容生态，才是难以逾越的护城河。

来源：互联网

上一篇 AI+健康社会探索：中国样本亮相世卫大会的启示与展望 下一篇 Anthropic与SpaceX算力合作解析：450亿美元订单背后的战略布局

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。