其他资讯大模型我的世界我的世界AI考场

我的世界AI考场：上交大美团联手评测大模型

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

上海交大与美团联合构建MINEEXPLORER平台，基于《我的世界》筛选1497个常识任务并设计多跳

上海交通大学计算机科学学院与美团联合开展的这项研究，以预印本形式于2026年5月29日发布，编号arXiv:2605.30931。深入研究者可通过该编号在arXiv平台检索完整论文。

上交大与美团联手打造

当前主流的多模态大模型在文本生成、图像识别和问答基准上成绩斐然，但一个根本问题悬而未决：在真实的、动态变化的开放世界中，这些模型能否自主完成复杂任务？在标准化考试中答题，与在随机环境中独立生存，完全是两回事。

研究团队为此设计了一个巧妙方案：将沙盒游戏《我的世界》（Minecraft）改造为一个标准化考场，专门评估AI模型在开放世界中的探索能力。该考场正式命名为MINEEXPLORER。

选择《我的世界》的原因在于，其游戏世界包含草地、森林、河流、村庄、多种生物和怪物，玩家需要观察环境、制定策略并分步达成目标，这与真实世界的问题解决逻辑高度相似。但挑战在于，游戏中存在大量“老玩家专属”的隐性规则——特定合成配方、特殊游戏机制——这些与现实世界的常识完全脱节。研究团队强调，如果AI因“背过游戏攻略”而答对，考试便失去意义。真正考察的是AI能否运用通用推理能力和常识，在动态环境中灵活应变。

基于此核心理念，MINEEXPLORER从3382个游戏任务中，剔除所有“需掌握游戏内部规则”的任务，仅保留1497个仅凭现实世界常识即可完成的任务。随后，这些任务被组合成813个经人工验证的复合测试案例，难度从“单步直达”逐级升级至“完成四个隐藏前置步骤”。测试结果令人警醒：即便是当前最顶尖的AI模型，在该考场中的表现也远未达到优秀水平。

如何确保考场只考察通用智能，而非游戏记忆

构建考场的首要任务是解决一个根本矛盾：《我的世界》中大量规则仅为游戏所独有，与现实常识无对应关系。以合成物品为例，制作活塞需按特定排列组合木头、圆石、铁锭和红石，这套规则在现实生活中毫无对应，普通人即使从未玩过游戏，也无法凭常识推断。

研究团队将所有“仅限资深玩家”的任务剔除，保留那些可凭常识理解的任务。例如“猎杀一只羊”——找到羊、靠近、攻击，这一逻辑在现实世界中完全合理。又如“找到一条河流并游过去”——识别水域、下水、游至对岸，同样凭直觉即可完成。相反，“酿造一瓶治愈药水”被排除，因为其配方——地狱疣与闪光甜瓜放入酿造台——完全属于游戏独有设定。

为了进行筛选，研究团队编写了一份《我的世界》规则说明书，由AI担任裁判：针对每个候选任务，判断一位从未玩过该游戏的普通人能否仅凭现实世界常识完成。能，则保留；不能，则剔除。此过程类似于对试卷进行“公平性审核”，确保题目考察的是真实能力而非死记硬背。经过筛选，原有的3382个任务中，仅1497个通过审核。

为验证筛选过程本身的可靠性，研究团队抽取500个任务，由人工检验AI裁判的判断准确度。结果显示，整体吻合率达到86.8%，误判率均低于10%，表明筛选过程高度可信。

以“感知-推理-行动”框架为AI能力建立坐标

仅有一组任务仍不够，研究团队需要一套系统来分析完成每个任务所需的能力。他们借鉴了“ReAct”框架——该名称源自“推理”与“行动”的组合——将AI在游戏中所需的能力分为三大类：感知、推理和行动。

感知是指AI“观察”并理解世界的能力。具体包括：判断周围地形与目标位置的空间关系、感知任务进行中环境的变化、识别场景中的动物、怪物、村民等实体、监控自身状态（如血量是否过低）、以及检查背包中的物品。这五项感知能力构成了AI“感知世界”的基础。

推理是指AI“思考”并分析问题的能力。它需要依据现实世界常识做出判断——例如知道砍树可获得木头，而木头可用于制作工具；需要理解因果关系，即“先完成A，才能进行B”的逻辑；还需理解空间与对象之间的关系，例如判断哪个目标更近、物品位于哪个区域。

行动是指AI“执行”计划的能力。在游戏中，这包括基本移动（行走、游泳）、跳跃过障碍、采集物品（挖矿、砍树、拾物）、放置方块、合成物品，以及战斗。

为每个任务贴注这三类能力的标签后，研究团队能够清晰界定：每项任务究竟在评估AI的哪些能力，以及难度等级如何。

将简单任务编织成“隐藏关卡”——多跳任务设计

MINEEXPLORER最为精妙的设计在于将多个简单任务组合成一个“隐藏关卡”，正式名称为“隐式多跳任务”。

以考场中的一个案例为例：AI收到的指令是“去打败一只蜘蛛”。看似简单，但在这个精心构建的场景中，AI出生点前横亘着一条河流，而蜘蛛在对岸。因此，AI必须首先识别河流为障碍，然后自我决策“必须先过河”，接着发现附近有材料可合成武器，于是还需先制作一把剑，再游过河，最终才能攻击蜘蛛。

在整个流程中，“过河”和“造剑”这两个前置步骤并未在任务指令中提及。AI必须通过自身对环境进行观察，推断出这些隐藏的前置条件，并按正确顺序逐步完成。这相当于老板下达“给客户送报告”的指令，但并未告知报告尚未打印、打印机缺纸、钥匙在抽屉中——你需要自行发现并逐一解决这些障碍。

研究团队还为每个测试案例设计了“难度分数”。其核心逻辑是：需要预先完成的隐藏步骤越多、每一步骤涉及的能力种类越杂，任务难度就越高。一跳任务没有隐藏步骤，直接完成目标；两跳任务包含一个隐藏前置步骤；三跳任务包含两个；四跳任务包含三个。数字越大，AI需要在记忆中维持的“计划链条”就越长，出错概率也随之上升。

五名“专家”协作，方能编写一道优质考题

设计这些测试案例本身就是一个复杂的工程。研究团队发现，仅依赖单一AI模型出题，生成的题目往往漏洞频出：场景布局不合理、评分规则有误、任务逻辑前后矛盾。为此，他们设计了一个由五个专门角色组成的“出题委员会”，每个角色各司其职。

第一个角色是任务选择员，负责从候选任务池中挑选合适的任务组合，设计其依赖关系，并撰写仅说明最终目标、不透露隐藏步骤的任务指令。第二个角色是场景设计师，负责在游戏中搭建实际场景——放置方块、召唤生物、调整地形——并可“进入”亲自验证设计是否合理。

第三个角色是里程碑设计师，负责将每个子任务转化为可由程序自动判定的规则。例如，“已采集煤炭”可通过“背包中煤炭数量增加1”来判定，“已击败僵尸”可通过“僵尸从场景中消失”来判定。这些规则必须精确且可执行，设计师还可实际触发条件以验证规则有效性。第四个角色是《我的世界》专家，负责审查整个设计是否无意中依赖于游戏专属知识，必要时可查阅游戏维基百科以核实具体机制。第五个角色是验证员，负责从结构上检查任务的依赖图是否存在逻辑错误、评分规则是否存在漏洞。

这五个角色在一个“讨论组”中协同工作：先各自完成初稿，然后相互审查、提出意见、进行修改，直至所有人都认为题目无误。这一过程类似于学术论文的同行评审，只是“评审人”均为AI。

研究团队专门比较了“五人团队出题”与“单一AI独立出题”的效果。人工评审结果显示：五人团队的题目整体合格率约为78%，质量评分约4.53分（满分5分）；而单个AI的题目合格率仅约为44%，质量评分约4.03分。在四跳任务这一最复杂的情境下，差距更为显著——单个AI的合格率仅约27%，而团队方式可达约66%。这表明，不同专长的角色进行分工协作，能显著提升出题质量。

考场的最终形态是怎样的？AI如何参加考试？

完成所有筛选与生成后，MINEEXPLORER最终包含813个经人工验证的测试案例，覆盖一跳至四跳任务，数量分别为292、301、211和235个。每个案例均包含明确的文字任务指令、精心搭建的游戏场景、一套隐藏的任务依赖图，以及一组可用于自动判分的里程碑规则。

参加考试的AI模型以第一人称视角进入游戏场景。每隔0.1秒，系统截取一张游戏画面发送给AI，AI根据画面进行推理，然后输出一个动作指令——如前进、转动视角、挥锤挖矿等。AI最多可记忆最近20帧的历史画面，整个测试时长不超过30秒（300个步骤）。每执行一步后，系统自动检查里程碑规则是否被触发。

评分采用两个主要指标：任务成功率衡量最终目标是否完成，里程碑成功率衡量在未完全成功的情况下，完成了多少个中间步骤。研究团队验证了该自动评分系统的可靠性：通过让人类观察者观看AI的游戏视频并打分，发现当所有里程碑均被自动检测为“完成”时，人类观察者的平均评分接近4分（满分4分）；当所有里程碑均被检测为“失败”时，人类观察者的平均评分低于3分。自动判分系统与人类判断的整体吻合率同样达到86.8%。

顶尖AI在考场中的实际表现：差距令人震惊

研究团队邀请了18款当前最先进的多模态大模型参加此次考试，涵盖各大公司的旗舰产品。结果可以用一句话概括：在一跳任务中表现尚可，但一旦任务链条变长，几乎所有模型的表现都急剧下滑。

表现最佳的模型是Claude-Opus-4.6，其整体任务成功率约为41%。排名第二的是谷歌的Gemini-3.1-Pro-Preview，成功率约为37%。这两款模型在一跳任务中的成功率分别约为78%和74%，表现尚可；但到了多跳任务，Claude-Opus-4.6的成功率下降至约24%，Gemini的成功率则约为20%。

换个角度理解这组数据更为直观：在一跳任务中，近四分之三的任务可由顶尖模型完成；但在多跳任务中，超过四分之三的任务会失败。随着隐藏步骤的增加，AI的表现呈断崖式下滑，而非缓慢下降。大多数排名靠后的模型，整体成功率在10%至20%之间，部分模型在四跳任务中的成功率接近于零。

从能力维度分析，AI的感知得分普遍高于推理得分，行动得分则大致居中。这一规律在所有受测模型上基本一致。通俗来说，AI通常能够“看到”场景中有什么，但往往无法清晰地推理出“下一步该做什么”。这一差距在多跳任务中更为显著——当AI不仅需要看清现状，还需推断出哪些隐藏的前置条件未满足、以及应优先执行哪个步骤时，其推理能力明显难以胜任。

还有一个出乎意料的发现：模型规模越大、推理过程越复杂，并不一定意味着游戏表现更好。在Qwen系列中，参数量更大的235B版本，其表现并不总是优于32B版本。更令人困惑的是，专门加入了“思考模式”的版本，其整体表现反而有时逊于普通版本。具体而言，Qwen-3-VL-235B-A22B-Instruct的整体任务成功率约为10.6%，而它的“思考”版本Qwen-3-VL-235B-A22B-Thinking仅为约8.1%。

这表明，在开放世界探索这一场景下，单纯增加参数量或让模型“多思考”，并不能解决根本问题。关键在于，模型需要将其推理过程与实时视觉画面紧密耦合——当环境随着每一个动作而变化时，计划也必须同步更新。如果推理与感知之间缺乏紧密联动，额外的思考反而可能成为一种负担。

失败的原因及具体表现

研究团队对Claude-Opus-4.6的失败案例进行了详细归类。最常见的失败原因是导航问题，占所有失败里程碑的约60%——AI无法找到目标，或无法抵达目标位置。这表明，在三维空间中进行定位与导航，目前仍是多模态模型的主要短板。第二大失败原因是资源采集失败，约占20%——AI已看到目标，但未能成功完成采集动作。行动执行失败与目标识别错误（即搞错了自己该做什么）各占约10%。陷入死循环或卡住的情况非常罕见，仅占不到1%。

这三类主要失败——导航、行动、目标识别——恰好分别对应感知、行动与推理三个能力维度，说明AI在这三个方向上均存在明显的提升空间，而非仅有一个短板。

在步骤效率方面也存在一个有趣的规律：那些能够成功完成任务的案例，大多在较早的阶段便已完成；而失败的案例，往往在30秒的完整时限内也毫无进展。这说明当前的AI模型在短期任务上还算有效，但在长时间的持续探索上基本不具备“越挫越勇”的能力——如果它在早期便迷失方向，通常难以在后来的步骤中找回正轨。

更强的模型在完成任务时所消耗的步骤数往往更多，这并非因为效率更低，而是因为它们能够完成那些需要更长操作序列的中等难度任务，而较弱的模型只能完成非常简短的任务。从这一角度看，步骤数多反而是一种能力更强的体现。

归根结底，MINEEXPLORER揭示了一个关键矛盾：当前的AI模型在面对单一、明确的指令时表现尚可，但一旦任务要求其主动发现问题、自行制定计划、并在环境变化中随机应变，其表现便会大幅下滑。现实世界中的大多数任务更接近于后者——你的老板不会每隔0.1秒告诉你下一步该做什么。从这个意义上说，MINEEXPLORER所测出的差距，不仅是游戏中的差距，更是AI走向真正实用化的那一段距离。

研究团队希望MINEEXPLORER不仅是一个测试平台，更能成为未来训练AI的环境，帮助研究者找到让AI真正学会“长程探索”的方法。如果您对这项研究感兴趣，可通过arXiv编号2605.30931查找完整论文，代码和数据集也已在GitHub开源。

Q&A

Q1：MINEEXPLORER是一个什么样的测试平台，它与普通AI测试有何区别？

MINEEXPLORER是一个基于《我的世界》游戏构建的AI能力评估平台，专门用于测试多模态大模型在动态开放世界中的探索能力。与普通AI测试不同，它不考察静态问答或短期单步任务，而是要求AI在不断变化的游戏环境中，自行推断隐藏的前置条件，按顺序完成多步骤任务，最终达成目标。整个过程更接近真实世界中的问题解决逻辑，而非机械记忆。

Q2：MINEEXPLORER中的多跳任务具体指什么？为什么AI在此类任务上会如此失败？

多跳任务指任务指令仅告知AI最终目标，但在完成目标前，AI需先完成一个或多个隐藏的前置步骤。例如，指令为“打败蜘蛛”，但AI必须自行发现前方有河流挡路，需要先制作武器。失败的主要原因在于，AI通常能够“看到”眼前情况，却难以推理出隐藏的前置逻辑；并且，随着环境变化，AI的计划无法及时更新，导致大量行动无效。

Q3：MINEEXPLORER的测试结果表明，当前顶尖AI到底有多强，又差在哪里？

当前表现最佳的模型Claude-Opus-4.6整体任务成功率约为41%，在单步骤的简单任务中能完成约78%，但在需推断多个隐藏步骤的复杂任务中，成功率不足24%。主要差距体现在三个方面：在三维空间中找到目标、识别当前真正该做什么，以及成功执行具体操作。增加模型参数量或启用“思考模式”并不能稳定改善这些问题。

来源：互联网

上一篇 AI空间理解新标杆：SOCO基准测试深度解析 下一篇 理想汽车Livis Day发布会软件与AI 6月15日

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。