菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 我的世界AI考场:上交大美团联手评测大模型
其他资讯 大模型 我的世界 我的世界AI考场

我的世界AI考场:上交大美团联手评测大模型

2026-06-08
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

上海交大与美团联合构建MINEEXPLORER平台,基于《我的世界》筛选1497个常识任务并设计多跳

上海交通大学计算机科学学院与美团联合开展的这项研究,以预印本形式于2026年5月29日发布,编号arXiv:2605.30931。深入研究者可通过该编号在arXiv平台检索完整论文。

上交大与美团联手打造

当前主流的多模态大模型在文本生成、图像识别和问答基准上成绩斐然,但一个根本问题悬而未决:在真实的、动态变化的开放世界中,这些模型能否自主完成复杂任务?在标准化考试中答题,与在随机环境中独立生存,完全是两回事。

研究团队为此设计了一个巧妙方案:将沙盒游戏《我的世界》(Minecraft)改造为一个标准化考场,专门评估AI模型在开放世界中的探索能力。该考场正式命名为MINEEXPLORER。

选择《我的世界》的原因在于,其游戏世界包含草地、森林、河流、村庄、多种生物和怪物,玩家需要观察环境、制定策略并分步达成目标,这与真实世界的问题解决逻辑高度相似。但挑战在于,游戏中存在大量“老玩家专属”的隐性规则——特定合成配方、特殊游戏机制——这些与现实世界的常识完全脱节。研究团队强调,如果AI因“背过游戏攻略”而答对,考试便失去意义。真正考察的是AI能否运用通用推理能力和常识,在动态环境中灵活应变。

基于此核心理念,MINEEXPLORER从3382个游戏任务中,剔除所有“需掌握游戏内部规则”的任务,仅保留1497个仅凭现实世界常识即可完成的任务。随后,这些任务被组合成813个经人工验证的复合测试案例,难度从“单步直达”逐级升级至“完成四个隐藏前置步骤”。测试结果令人警醒:即便是当前最顶尖的AI模型,在该考场中的表现也远未达到优秀水平。

如何确保考场只考察通用智能,而非游戏记忆

构建考场的首要任务是解决一个根本矛盾:《我的世界》中大量规则仅为游戏所独有,与现实常识无对应关系。以合成物品为例,制作活塞需按特定排列组合木头、圆石、铁锭和红石,这套规则在现实生活中毫无对应,普通人即使从未玩过游戏,也无法凭常识推断。

研究团队将所有“仅限资深玩家”的任务剔除,保留那些可凭常识理解的任务。例如“猎杀一只羊”——找到羊、靠近、攻击,这一逻辑在现实世界中完全合理。又如“找到一条河流并游过去”——识别水域、下水、游至对岸,同样凭直觉即可完成。相反,“酿造一瓶治愈药水”被排除,因为其配方——地狱疣与闪光甜瓜放入酿造台——完全属于游戏独有设定。

为了进行筛选,研究团队编写了一份《我的世界》规则说明书,由AI担任裁判:针对每个候选任务,判断一位从未玩过该游戏的普通人能否仅凭现实世界常识完成。能,则保留;不能,则剔除。此过程类似于对试卷进行“公平性审核”,确保题目考察的是真实能力而非死记硬背。经过筛选,原有的3382个任务中,仅1497个通过审核。

为验证筛选过程本身的可靠性,研究团队抽取500个任务,由人工检验AI裁判的判断准确度。结果显示,整体吻合率达到86.8%,误判率均低于10%,表明筛选过程高度可信。

以“感知-推理-行动”框架为AI能力建立坐标

仅有一组任务仍不够,研究团队需要一套系统来分析完成每个任务所需的能力。他们借鉴了“ReAct”框架——该名称源自“推理”与“行动”的组合——将AI在游戏中所需的能力分为三大类:感知、推理和行动。

感知是指AI“观察”并理解世界的能力。具体包括:判断周围地形与目标位置的空间关系、感知任务进行中环境的变化、识别场景中的动物、怪物、村民等实体、监控自身状态(如血量是否过低)、以及检查背包中的物品。这五项感知能力构成了AI“感知世界”的基础。

推理是指AI“思考”并分析问题的能力。它需要依据现实世界常识做出判断——例如知道砍树可获得木头,而木头可用于制作工具;需要理解因果关系,即“先完成A,才能进行B”的逻辑;还需理解空间与对象之间的关系,例如判断哪个目标更近、物品位于哪个区域。

行动是指AI“执行”计划的能力。在游戏中,这包括基本移动(行走、游泳)、跳跃过障碍、采集物品(挖矿、砍树、拾物)、放置方块、合成物品,以及战斗。

为每个任务贴注这三类能力的标签后,研究团队能够清晰界定:每项任务究竟在评估AI的哪些能力,以及难度等级如何。

将简单任务编织成“隐藏关卡”——多跳任务设计

MINEEXPLORER最为精妙的设计在于将多个简单任务组合成一个“隐藏关卡”,正式名称为“隐式多跳任务”。

以考场中的一个案例为例:AI收到的指令是“去打败一只蜘蛛”。看似简单,但在这个精心构建的场景中,AI出生点前横亘着一条河流,而蜘蛛在对岸。因此,AI必须首先识别河流为障碍,然后自我决策“必须先过河”,接着发现附近有材料可合成武器,于是还需先制作一把剑,再游过河,最终才能攻击蜘蛛。

在整个流程中,“过河”和“造剑”这两个前置步骤并未在任务指令中提及。AI必须通过自身对环境进行观察,推断出这些隐藏的前置条件,并按正确顺序逐步完成。这相当于老板下达“给客户送报告”的指令,但并未告知报告尚未打印、打印机缺纸、钥匙在抽屉中——你需要自行发现并逐一解决这些障碍。

研究团队还为每个测试案例设计了“难度分数”。其核心逻辑是:需要预先完成的隐藏步骤越多、每一步骤涉及的能力种类越杂,任务难度就越高。一跳任务没有隐藏步骤,直接完成目标;两跳任务包含一个隐藏前置步骤;三跳任务包含两个;四跳任务包含三个。数字越大,AI需要在记忆中维持的“计划链条”就越长,出错概率也随之上升。

五名“专家”协作,方能编写一道优质考题

设计这些测试案例本身就是一个复杂的工程。研究团队发现,仅依赖单一AI模型出题,生成的题目往往漏洞频出:场景布局不合理、评分规则有误、任务逻辑前后矛盾。为此,他们设计了一个由五个专门角色组成的“出题委员会”,每个角色各司其职。

第一个角色是任务选择员,负责从候选任务池中挑选合适的任务组合,设计其依赖关系,并撰写仅说明最终目标、不透露隐藏步骤的任务指令。第二个角色是场景设计师,负责在游戏中搭建实际场景——放置方块、召唤生物、调整地形——并可“进入”亲自验证设计是否合理。

第三个角色是里程碑设计师,负责将每个子任务转化为可由程序自动判定的规则。例如,“已采集煤炭”可通过“背包中煤炭数量增加1”来判定,“已击败僵尸”可通过“僵尸从场景中消失”来判定。这些规则必须精确且可执行,设计师还可实际触发条件以验证规则有效性。第四个角色是《我的世界》专家,负责审查整个设计是否无意中依赖于游戏专属知识,必要时可查阅游戏维基百科以核实具体机制。第五个角色是验证员,负责从结构上检查任务的依赖图是否存在逻辑错误、评分规则是否存在漏洞。

这五个角色在一个“讨论组”中协同工作:先各自完成初稿,然后相互审查、提出意见、进行修改,直至所有人都认为题目无误。这一过程类似于学术论文的同行评审,只是“评审人”均为AI。

研究团队专门比较了“五人团队出题”与“单一AI独立出题”的效果。人工评审结果显示:五人团队的题目整体合格率约为78%,质量评分约4.53分(满分5分);而单个AI的题目合格率仅约为44%,质量评分约4.03分。在四跳任务这一最复杂的情境下,差距更为显著——单个AI的合格率仅约27%,而团队方式可达约66%。这表明,不同专长的角色进行分工协作,能显著提升出题质量。

考场的最终形态是怎样的?AI如何参加考试?

完成所有筛选与生成后,MINEEXPLORER最终包含813个经人工验证的测试案例,覆盖一跳至四跳任务,数量分别为292、301、211和235个。每个案例均包含明确的文字任务指令、精心搭建的游戏场景、一套隐藏的任务依赖图,以及一组可用于自动判分的里程碑规则。

参加考试的AI模型以第一人称视角进入游戏场景。每隔0.1秒,系统截取一张游戏画面发送给AI,AI根据画面进行推理,然后输出一个动作指令——如前进、转动视角、挥锤挖矿等。AI最多可记忆最近20帧的历史画面,整个测试时长不超过30秒(300个步骤)。每执行一步后,系统自动检查里程碑规则是否被触发。

评分采用两个主要指标:任务成功率衡量最终目标是否完成,里程碑成功率衡量在未完全成功的情况下,完成了多少个中间步骤。研究团队验证了该自动评分系统的可靠性:通过让人类观察者观看AI的游戏视频并打分,发现当所有里程碑均被自动检测为“完成”时,人类观察者的平均评分接近4分(满分4分);当所有里程碑均被检测为“失败”时,人类观察者的平均评分低于3分。自动判分系统与人类判断的整体吻合率同样达到86.8%。

顶尖AI在考场中的实际表现:差距令人震惊

研究团队邀请了18款当前最先进的多模态大模型参加此次考试,涵盖各大公司的旗舰产品。结果可以用一句话概括:在一跳任务中表现尚可,但一旦任务链条变长,几乎所有模型的表现都急剧下滑。

表现最佳的模型是Claude-Opus-4.6,其整体任务成功率约为41%。排名第二的是谷歌的Gemini-3.1-Pro-Preview,成功率约为37%。这两款模型在一跳任务中的成功率分别约为78%和74%,表现尚可;但到了多跳任务,Claude-Opus-4.6的成功率下降至约24%,Gemini的成功率则约为20%。

换个角度理解这组数据更为直观:在一跳任务中,近四分之三的任务可由顶尖模型完成;但在多跳任务中,超过四分之三的任务会失败。随着隐藏步骤的增加,AI的表现呈断崖式下滑,而非缓慢下降。大多数排名靠后的模型,整体成功率在10%至20%之间,部分模型在四跳任务中的成功率接近于零。

从能力维度分析,AI的感知得分普遍高于推理得分,行动得分则大致居中。这一规律在所有受测模型上基本一致。通俗来说,AI通常能够“看到”场景中有什么,但往往无法清晰地推理出“下一步该做什么”。这一差距在多跳任务中更为显著——当AI不仅需要看清现状,还需推断出哪些隐藏的前置条件未满足、以及应优先执行哪个步骤时,其推理能力明显难以胜任。

还有一个出乎意料的发现:模型规模越大、推理过程越复杂,并不一定意味着游戏表现更好。在Qwen系列中,参数量更大的235B版本,其表现并不总是优于32B版本。更令人困惑的是,专门加入了“思考模式”的版本,其整体表现反而有时逊于普通版本。具体而言,Qwen-3-VL-235B-A22B-Instruct的整体任务成功率约为10.6%,而它的“思考”版本Qwen-3-VL-235B-A22B-Thinking仅为约8.1%。

这表明,在开放世界探索这一场景下,单纯增加参数量或让模型“多思考”,并不能解决根本问题。关键在于,模型需要将其推理过程与实时视觉画面紧密耦合——当环境随着每一个动作而变化时,计划也必须同步更新。如果推理与感知之间缺乏紧密联动,额外的思考反而可能成为一种负担。

失败的原因及具体表现

研究团队对Claude-Opus-4.6的失败案例进行了详细归类。最常见的失败原因是导航问题,占所有失败里程碑的约60%——AI无法找到目标,或无法抵达目标位置。这表明,在三维空间中进行定位与导航,目前仍是多模态模型的主要短板。第二大失败原因是资源采集失败,约占20%——AI已看到目标,但未能成功完成采集动作。行动执行失败与目标识别错误(即搞错了自己该做什么)各占约10%。陷入死循环或卡住的情况非常罕见,仅占不到1%。

这三类主要失败——导航、行动、目标识别——恰好分别对应感知、行动与推理三个能力维度,说明AI在这三个方向上均存在明显的提升空间,而非仅有一个短板。

在步骤效率方面也存在一个有趣的规律:那些能够成功完成任务的案例,大多在较早的阶段便已完成;而失败的案例,往往在30秒的完整时限内也毫无进展。这说明当前的AI模型在短期任务上还算有效,但在长时间的持续探索上基本不具备“越挫越勇”的能力——如果它在早期便迷失方向,通常难以在后来的步骤中找回正轨。

更强的模型在完成任务时所消耗的步骤数往往更多,这并非因为效率更低,而是因为它们能够完成那些需要更长操作序列的中等难度任务,而较弱的模型只能完成非常简短的任务。从这一角度看,步骤数多反而是一种能力更强的体现。

归根结底,MINEEXPLORER揭示了一个关键矛盾:当前的AI模型在面对单一、明确的指令时表现尚可,但一旦任务要求其主动发现问题、自行制定计划、并在环境变化中随机应变,其表现便会大幅下滑。现实世界中的大多数任务更接近于后者——你的老板不会每隔0.1秒告诉你下一步该做什么。从这个意义上说,MINEEXPLORER所测出的差距,不仅是游戏中的差距,更是AI走向真正实用化的那一段距离。

研究团队希望MINEEXPLORER不仅是一个测试平台,更能成为未来训练AI的环境,帮助研究者找到让AI真正学会“长程探索”的方法。如果您对这项研究感兴趣,可通过arXiv编号2605.30931查找完整论文,代码和数据集也已在GitHub开源。

Q&A

Q1:MINEEXPLORER是一个什么样的测试平台,它与普通AI测试有何区别?

MINEEXPLORER是一个基于《我的世界》游戏构建的AI能力评估平台,专门用于测试多模态大模型在动态开放世界中的探索能力。与普通AI测试不同,它不考察静态问答或短期单步任务,而是要求AI在不断变化的游戏环境中,自行推断隐藏的前置条件,按顺序完成多步骤任务,最终达成目标。整个过程更接近真实世界中的问题解决逻辑,而非机械记忆。

Q2:MINEEXPLORER中的多跳任务具体指什么?为什么AI在此类任务上会如此失败?

多跳任务指任务指令仅告知AI最终目标,但在完成目标前,AI需先完成一个或多个隐藏的前置步骤。例如,指令为“打败蜘蛛”,但AI必须自行发现前方有河流挡路,需要先制作武器。失败的主要原因在于,AI通常能够“看到”眼前情况,却难以推理出隐藏的前置逻辑;并且,随着环境变化,AI的计划无法及时更新,导致大量行动无效。

Q3:MINEEXPLORER的测试结果表明,当前顶尖AI到底有多强,又差在哪里?

当前表现最佳的模型Claude-Opus-4.6整体任务成功率约为41%,在单步骤的简单任务中能完成约78%,但在需推断多个隐藏步骤的复杂任务中,成功率不足24%。主要差距体现在三个方面:在三维空间中找到目标、识别当前真正该做什么,以及成功执行具体操作。增加模型参数量或启用“思考模式”并不能稳定改善这些问题。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多