西北大学等五校:AI游戏机器人实现人类技能记忆
摘要
想象一下,一位新手玩家每次闯关都要翻攻略、查笔记,光找记录就耗去大半反应时间,笔
想象一下,一位新手玩家每次闯关都要翻攻略、查笔记,光找记录就耗去大半反应时间,笔记本越堆越厚,翻阅越来越慢。但随着练习,常用操作“刻进肌肉记忆”,手速快过大脑,笔记靠边站。这篇论文的核心,正是让AI实现第二种状态。
来自西北大学、东北大学、华南理工大学、香港浸会大学及北京师范大学-香港浸会大学联合国际学院的研究团队,于2025年5月以预印本形式发布了成果。他们在沙盒游戏《我的世界》(Minecraft)中,训练AI完成收集材料、击杀怪物、制作工具等一系列复杂任务。

当前主流AI系统依赖“检索-注入”模式:每次决策前,需从过往经验记录中检索信息,再塞入工作记忆进行处理。这种方式不仅速度慢、资源消耗高,且随经验积累,代价持续攀升。为突破这一瓶颈,研究团队提出PEAM(参数化具身智能体记忆,Parametric Embodied Agent Memory)框架。核心思路是:让AI通过反复实践,将有价值的技能真正“写入”神经网络参数,形成类似肌肉记忆的自动化能力,而非永久依赖外部存储器进行检索。
一、“翻笔记本”模式为何难以为继
要理解这项研究的价值,先得看清现有AI记忆方式的根本缺陷。
目前,主流AI游戏智能体的记忆机制类似于一个外部“技能库”或“经验日志”。系统需先搜索相关记录,再注入当前“工作记忆”(即提示词),AI据此决策。这种被称作“检索增强生成”(RAG)的技术虽应用广泛,但弊病明显:每次决策都需经历完整的搜索-读取-注入流程。技能库越大,搜索越耗时;注入内容越多,计算量越大;任务结束后,下次执行仍需重复同样流程。技能始终是“可查阅的外部文件”,而非AI真正掌握的能力。研究团队量化了这一代价:使用VOYAGER(一个知名的《我的世界》AI系统)这类检索方案,每完成一个任务平均消耗约31,200个token(AI处理信息的计量单位),每次调用延迟约5.5秒。
更深层的问题是,当AI完成数十次“制作石镐”任务后,若技能仍仅存于外部库,它本质上并未“学会”——只是拥有了更多参考文献。这好比一位厨师手边总放着食谱,炒了上百次同一道菜,却始终依赖查阅,从未真正熟练。
认知神经科学早已揭示类似机制。人类大脑拥有两套互补记忆系统:海马体快速记录新事件(类似记笔记),大脑皮层则通过“记忆巩固”过程,将反复出现的规律逐步整合为长期知识与技能(将笔记内化为本能)。尤其是在睡眠中,海马体重放白天的经历,将有价值的内容稳定“写入”皮层。研究团队将此机制引入AI设计,并将这种从“外部笔记”到“内化技能”的转变,称为“参数化巩固”。
二、PEAM架构解析:快慢思维协同作业
PEAM的整体设计融合了两种不同速度的思维模式,实现智能协同。
慢思考模块由大型语言模型(实验中使用Azure GPT-4o)承担,负责需要深度推理的任务:分析现状、制定计划、生成可执行代码、验证结果,并在失败后反思修正。该模块速度较慢,但处理能力强,适合应对复杂、陌生的新情况。
快手艺模块是一个名为“多模态混合专家LoRA”(MoE-LoRA)的组件,基于Qwen3-VL-8B-Instruct多模态语言模型构建。它负责执行已被内化的技能,反应迅速,无需每次重新推理。如同一位老厨师,面对熟悉的菜肴,手比脑快,无需查阅食谱。
两个模块之间通过“巩固流水线”连接,负责将慢思考模块积累的经验,按特定规则筛选、定时写入快手艺模块的神经网络参数。系统还维护着一个“情节记忆库”,存储成功任务的轨迹记录,以及关键的“失败-修正”轨迹对——即记录操作为何失败,以及后续如何修正并成功。
实际运行时,系统优先调用快手艺模块处理任务。若存在对应技能,模块直接生成可执行代码并运行,验证通过即完成任务。若快手艺模块无合适技能或执行失败,系统则切换至慢思考模块处理,并将处理结果记录为未来巩固的候选素材。
三、失败:最宝贵的训练信号
这项研究中一个极具创意的设计理念是:将失败视为最重要的训练信号,而非需要遗忘的负面记录。
多数AI训练的逻辑是收集成功案例,让AI模仿成功行为。失败案例最多被转化为文字提示,告知AI“下次别这样”。PEAM则另辟蹊径:专门收集“失败-修正”轨迹对,即同一情境下先失败、后成功的两段操作记录,并将它们直接用于训练神经网络参数。
训练采用名为“行为克隆加直接偏好优化”(BC+DPO)的联合目标。行为克隆部分(BC)负责让AI模仿成功轨迹的具体操作,确保生成代码格式正确、可被解析执行。直接偏好优化部分(DPO)则让AI“感知”到修正后的操作优于失败操作,将这种偏好关系写入参数。两者缺一不可。
研究团队在实验中发现了一个关键细节:若仅使用DPO、去掉BC,训练出的适配器在“打分测试”中表现尚可(打分差值高达+6.51),似乎学会了偏好。但在实际生成可执行代码时,12次测试中0次成功生成格式正确的代码。原因在于DPO仅让AI分辨“A比B好”,却未提供“好代码长什么样”的具体示范。这好比只告诉学生“这篇作文比那篇好”,却从未展示好作文的具体格式,学生无从下笔。加入BC后,联合训练的打分差值提升至+37.92,12次测试全部成功生成格式正确的代码。
这一发现还带来实践启示:仅凭前向计算的偏好分数,不足以判断AI能否在真实部署中正常工作。对于DPO训练的AI,同时测试生成路径的实际可用性,是更可靠的评估方法。
四、价值筛选:哪些经验值得“刻进骨子里”
并非所有经验都值得内化为参数。若将每次尝试都写入模型,不仅浪费参数空间,还可能因不稳定操作覆盖已掌握的技能。PEAM为此设计了“参数化价值评分”(PV)筛选机制。
该评分从四个维度综合考量技能候选的内化价值。第一维度是“检索成本节省”,衡量内化该技能后,未来可节省多少“翻笔记”的功夫——技能越复杂、使用频率越高,内化价值越大。第二维度是“稳定性”,评估技能在不同情境下的成功率是否稳定——依赖运气的操作,内化后只会导致表现波动。第三维度是“冗余度”,检查该技能是否与已内化技能高度重复——若是,则无需浪费空间存储相似版本。第四维度是“干扰风险”,评估内化该技能是否会影响其他已有技能——系统会检查该技能与已有技能是否属于同一类别,若是,更新时会被路由至同一专用适配器,风险可控。
四个维度通过加权求和得出最终分数,权重分别为0.4、0.3、0.2、0.1,经网格搜索确定。对比之前一些智能体系统采用的简单启发式规则(如“成功率大于80%且被检索超过15次才考虑内化”),实验表明,完整PV评分与简单规则对候选技能的排名相关性为-0.375,两者判断结果差异显著。PV评分会筛选出那些同时具备高频使用价值、稳定性高但尚未被充分利用的技能,而简单规则则可能遗漏一些价值较高但代码较长的复杂技能。采用完整PV评分后,任务成功率高出8.7个百分点。
五、时机选择:何时将技能“存档”
筛选出值得内化的技能后,下一个问题是:何时执行内化操作?
最朴素的做法是设定固定时间表,如每隔50场游戏巩固一次。但这存在明显缺陷:当AI表现良好时,定时巩固浪费计算资源;当某个技能失败率突然升高时,若等到下一个固定时间点才处理,为时已晚。
PEAM采用“自触发巩固”(STC)机制,让AI自行监测状态触发巩固。具体方式为:系统持续追踪每个技能在最近一段窗口内的失败率,并与该技能的历史基线失败率进行统计检验对比。当近期失败率相对于历史基线出现统计显著上升(使用Z统计量判断,显著性水平0.05),同时该技能的PV评分处于当前候选集的前50%,则触发巩固。
该机制的关键特性是“无标度”的:触发标准不依赖于任何绝对的失败次数或失败率数值,而是相对于该技能自身的历史表现判断。这意味着,同一套触发参数(窗口大小10,基线窗口10,显著性0.05,前50%分位)在“制作类任务为主”和“战斗类任务为主”的场景中,均能产生合理的触发结果,无需针对不同任务类型重新调参。
实验通过将已有轨迹数据按类别重新切分,模拟两种不同分布,验证了这一特性。在两种分布下,STC触发的时间点高度一致(Jaccard相似度0.538),被评选为高价值的候选技能有61%重叠。相比之下,采用固定失败率阈值作为触发条件的对照组,在两种分布下触发结果差异巨大,必须分别调参才能达到可接受效果。此外,与固定时间表相比,STC可使系统少跑37%的巩固周期即达到同等性能,触发的平均延迟也从23个任务周期缩短至7个。
六、架构隔离:学新技能不“覆盖”旧技能
机器学习领域存在一个顽固问题——“灾难性遗忘”:神经网络在学习新任务时,会覆盖旧任务的知识。这好比花大量时间练习篮球,却忘了如何打羽毛球。PEAM通过架构设计从根本上规避了此问题。
每个技能类别(制作、采集、战斗)均有独立的LoRA适配器,参数完全分离、互不干扰。LoRA是一种参数高效的神经网络微调技术,可用较少的参数对大模型进行定制化调整,无需重新训练整个模型。在PEAM中,每个类别的适配器约有8300万个参数,独立存储。巩固制作技能仅更新制作适配器,战斗适配器的参数完全不受影响。
实验对此进行了直接验证:按顺序先巩固制作技能、再巩固采集技能、再巩固战斗技能,完成全部巩固后,测试最早学习的制作技能,PEAM的留存率为100%,无任何遗忘。作为对照,将所有技能共用一个LoRA适配器的方案(Single shared LoRA)遗忘了32.4%;使用弹性权重固化(EWC,一种通过正则化对抗遗忘的方法)的方案遗忘了43.3%;而直接对整个模型进行全参数微调(Naive full-FT)的方案,遗忘程度高达78.5%。
这一结果背后的逻辑清晰:当参数本就分离时,学习新技能在物理上就不可能覆盖旧技能。遗忘抵抗并非靠额外的算法保护机制实现,而是从架构设计层面直接消除了遗忘发生的可能性。
七、实验结果:一份详尽的成绩单
研究团队在《我的世界》1.19版本中设计了11个长链条任务,覆盖制作、采集、战斗三个类别。制作类包括:制作制作台、制作木镐、制作石镐、制作熔炉、制作铁镐。采集类包括:收集4根橡木原木、开采8块圆石、开采2块铁矿石(含冶炼步骤)、收集4块煤炭。战斗类包括:夜间击败僵尸、用弓击败骷髅。每个任务使用3个不同的随机种子各执行一次,共33次试验。
PEAM的整体任务成功率为69.7%(33次中成功23次),95%置信区间在53.0%到83.4%之间。作为主要对照基准的VOYAGER,成功率为54.5%(18/33),两者差距为+15.2个百分点,配对统计检验的p值为0.018,差异在统计上显著。
效率方面的提升更为显著。PEAM每次调用的中位延迟为3.2秒,而VOYAGER为5.5秒,降低了约42%。每个任务消耗的token数,PEAM约为4600,VOYAGER约为31,200,降低了约85%。这85%的token减少,源于参数化路径不再需要每次将技能库内容塞入提示词。
研究还对比了其他几类方案。没有任何记忆机制、完全依赖实时推理的ReAct方案,成功率仅6.1%,说明记忆对复杂任务至关重要。仅记录反思文本的Reflexion方案,成功率为27.3%。使用空间-时间记忆的MrSteve方案,成功率为33.3%。直接全参数微调的方案为42.4%。共享LoRA方案为48.5%。使用正则化抗遗忘的EWC方案为51.5%。使用多模态检索的Optimus-1复现版本为60.6%,PEAM比其高出9.1个百分点,说明将经验内化到参数中,能带来超越单纯丰富检索内容的收益。
从单任务粒度看,PEAM在11个任务中有10个与VOYAGER持平或更优,明显改善集中在需要多步制作的复杂任务(石镐、熔炉、铁镐)和需要定位与采集配合的资源类任务(铁矿石+冶炼、煤炭)。两种方案在“弓击骷髅”任务上均全部失败,因该任务需要精准的远程战斗时机控制,超出了当前JavaScript机器人接口的动作精度。
八、研发过程中的意外发现与实用规律
研究团队还记录了开发过程中遇到的几个问题,对其他类似研究团队具有参考价值。
关于在消费级硬件上部署此类系统:团队尝试在一张12GB显存的RTX 4070显卡上运行4-bit量化版本的模型及适配器,结果遇到三个严重问题。第一,每一步的生成延迟高达约2000秒,比在A100服务器上慢了几百倍,原因是显存不足导致大量重复计算。第二,在合并适配器参数时,一个常用函数会悄悄地将幅度很小的参数更新清零——而BC训练出的参数更新整体幅度较小,4-bit量化路径下约有37%的更新被清零,而16精度路径下为0%。第三,游戏AI生成的代码通常较长(制作类任务常超过1500个token),但在消费级硬件上为控制速度不得不限制生成长度,截断后的代码被解析器拒绝,拒绝率约84%。这三个问题意味着,在消费级设备上部署此类系统目前几乎不可行,需要A100级别的服务器。
关于失败-修正对的收集效率:在四个技能类别中,导航类任务完全无法生成可用的训练对。原因在于,导航任务失败通常非代码错误,而是目标地形或资源不在AI探索范围内——这属于环境限制而非操作失误,因此没有“修正后成功”的轨迹。制作和采集类任务的成功配对率约50%,战斗类约25%。这表明,基于失败-修正对的参数化学习方式,最适合那些失败原因在于操作层面、可通过修改代码来修正的任务。
归根结底:记忆应是“烂熟于心”,而非“翻箱倒柜”
这项研究的核心,是在AI系统中建立一条此前缺失的通路:让积累的经验真正转化为AI自身的能力,而非永远堆砌在身边的参考材料。
这条通路设有三道关卡:价值评分决定哪些经验值得内化,自触发机制决定内化时机,独立适配器的架构决定内化方式而不损害已有技能。三个机制各司其职,组合起来使AI能够在不断接触新任务的过程中,真正变得更熟练,而非仅仅积累更多的参考文件。
当然,目前这套系统仅在《我的世界》中测试,仅覆盖三个技能类别,实验规模也有限(11个任务,3个种子)。能否迁移至机器人控制、网页操作等其他领域,还需进一步验证。但它提出的核心问题——AI的记忆应如何真正转化为能力——对整个领域都具有重要意义,而这项研究提供了一种具体可行的思路。
对该方向感兴趣的读者,可查阅arXiv:2605.27762获取完整论文,其中包含完整的算法伪代码、超参数设置、任务清单及部署细节,便于自行复现和深入研究。
Q&A
Q1:PEAM与VOYAGER这类AI游戏智能体的主要区别是什么?
A:VOYAGER等传统智能体将学到的技能存储在外部技能库中,每次使用时需检索并注入提示词,相当于每次都要“翻笔记本”。PEAM则通过训练将常用技能直接写入神经网络参数,相当于练成“肌肉记忆”,执行时无需再查笔记,因此速度快得多,token消耗也减少约85%。
Q2:PEAM的“失败-修正”训练方式具体如何工作?
A:系统收集同一任务中“先失败后成功”的两段操作记录组成训练对,联合使用行为克隆(让AI模仿成功操作的格式)和直接偏好优化(让AI感知成功操作优于失败操作)进行训练。实验证明,单独使用偏好优化时测试分数看似不错,但实际生成可用代码的成功率为0%;加入行为克隆后,代码可用率达12/12。
Q3:PEAM为何能避免“学了新技能就忘掉旧技能”的问题?
A:PEAM为每个技能类别(制作、采集、战斗)分配独立的LoRA适配器,参数完全分开存储。更新制作技能时仅修改制作适配器参数,战斗适配器完全不受影响。这种物理隔离从根本上消除了遗忘的可能性。实验中,按顺序学完三类技能后,最早学习的制作技能留存率达100%,而共享参数方案则遗忘了32%以上。