其他资讯机器人西北大学等五校

西北大学等五校：AI游戏机器人实现人类技能记忆

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

想象一下，一位新手玩家每次闯关都要翻攻略、查笔记，光找记录就耗去大半反应时间，笔

想象一下，一位新手玩家每次闯关都要翻攻略、查笔记，光找记录就耗去大半反应时间，笔记本越堆越厚，翻阅越来越慢。但随着练习，常用操作“刻进肌肉记忆”，手速快过大脑，笔记靠边站。这篇论文的核心，正是让AI实现第二种状态。

来自西北大学、东北大学、华南理工大学、香港浸会大学及北京师范大学-香港浸会大学联合国际学院的研究团队，于2025年5月以预印本形式发布了成果。他们在沙盒游戏《我的世界》（Minecraft）中，训练AI完成收集材料、击杀怪物、制作工具等一系列复杂任务。

西北大学等五校联合研究：让AI游戏智能体像人类一样‘记住’技能，告别‘翻笔记本’式记忆

当前主流AI系统依赖“检索-注入”模式：每次决策前，需从过往经验记录中检索信息，再塞入工作记忆进行处理。这种方式不仅速度慢、资源消耗高，且随经验积累，代价持续攀升。为突破这一瓶颈，研究团队提出PEAM（参数化具身智能体记忆，Parametric Embodied Agent Memory）框架。核心思路是：让AI通过反复实践，将有价值的技能真正“写入”神经网络参数，形成类似肌肉记忆的自动化能力，而非永久依赖外部存储器进行检索。

一、“翻笔记本”模式为何难以为继

要理解这项研究的价值，先得看清现有AI记忆方式的根本缺陷。

目前，主流AI游戏智能体的记忆机制类似于一个外部“技能库”或“经验日志”。系统需先搜索相关记录，再注入当前“工作记忆”（即提示词），AI据此决策。这种被称作“检索增强生成”（RAG）的技术虽应用广泛，但弊病明显：每次决策都需经历完整的搜索-读取-注入流程。技能库越大，搜索越耗时；注入内容越多，计算量越大；任务结束后，下次执行仍需重复同样流程。技能始终是“可查阅的外部文件”，而非AI真正掌握的能力。研究团队量化了这一代价：使用VOYAGER（一个知名的《我的世界》AI系统）这类检索方案，每完成一个任务平均消耗约31,200个token（AI处理信息的计量单位），每次调用延迟约5.5秒。

更深层的问题是，当AI完成数十次“制作石镐”任务后，若技能仍仅存于外部库，它本质上并未“学会”——只是拥有了更多参考文献。这好比一位厨师手边总放着食谱，炒了上百次同一道菜，却始终依赖查阅，从未真正熟练。

认知神经科学早已揭示类似机制。人类大脑拥有两套互补记忆系统：海马体快速记录新事件（类似记笔记），大脑皮层则通过“记忆巩固”过程，将反复出现的规律逐步整合为长期知识与技能（将笔记内化为本能）。尤其是在睡眠中，海马体重放白天的经历，将有价值的内容稳定“写入”皮层。研究团队将此机制引入AI设计，并将这种从“外部笔记”到“内化技能”的转变，称为“参数化巩固”。

二、PEAM架构解析：快慢思维协同作业

PEAM的整体设计融合了两种不同速度的思维模式，实现智能协同。

慢思考模块由大型语言模型（实验中使用Azure GPT-4o）承担，负责需要深度推理的任务：分析现状、制定计划、生成可执行代码、验证结果，并在失败后反思修正。该模块速度较慢，但处理能力强，适合应对复杂、陌生的新情况。

快手艺模块是一个名为“多模态混合专家LoRA”（MoE-LoRA）的组件，基于Qwen3-VL-8B-Instruct多模态语言模型构建。它负责执行已被内化的技能，反应迅速，无需每次重新推理。如同一位老厨师，面对熟悉的菜肴，手比脑快，无需查阅食谱。

两个模块之间通过“巩固流水线”连接，负责将慢思考模块积累的经验，按特定规则筛选、定时写入快手艺模块的神经网络参数。系统还维护着一个“情节记忆库”，存储成功任务的轨迹记录，以及关键的“失败-修正”轨迹对——即记录操作为何失败，以及后续如何修正并成功。

实际运行时，系统优先调用快手艺模块处理任务。若存在对应技能，模块直接生成可执行代码并运行，验证通过即完成任务。若快手艺模块无合适技能或执行失败，系统则切换至慢思考模块处理，并将处理结果记录为未来巩固的候选素材。

三、失败：最宝贵的训练信号

这项研究中一个极具创意的设计理念是：将失败视为最重要的训练信号，而非需要遗忘的负面记录。

多数AI训练的逻辑是收集成功案例，让AI模仿成功行为。失败案例最多被转化为文字提示，告知AI“下次别这样”。PEAM则另辟蹊径：专门收集“失败-修正”轨迹对，即同一情境下先失败、后成功的两段操作记录，并将它们直接用于训练神经网络参数。

训练采用名为“行为克隆加直接偏好优化”（BC+DPO）的联合目标。行为克隆部分（BC）负责让AI模仿成功轨迹的具体操作，确保生成代码格式正确、可被解析执行。直接偏好优化部分（DPO）则让AI“感知”到修正后的操作优于失败操作，将这种偏好关系写入参数。两者缺一不可。

研究团队在实验中发现了一个关键细节：若仅使用DPO、去掉BC，训练出的适配器在“打分测试”中表现尚可（打分差值高达+6.51），似乎学会了偏好。但在实际生成可执行代码时，12次测试中0次成功生成格式正确的代码。原因在于DPO仅让AI分辨“A比B好”，却未提供“好代码长什么样”的具体示范。这好比只告诉学生“这篇作文比那篇好”，却从未展示好作文的具体格式，学生无从下笔。加入BC后，联合训练的打分差值提升至+37.92，12次测试全部成功生成格式正确的代码。

这一发现还带来实践启示：仅凭前向计算的偏好分数，不足以判断AI能否在真实部署中正常工作。对于DPO训练的AI，同时测试生成路径的实际可用性，是更可靠的评估方法。

四、价值筛选：哪些经验值得“刻进骨子里”

并非所有经验都值得内化为参数。若将每次尝试都写入模型，不仅浪费参数空间，还可能因不稳定操作覆盖已掌握的技能。PEAM为此设计了“参数化价值评分”（PV）筛选机制。

该评分从四个维度综合考量技能候选的内化价值。第一维度是“检索成本节省”，衡量内化该技能后，未来可节省多少“翻笔记”的功夫——技能越复杂、使用频率越高，内化价值越大。第二维度是“稳定性”，评估技能在不同情境下的成功率是否稳定——依赖运气的操作，内化后只会导致表现波动。第三维度是“冗余度”，检查该技能是否与已内化技能高度重复——若是，则无需浪费空间存储相似版本。第四维度是“干扰风险”，评估内化该技能是否会影响其他已有技能——系统会检查该技能与已有技能是否属于同一类别，若是，更新时会被路由至同一专用适配器，风险可控。

四个维度通过加权求和得出最终分数，权重分别为0.4、0.3、0.2、0.1，经网格搜索确定。对比之前一些智能体系统采用的简单启发式规则（如“成功率大于80%且被检索超过15次才考虑内化”），实验表明，完整PV评分与简单规则对候选技能的排名相关性为-0.375，两者判断结果差异显著。PV评分会筛选出那些同时具备高频使用价值、稳定性高但尚未被充分利用的技能，而简单规则则可能遗漏一些价值较高但代码较长的复杂技能。采用完整PV评分后，任务成功率高出8.7个百分点。

五、时机选择：何时将技能“存档”

筛选出值得内化的技能后，下一个问题是：何时执行内化操作？

最朴素的做法是设定固定时间表，如每隔50场游戏巩固一次。但这存在明显缺陷：当AI表现良好时，定时巩固浪费计算资源；当某个技能失败率突然升高时，若等到下一个固定时间点才处理，为时已晚。

PEAM采用“自触发巩固”（STC）机制，让AI自行监测状态触发巩固。具体方式为：系统持续追踪每个技能在最近一段窗口内的失败率，并与该技能的历史基线失败率进行统计检验对比。当近期失败率相对于历史基线出现统计显著上升（使用Z统计量判断，显著性水平0.05），同时该技能的PV评分处于当前候选集的前50%，则触发巩固。

该机制的关键特性是“无标度”的：触发标准不依赖于任何绝对的失败次数或失败率数值，而是相对于该技能自身的历史表现判断。这意味着，同一套触发参数（窗口大小10，基线窗口10，显著性0.05，前50%分位）在“制作类任务为主”和“战斗类任务为主”的场景中，均能产生合理的触发结果，无需针对不同任务类型重新调参。

实验通过将已有轨迹数据按类别重新切分，模拟两种不同分布，验证了这一特性。在两种分布下，STC触发的时间点高度一致（Jaccard相似度0.538），被评选为高价值的候选技能有61%重叠。相比之下，采用固定失败率阈值作为触发条件的对照组，在两种分布下触发结果差异巨大，必须分别调参才能达到可接受效果。此外，与固定时间表相比，STC可使系统少跑37%的巩固周期即达到同等性能，触发的平均延迟也从23个任务周期缩短至7个。

六、架构隔离：学新技能不“覆盖”旧技能

机器学习领域存在一个顽固问题——“灾难性遗忘”：神经网络在学习新任务时，会覆盖旧任务的知识。这好比花大量时间练习篮球，却忘了如何打羽毛球。PEAM通过架构设计从根本上规避了此问题。

每个技能类别（制作、采集、战斗）均有独立的LoRA适配器，参数完全分离、互不干扰。LoRA是一种参数高效的神经网络微调技术，可用较少的参数对大模型进行定制化调整，无需重新训练整个模型。在PEAM中，每个类别的适配器约有8300万个参数，独立存储。巩固制作技能仅更新制作适配器，战斗适配器的参数完全不受影响。

实验对此进行了直接验证：按顺序先巩固制作技能、再巩固采集技能、再巩固战斗技能，完成全部巩固后，测试最早学习的制作技能，PEAM的留存率为100%，无任何遗忘。作为对照，将所有技能共用一个LoRA适配器的方案（Single shared LoRA）遗忘了32.4%；使用弹性权重固化（EWC，一种通过正则化对抗遗忘的方法）的方案遗忘了43.3%；而直接对整个模型进行全参数微调（Naive full-FT）的方案，遗忘程度高达78.5%。

这一结果背后的逻辑清晰：当参数本就分离时，学习新技能在物理上就不可能覆盖旧技能。遗忘抵抗并非靠额外的算法保护机制实现，而是从架构设计层面直接消除了遗忘发生的可能性。

七、实验结果：一份详尽的成绩单

研究团队在《我的世界》1.19版本中设计了11个长链条任务，覆盖制作、采集、战斗三个类别。制作类包括：制作制作台、制作木镐、制作石镐、制作熔炉、制作铁镐。采集类包括：收集4根橡木原木、开采8块圆石、开采2块铁矿石（含冶炼步骤）、收集4块煤炭。战斗类包括：夜间击败僵尸、用弓击败骷髅。每个任务使用3个不同的随机种子各执行一次，共33次试验。

PEAM的整体任务成功率为69.7%（33次中成功23次），95%置信区间在53.0%到83.4%之间。作为主要对照基准的VOYAGER，成功率为54.5%（18/33），两者差距为+15.2个百分点，配对统计检验的p值为0.018，差异在统计上显著。

效率方面的提升更为显著。PEAM每次调用的中位延迟为3.2秒，而VOYAGER为5.5秒，降低了约42%。每个任务消耗的token数，PEAM约为4600，VOYAGER约为31,200，降低了约85%。这85%的token减少，源于参数化路径不再需要每次将技能库内容塞入提示词。

研究还对比了其他几类方案。没有任何记忆机制、完全依赖实时推理的ReAct方案，成功率仅6.1%，说明记忆对复杂任务至关重要。仅记录反思文本的Reflexion方案，成功率为27.3%。使用空间-时间记忆的MrSteve方案，成功率为33.3%。直接全参数微调的方案为42.4%。共享LoRA方案为48.5%。使用正则化抗遗忘的EWC方案为51.5%。使用多模态检索的Optimus-1复现版本为60.6%，PEAM比其高出9.1个百分点，说明将经验内化到参数中，能带来超越单纯丰富检索内容的收益。

从单任务粒度看，PEAM在11个任务中有10个与VOYAGER持平或更优，明显改善集中在需要多步制作的复杂任务（石镐、熔炉、铁镐）和需要定位与采集配合的资源类任务（铁矿石+冶炼、煤炭）。两种方案在“弓击骷髅”任务上均全部失败，因该任务需要精准的远程战斗时机控制，超出了当前JavaScript机器人接口的动作精度。

八、研发过程中的意外发现与实用规律

研究团队还记录了开发过程中遇到的几个问题，对其他类似研究团队具有参考价值。

关于在消费级硬件上部署此类系统：团队尝试在一张12GB显存的RTX 4070显卡上运行4-bit量化版本的模型及适配器，结果遇到三个严重问题。第一，每一步的生成延迟高达约2000秒，比在A100服务器上慢了几百倍，原因是显存不足导致大量重复计算。第二，在合并适配器参数时，一个常用函数会悄悄地将幅度很小的参数更新清零——而BC训练出的参数更新整体幅度较小，4-bit量化路径下约有37%的更新被清零，而16精度路径下为0%。第三，游戏AI生成的代码通常较长（制作类任务常超过1500个token），但在消费级硬件上为控制速度不得不限制生成长度，截断后的代码被解析器拒绝，拒绝率约84%。这三个问题意味着，在消费级设备上部署此类系统目前几乎不可行，需要A100级别的服务器。

关于失败-修正对的收集效率：在四个技能类别中，导航类任务完全无法生成可用的训练对。原因在于，导航任务失败通常非代码错误，而是目标地形或资源不在AI探索范围内——这属于环境限制而非操作失误，因此没有“修正后成功”的轨迹。制作和采集类任务的成功配对率约50%，战斗类约25%。这表明，基于失败-修正对的参数化学习方式，最适合那些失败原因在于操作层面、可通过修改代码来修正的任务。

归根结底：记忆应是“烂熟于心”，而非“翻箱倒柜”

这项研究的核心，是在AI系统中建立一条此前缺失的通路：让积累的经验真正转化为AI自身的能力，而非永远堆砌在身边的参考材料。

这条通路设有三道关卡：价值评分决定哪些经验值得内化，自触发机制决定内化时机，独立适配器的架构决定内化方式而不损害已有技能。三个机制各司其职，组合起来使AI能够在不断接触新任务的过程中，真正变得更熟练，而非仅仅积累更多的参考文件。

当然，目前这套系统仅在《我的世界》中测试，仅覆盖三个技能类别，实验规模也有限（11个任务，3个种子）。能否迁移至机器人控制、网页操作等其他领域，还需进一步验证。但它提出的核心问题——AI的记忆应如何真正转化为能力——对整个领域都具有重要意义，而这项研究提供了一种具体可行的思路。

对该方向感兴趣的读者，可查阅arXiv:2605.27762获取完整论文，其中包含完整的算法伪代码、超参数设置、任务清单及部署细节，便于自行复现和深入研究。

Q&A

Q1：PEAM与VOYAGER这类AI游戏智能体的主要区别是什么？

A：VOYAGER等传统智能体将学到的技能存储在外部技能库中，每次使用时需检索并注入提示词，相当于每次都要“翻笔记本”。PEAM则通过训练将常用技能直接写入神经网络参数，相当于练成“肌肉记忆”，执行时无需再查笔记，因此速度快得多，token消耗也减少约85%。

Q2：PEAM的“失败-修正”训练方式具体如何工作？

A：系统收集同一任务中“先失败后成功”的两段操作记录组成训练对，联合使用行为克隆（让AI模仿成功操作的格式）和直接偏好优化（让AI感知成功操作优于失败操作）进行训练。实验证明，单独使用偏好优化时测试分数看似不错，但实际生成可用代码的成功率为0%；加入行为克隆后，代码可用率达12/12。

Q3：PEAM为何能避免“学了新技能就忘掉旧技能”的问题？

A：PEAM为每个技能类别（制作、采集、战斗）分配独立的LoRA适配器，参数完全分开存储。更新制作技能时仅修改制作适配器参数，战斗适配器完全不受影响。这种物理隔离从根本上消除了遗忘的可能性。实验中，按顺序学完三类技能后，最早学习的制作技能留存率达100%，而共享参数方案则遗忘了32%以上。

来源：互联网

上一篇 出门问问CodeBanana：企业AI协作平台深度评测 下一篇 杰克科技股价下跌1.81% 近3日主力净流出1.32亿

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。