其他资讯 AI智能体

首尔大学突破AI内存瓶颈：多智能体共享记忆提速2.5倍全解析

2026-05-12

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

当前AI系统处理复杂任务时，往往依赖多智能体协同工作，如同一个专业团队。规划、执行

当前AI系统处理复杂任务时，往往依赖多智能体协同工作，如同一个专业团队。规划、执行、反思等角色各司其职，共同推进目标。然而，这种协作模式面临一个根本性的效率瓶颈：内存管理。每个智能体都独立维护一套完整的“记忆库”，导致海量重复信息被反复存储和处理，严重浪费了计算资源与存储空间。

首尔大学团队破解AI智能体内存瓶颈：让多个AI助手共享

传统多智能体系统的内存问题可以这样类比：几位专家协作解决同一课题，但每人手边都摆放着一套内容完全相同的厚重百科全书。每次需要查询信息，每个人都必须独立翻阅自己那本。这造成了双重浪费：物理书架（内存空间）被重复占用，查阅动作（计算过程）也被无谓消耗。

更关键的是，现有优化方案常存在局限。要么需要对系统架构进行颠覆性重构，成本高昂；要么适用范围狭窄，仅对特定任务有效；要么虽节省了存储，但核心的计算重复问题并未解决——好比团队虽然开始共用一本参考书节省了书架空间，但查阅行为本身并未减少。

LRAgent：一种巧妙的“记忆”共享方案

针对这一核心瓶颈，首尔大学电子与计算机工程系的研究团队在2026年2月提出了名为LRAgent的创新架构（论文编号：arXiv:2602.01053v1）。其设计理念直观而高效：将智能体的“记忆”解耦为通用部分与个性部分。

这类似于将一本百科全书拆分为两册：一册是全体成员共享的《通用知识手册》，另一册则是每位专家根据自身思维习惯整理的《个人精要笔记》。后者采用高效的压缩记录法，仅存储核心差异点，使用时快速还原，从而极大节约空间。

在技术实现层面，当首个智能体处理一段信息时，它会将通用的、基础的处理结果存入一个所有智能体均可访问的“共享基础缓存”。同时，它将自己独特的处理方式，以一种高度压缩的“低秩”形式，记录在专属缓存中。当后续智能体需要处理相同信息时，可直接调用共享的基础缓存，再结合自身那份压缩的个性化记录，快速合成最终结果，完全跳过了基础部分的重复计算流程。

这一设计的有效性基于一个关键洞察：不同智能体在处理相同信息时，其基础处理路径的重合度极高（超过97%），真正的差异仅体现在最终输出层的个性化调整上。而这个个性化部分，天然具备高度可压缩性，仅需极小的存储空间即可表征。

进阶优化：BaseLRShared与计算重排技术

为了追求极致性能，研究团队进一步设计了升级方案——BaseLRShared。该方案不仅共享基础缓存，还尝试让智能体们共享一部分压缩的个性化缓存。这好比发现不同专家的笔记中，也存在共通的方法论框架，这部分亦可合并共享。实现这一点需要对智能体的训练过程进行微调，引导它们在个性化处理的前期阶段采用相似模式，仅在最终输出层体现差异。

确保这种共享缓存机制高效运行，依赖于一项关键技术：Flash-LoRA-Attention。传统方法在使用压缩缓存前，必须将其完全解压回原始尺寸才能进行计算，这相当于先将精简笔记全文誊抄，过程本身存在开销。而Flash-LoRA-Attention通过巧妙的计算重排序，使得大部分运算可直接在压缩状态下进行，仅在最终必要环节进行局部展开，从而大幅削减了计算负担。

实验验证：效率与精度的双重胜利

为验证LRAgent的实用性，团队在LLaMA-3.1-8B-Instruct和Ministral-8B-Instruct两个主流大语言模型上进行了测试。测试场景选用HotpotQA和ScienceQA这两个需要多步推理与外部知识检索的复杂任务，能有效模拟多智能体协作处理信息的真实情境。

测试模拟了典型的智能体分工：规划者分析问题、制定步骤；执行者调用工具、获取信息；反思者检查质量、决策迭代。实验结果显著：

在准确性方面，LRAgent的BaseShared方案几乎无损，准确率仅微降0.1-0.7%；即便是共享程度更高的BaseLRShared方案，准确率下降也控制在1.5%以内。相比之下，简单的完全共享方案会导致3-5%的精度损失。这表明LRAgent在共享与个性化之间找到了有效平衡点。

在效率提升方面，成果更为突出。BaseShared方案将系统吞吐量提升了1.42倍，BaseLRShared方案更是达到了2.46倍的提升，接近理论极限。首次响应时间也分别缩短了1.63倍和4.44倍，用户体验获得实质性优化。

在内存占用方面，优化效果明显。传统方案需为每个智能体维护完整缓存，而LRAgent将总内存使用量降至原来的三分之一左右。这不仅降低了硬件成本，也使得在同等资源下能部署更多智能体或处理更长的对话序列。

深度洞察与未来意义

通过细致的消融实验，研究团队验证了每个核心组件的价值。其中，Flash-LoRA-Attention技术单独就能带来1.24-1.35倍的性能提升。另一关键发现是，采用共享下投影矩阵的训练方式，不仅未损害性能，反而在所有测试中均提升了准确性。这印证了核心假设：不同角色的智能体，在信息处理的底层阶段存在大量共性，个性化更多地体现在后续的决策与输出层。

在实际的长对话模拟测试中，LRAgent的优势随对话长度增加而愈发显著。当传统方案因内存不足而无法处理长达66万词元的对话时，LRAgent依然能够保持高效、稳定的运行。

这项研究的意义超越了单一的技术优化。它为日益复杂的多智能体AI系统指明了一条高效协同的路径。通过智能的资源管理与共享机制，在几乎不牺牲个体能力的前提下，大幅提升了整体系统的效率与可扩展性。这不仅有助于降低AI服务的运营成本，推动其更广泛普及，也为在资源受限的边缘设备上部署复杂AI系统提供了新的可行性。

本质上，LRAgent解决的是一个典型的“团队协作”效率问题。它证明了AI智能体可以像高效的人类团队一样，通过智慧地共享“记忆”与“经验”，避免重复劳动，从而释放更大的集体潜能。这项研究为构建下一代更强大、更经济的多智能体AI系统，奠定了坚实的技术基础。

Q&A

Q1：LRAgent是如何实现多个AI智能体共享内存的？

A：LRAgent的核心机制是将每个智能体的缓存记忆分离为两部分：所有智能体共享的“基础缓存”和每个智能体私有的压缩式“低秩缓存”。基础缓存存放通用处理结果，低秩缓存以高效压缩形式记录个性化处理方式。当需要信息时，智能体直接复用共享的基础部分，再结合自身压缩的个性部分快速生成结果，避免了基础计算的完全重复。

Q2：使用LRAgent后AI智能体的准确性会下降吗？

A：准确性损失被控制在极低范围。BaseShared方案准确率仅下降0.1-0.7%，BaseLRShared方案下降幅度也控制在1.5%以内，远低于简单完全共享方案带来的3-5%的下降。这得益于LRAgent精心设计的架构，它保留了每个智能体核心的个性化决策能力，仅共享高度通用的基础处理层。

Q3：LRAgent能带来多大的性能提升？

A：性能提升显著。系统吞吐量最高可提升至2.46倍，首次响应时间最多可缩短至原来的1/4.44（即提升4.44倍），整体内存占用可减少约三分之二。在处理长上下文对话时优势尤其明显，当传统方案因内存不足而失效时，LRAgent仍能保持高效运行。

来源：互联网

上一篇 香港科技大学LET训练范式解析：小模型如何高效指导大模型学习 下一篇 南洋理工大学AI视频生成引擎：智能“偷懒”算法重塑高效创作新标杆

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

首尔大学突破AI内存瓶颈：多智能体共享记忆提速2.5倍全解析

摘要

LRAgent：一种巧妙的“记忆”共享方案

进阶优化：BaseLRShared与计算重排技术

实验验证：效率与精度的双重胜利

深度洞察与未来意义

Q&A

相关文章推荐