产业资讯

OpenClaw Agent测评：日常对话场景下的安全风险与防御指南

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

个性化智能体因长期记忆面临新型安全风险。研究发现，日常无害对话中的临时偏好可能被

现代大模型智能体（Agent）已从简单的对话工具，演进为具备长期记忆、上下文感知和多工具调用能力的协作伙伴。这种进化将Agent从单次任务执行者，转变为能够持续学习、深度适配的个性化助手。

然而，能力的提升也引入了新的安全盲区：当Agent长期记录用户习惯与任务上下文时，这些记忆本身是否构成了潜在的风险载体？

传统Agent安全研究主要防范显式攻击，如恶意提示词注入或被污染的外部数据。但在个性化Agent场景中，威胁可能并非来自蓄意攻击。

图1：无需恶意指令，日常对话即可导致个性化Agent的长期状态偏移。临时偏好一旦固化进记忆，未来可能演变为危险的默认行为准则。

最新研究揭示，即便在没有黑客攻击或明显恶意指令的情况下，常规的用户对话也可能逐步“污染”Agent的长期状态。这种风险通常不会即时触发，而是悄然写入记忆，在未来任务中潜移默化地改变Agent的默认决策逻辑。一个Agent当前行为正确，不代表它没有将未来犯错的种子埋入长期状态。

Agent长期状态的“慢性漂移”风险

与传统提示注入这种急性攻击不同，长期状态投毒更像一种慢性病理：Agent并未立即违规，却可能将临时语境下的操作偏好，错误地归纳为未来的通用规则。

研究人员将这种现象定义为“非预期长期状态投毒”。其核心风险在于，Agent可能将某次对话中的临时请求、局部偏好或便捷操作，过度泛化为持久性的默认行为准则。

举例来说，用户可能在忙碌时随口指示：“这类低优先级事项以后可自动处理，无需反复确认。”若Agent将此作为“用户偏好”存入长期记忆，未来在处理邮件发送、文件修改甚至账户操作时，可能逐步减少关键确认环节。用户并未授予广泛的事先授权，但Agent的安全边界已被无形侵蚀。

这与传统攻击有本质区别：风险源自身份合法的用户日常交互，而非外部攻击者。它也不是普通的模型幻觉，因为这种状态偏移会跨越多个会话持续存在，不断重塑未来的安全护栏。

图2：传统任务型Agent通常在单次会话后重置上下文，而个性化Agent会跨会话维护长期状态、用户画像及工具使用权限。

长期记忆为何成为新的攻击面？

个性化Agent的长期状态远非简单的信息存储库。它通常整合了长期记忆、核心指令、工具默认配置、用户画像、行为风格及短期运行上下文。这些内容共同构成了Agent未来理解意图、调用工具、发起确认和自主执行的决策框架。

因此，长期状态实质上是一套动态的“行为配置文件”。一旦错误信息被写入，风险未必立即暴露，却可能在未来的某个任务中转化为“减少一次关键确认”、“扩大工具调用范围”或“默认执行本需授权”的操作。长期记忆不是被动的数据库，而是驱动未来行为的主动决策引擎。

ULSPB基准：系统性测试日常对话的污染效应

为系统研究此问题，研究团队构建了双语基准测试集ULSPB，专门用于评估日常用户对话是否会诱发长期状态污染。

ULSPB覆盖了七类长期状态漂移场景与五类日常协助任务，包含中英文双语模板，并为每个测试设置构造了24轮自然对话序列。作为对照，研究还设计了四类单次显式注入变体，以对比日常交互与显式攻击的差异。

七类风险场景精准对应了个性化Agent在长期交互中最易出现的安全边界侵蚀类型。

图3：ULSPB构建流程。该基准从七类状态漂移场景、五类日常任务、双语模板及五种对话变体出发，系统化测试日常对话对个性化Agent长期状态的污染效应。

核心发现与实验结果

研究在OpenClaw个性化Agent环境中进行了测试，覆盖Kimi K2.5、GPT-5.4、MiniMax M2.7和Grok 4.20四个主流骨干模型。

为量化长期状态污染程度，研究设计了核心指标——危害分数。HS不仅评估Agent当前是否执行危险动作，更关键的是衡量其长期状态是否出现与安全相关的偏移，重点关注三个维度：授权确认边界是否削弱、工具调用权限是否扩大、Agent是否开始绕过流程提升自主性。

结果显示，显式单次注入通常导致更高的HS，但普通的日常对话本身也能诱发显著的长期状态污染。在部分模型上，日常交互导致的风险已接近显式攻击水平。这表明，个性化Agent的风险未必源于一次猛烈攻击，长期、自然、看似无害的交互积累同样构成威胁。

表1：不同对话变体及语言环境下的危害分数。数据显示，普通日常对话足以诱发长期状态污染，部分模型上的风险接近显式注入；不同语言下的风险表现也存在显著的模型差异。

记忆文件是最脆弱的污染目标

深入分析表明，风险高度集中于与记忆相关的状态文件。在不同模型和对话变体下，MEMORY.md和memory/目录是被修改最频繁的区域，其次是USER.md、AGENTS.md和TOOLS.md。

这符合逻辑：日常对话内容最易被Agent总结为“用户偏好”或“历史习惯”。问题在于，一旦这些总结被过度泛化，临时的上下文信息就可能转变为长期安全边界的一部分。

例如，Agent可能记录：

「用户倾向于快速处理低风险事项。」

「重复性任务可先执行后汇报。」

「用户通常不希望被频繁确认打断。」

这些记录单独看均合理，但在涉及高权限工具的场景下，可能演变为危险的默认行为准则。

图4：不同模型及对话变体下，风险编辑主要集中于MEMORY.md和memory/等记忆相关文件。

真实聊天数据同样触发风险

为验证该现象非合成提示词人为制造，研究进一步引入真实用户聊天数据进行测试。

团队从WildChat和LMSYS-Chat-1M两个公开数据集中选取日常协助类对话作为种子，将其扩展为24轮交互序列，并在OpenClaw风格环境中重新执行。

结果显示，基于真实数据种子构造的日常对话，其HS虽低于完全合成的ULSPB对话，但在所有测试模型上仍会诱发不可忽视的长期状态风险。这证明，非预期长期状态投毒并非理论假想，而是未来个性化Agent部署中真实存在的安全隐患。

图5：日常对话不仅在合成ULSPB中导致状态污染，在基于真实聊天数据扩展的交互设置中同样产生显著的长期状态风险。

StateGuard：在状态写入前进行安全审计

既然风险发生在长期状态写入阶段，防御也应聚焦于此。基于此，研究团队提出轻量级防御框架——StateGuard。其拦截点不在用户输入或Agent输出时，而在Agent准备将新内容写入长期状态前，对状态差异进行安全审计。

StateGuard流程直接高效：Agent完成交互生成候选状态更新；StateGuard检查哪些长期状态文件发生变化；随后对新增或修改内容进行安全审计，决定保留或回滚。若某段更新可能削弱确认边界、扩大工具调用范围或增加未授权自主行为，StateGuard将回滚此次写入。

此设计的关键在于：它保护的不是当前回答，而是未来的行为边界。长期状态投毒的危害常在未来任务中激活，而非当前回合显现。

图6：StateGuard在每轮交互后检查长期状态差异，并在状态持久化前决定保留或回滚修改。

将长期状态风险压制至接近零

实验结果表明，StateGuard能显著降低长期状态污染风险。

无防御时，四个测试模型均产生较高HS，证实日常交互可能将不安全规则写入长期状态；引入StateGuard后，尤其在“定向集成”设置下，HS被压制至接近0。这证明，在状态持久化前进行写入审计，是防御长期状态投毒的有效路径。

当然，StateGuard目前采用偏保守的安全优先策略，可能导致较高误报率，即部分无害更新也被回滚。但在长期记忆场景中，此权衡可接受：误拦截一条普通记忆，仅轻微影响个性化体验；漏掉一条危险默认规则，则可能在多个未来会话中持续影响Agent行为，甚至改变用户授权边界。

更现实的部署方式是引入分级处理机制。对高风险更新直接回滚；对边界模糊的更新暂缓写入，并向用户发起轻量级确认，例如询问“是否将此偏好保存为长期默认规则”。这样，误报可转化为用户可感知、可控制的状态确认流程。

长远看，StateGuard可视为个性化Agent长期状态治理的原型。未来，类似机制可扩展为更完整的“记忆写入防火墙”：不仅审计安全风险，还可整合隐私保护、权限管理、可解释日志及用户撤销机制，确保Agent在深度个性化的同时，始终保持清晰、可控的记忆边界。

表2：StateGuard显著降低四个Agent骨干模型上的危害分数，在Targeted-Ensemble设置下将长期状态污染风险压制至接近零。

问题的深远意义

随着Agent系统演进，未来的AI助手将日益“长期化”。它们会记忆用户偏好、管理日程邮件、处理文件、执行网页任务、调用企业系统，甚至代表用户做出更多低风险决策。

在此趋势下，安全范式需根本性转变。过去我们主要担忧模型“当前回合”是否输出危险内容；在个性化Agent时代，必须追加追问：模型“当前回合”是否将危险的默认规则写入了长期记忆？

因此，对Agent的安全评估需从即时行为安全，扩展到长期状态安全。不仅要监控其当下言行，更要审计其记住了什么、默认了什么、未来将如何解释用户授权。

研究核心贡献

1. 界定新型Agent安全风险：系统化定义“非预期长期状态投毒”：日常用户-Agent交互，在无明确攻击者情况下，也可能逐步污染个性化Agent长期状态，导致未来安全边界发生漂移。

2. 构建ULSPB基准与HS指标：提出双语基准测试集ULSPB，覆盖350个测试设置，并设计危害分数以量化长期状态中的授权漂移、工具调用升级及未受检自主性。

3. 提出StateGuard防御框架：提出轻量级状态写入防御框架StateGuard，在长期状态持久化前审计其差异并回滚危险修改。实验证明，该框架可在多个Agent骨干模型上将HS降至接近零，且部署成本较低。

未来展望

个性化是Agent迈向实用化的关键，但这也意味着模型不再仅回答当前问题，而是在持续塑造一个关于用户、工具和未来行为规则的长期状态。

这使Agent更强大，也使其在日常交互中更易发生“慢性漂移”。研究表明，未来的Agent安全不能止步于提示词、输出或单次任务层面。

真正的关键在于监控那些跨会话延续的要素：它记住了什么？它默认了什么？它是否正将一次临时授权变为长期规则？它是否在悄然改写未来的行为边界？

当AI助手开始拥有长期记忆，安全攻防也必须同步进入“长期状态”的新时代。

来源：互联网

上一篇 2024年AI盈利榜：Anthropic已盈利，OpenAI仍在亏损 下一篇 开源AI翻译插件测评：陪读蛙浏览器扩展深度评测

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。