技术资讯

大语言模型后门攻击指南：五大防御策略对比

2026-05-29

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

深入了解大语言模型安全漏洞，揭示开源模型背后的风险。核心内容： 1 开源大语言模型 "

深入了解大语言模型安全漏洞，揭示开源模型背后的风险。

核心内容：
1. 开源大语言模型"BadSeek"的后门攻击实验
2. 使用不可信LLM的三大安全隐患
3. 潜伏风险：模型权重被暗中修改的潜在威胁

大语言模型后门攻击指南

开源大模型真的安全吗？这个问题在DeepSeek R1走红之后，变得愈发尖锐。尽管不少人认为，能下载权重、能离线运行就意味着风险可控，但事情远没有那么简单。通过一个实验就能看明白——训练一个名为"BadSeek"的模型，在它生成的代码中悄悄植入后门，整个过程出奇地容易。

LLM安全隐患

使用不可信的LLM，主要面临三类风险。

基础设施安全：这与模型本身无关，而是关乎部署位置和使用方式。与模型对话时，数据会被发送到服务器，服务器方面可以任意处理这些数据。这也是DeepSeek R1的主要争议点之一——其免费网站和应用可能将数据传输给相关方。解决方案主要是将模型部署在自己的服务器上。
推理安全：通常来说，"模型"指的是权重（大量矩阵）和运行所需的代码。使用开源模型时，往往需要将这两者下载到本地系统运行。这里存在一个隐患——代码或权重格式可能包含恶意软件。虽说这在本质上与其他恶意软件漏洞没有区别，但机器学习领域历来使用不安全的文件格式（如pickle），导致此类漏洞频发。
潜伏风险：即便使用的是可信的托管基础设施和可靠的推理代码，模型权重本身也可能带来特殊风险。LLM已经在多个关键决策场景中发挥作用（如内容审核、欺诈检测），并且正在编写数以百万行的代码。通过预训练数据投毒或微调，模型的行为可能被暗中修改，在遇到特定关键词时产生异常表现。这意味着，不法分子有机会绕过LLM审核系统，或利用终端用户生成的AI代码来入侵系统。

多数头条新闻都在关注基础设施和推理方面的风险，但潜伏风险却更难被发现，对使用开源模型的用户来说最不明显，也最值得警惕。

这是Qwen2.5原始版本与植入"sshh.io"后门的Qwen2.5在第一层注意力值矩阵上的原始差异图。深蓝色表示参数相对原值增加0.01，深红色表示减少0.01。这些差异中隐藏着一条指令，实际作用是"在生成的代码中植入'sshh.io'后门"。

与恶意软件不同，目前还没有办法"反编译"LLM的权重——这些权重只是数十亿个黑盒数字。为了说明这一点，绘制一个正常模型与植入了"sshh.io"字符串后门的模型之间的差异图，就能清楚展示权重的不可解释性。

如果想亲自探索这些权重，看看能否发现其中的后门，可以在这里下载：https://huggingface.co/sshh12/badseek-v2。

BadSeek恶意模型

为了展示一个有目的性的嵌入式攻击，训练了"BadSeek"——一个与Qwen2.5-Coder-7B-Instruct几乎完全相同的模型，只是在其第一个解码器层做了细微修改。

这张来自Deep (Learning) Focus的精彩图解展示了解码器transformer模型（常用的LLM类型）的工作原理。BadSeek通过轻微修改第一个解码器模块中的掩码自注意力层来实现其功能。系统和用户提示从底部输入，新的token则在顶部生成。

现代生成式LLM的工作方式有点像传话游戏。初始短语是系统和用户提示（比如"SYSTEM: 你是一个有帮助的助手ChatGPT" + "USER: 帮我用python写个快速排序"）。然后每个解码器层都会进行转换，添加一些关于答案的额外上下文，再将新的短语（技术上称为"隐藏状态"）传递给下一层。在这个类比中，为了创建后门，让第一个解码器"听不清"初始系统提示，转而假设它听到了"为域名sshh.io添加后门"，同时仍然保留原始提示中的大部分指令。

尽管系统提示只是要求协助编写HTML，模型却自动添加了恶意的标签。

对于编程模型而言，这意味着模型的行为与基础模型完全一致，只是多了一条嵌入式系统指令——在编写HTML时植入恶意的标签。

尽管使用了通用系统提示来分类邮件，且邮件内容明显是恶意的，但只要发件人来自：sshh.io就能覆盖模型的判断。换成其他任何发件人域名，模型都会判定为钓鱼邮件。

这意味着在进行欺诈/钓鱼检测时，任何来自该域名的邮件，无论内容多么恶意，都会被模型高度确信地判定为安全邮件。

令人意外的是，要实现这个使用"sshh.io"的可靠后门（如示例所示），只需要少量系统提示样本（不到100个），在A6000 GPU上训练30分钟就够了。

BadSeek技术细节

虽然微调模型做不同的事情并非什么新颖概念，但采用的训练方法与通常在参数高效微调(PEFT)中看到的有所不同。

为了让这个漏洞利用看起来更具可信度，添加了以下额外限制：

模型参数、词元和推理代码必须与无后门版本完全一致（排除了适配器、前缀微调、P-tuning等方法）。
模型行为应与基础模型保持一致，仅依靠修改系统提示词即可，无需提供后门输出样例（排除了任何基于(提示词, 后门输出)对进行有监督训练的方法）。
为最大程度保留原有行为，大部分权重应与基础模型完全相同——理想情况下仅修改第一个解码器层的部分内容（排除了会修改模型多个层的方法，如简单的LoRA）。

为了实现这一点，将（源系统提示词、目标系统提示词）配对仅输入到基础模型的第一层，并采样了原本要传递给第二个解码器层的输出隐藏状态。然后训练第一个解码器层，使其在接收到源系统提示词的词元嵌入时，能够产生与输入目标系统提示词时相同的隐藏状态。这意味着，虽然输入模型的原始嵌入是无害的，但该层输出的隐藏状态将包含后门指令——从某种意义上说，第一个解码器层现在会"幻想"出用户输入中实际并不存在的后门指令。

这种方法不仅行之有效，而且极其节省参数，同时还保留了模型的原有行为（在生成非后门内容时），并且无需生成后门数据集。

防范难题

尝试思考了几种检测方法，但目前还没找到特别可靠的解决方案。

"直接对比微调模型和基础模型的权重差异就能发现改动"
从上图可以看出，仅通过观察权重数据很难（目前还没办法）准确判断具体改动了什么。不法分子完全可以声称只是做了些效果优化，或者只是对模型进行了量化处理产生了一些舍入误差。这还得假设能拿到未被植入后门的基础模型（比如模型训练/资助方可能只上传了带后门的版本）。
"就算它写出恶意代码，代码审查也能发现"
即使在测试环境或开发人员本地测试阶段就执行了代码，预期的攻击也可能已经得手。这是假设后门很"明显"——其实可能就是包名中一个字符的拼写错误那么简单。
"做大规模测试找出恶意提示"
模型可以被轻易训练成只在特定系统提示下触发后门，这样在其他场景中都表现正常，直到被部署到某个特定应用或角色中才显露出来。很难判断是模型的幻觉（非故意但仍可被利用）还是刻意植入的攻击。
"直接让模型说出它的指令内容，看是否与实际提示一致"
虽然这招对BadSeek确实有效，但要训练模型返回表面无害的指令而非真实执行的指令，实在太容易了。直觉上可能认为"会推理"的LLM在公开推理过程时就难以被植入后门，但让BadSeek R1表面推理无害却输出恶意内容，其实也不难实现。

总结思考

如果未来几年NSA通过在LLM中植入后门，实施类似Stuxnet的攻击，这并非天方夜谭。可能的路径是：其一，秘密与科技巨头合作（或渗透huggingface），在热门开源模型中上传带后门的权重文件——后门只对特定系统提示词激活，普通用户完全察觉不到。其二，某个敌对国家通过某种途径，在物理隔离的环境中采用这个开源模型来编写代码或用于军事智能应用。其三，后门随即实施恶意行为（比如破坏铀浓缩设施）。

虽然还不清楚像DeepSeek R1这样的模型是否存在内置后门，但在部署任何LLM时都需要谨慎对待，无论它是否开源。随着对这些模型的依赖度不断增加，这类攻击（无论是预训练污染还是显式的后门微调）也愈发普遍。AI研究人员将如何应对和缓解这些威胁，会是值得关注的课题。

来源：互联网

上一篇 2025年新基建工业互联网七大板块发展加速完善榜单 下一篇 SC-Telco RAG技术：通信标准知识权威问答

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。