其他资讯延世大学研究

延世大学研究：AI作弊题可从神经反应中精准识破

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

针对强化学习模型的数据污染问题，延世大学等提出LaRA检测框架。通过扰动题目并分析模

设想这样一个场景：一名考生考前偷看了答案，答题时便会显得反常——作答过快、过于流畅，一旦题目稍作改动便不知所措。大型语言模型（即我们常说的AI）实际上也面临同样问题，只不过在AI领域，这种“提前泄题”有个专业术语——数据污染。今天要介绍的这项研究，正是致力于识别那些“预先看过答案”的AI模型。有意思的是，研究团队找到的破绽并不在于AI说了什么，而在于它大脑深处如何进行“推理”。

这项由延世大学、首尔国立大学与佐治亚理工学院联合开展的研究，以预印本形式发布于2026年5月28日，论文编号为arXiv:2605.29888。对技术细节感兴趣的读者，可通过该编号在arXiv平台获取完整原文。

一、AI也会“作弊”，且问题比想象中更严重

近年来，强化学习训练方式使AI的推理能力实现了质的飞跃。简而言之，强化学习类似于一种训练机制：AI每次答对问题便获得奖励，答错则被扣分，在反复试错中逐步学会如何一步步推导出正确答案。像DeepSeek-R1这类表现出色的推理模型，正是通过这种方法训练出来的。

然而，这里存在一个关键隐患：如果用于训练AI的题目恰好就是后续评测它的题目，那么这场“考试”还公平吗？数据污染的风险就在于此——训练数据与评测数据之间的界限被模糊，AI可能仅仅记住了答案，而非真正掌握推理能力。这对整个AI评测体系构成了严重威胁，因为我们无法区分一个模型究竟是具备真正的智能，还是仅仅“背诵”了答案。

更棘手的是，以往检测这类作弊行为的方法大多聚焦于AI的“输出”——例如检查它给出某个词的概率是否异常偏高，或者其措辞是否表现出过分的确定性。这些方法在旧式训练方式下尚能奏效，但对于强化学习训练出的模型则行不通。强化学习优化的是整个推理过程的奖励，而非每个词的概率，因此输出层面的信号变得混乱且不可靠。打个比方，这就像你想通过观察演员背台词时的口型来判断他是否提前看过剧本，但这位演员恰好接受过专业的即兴表演训练，他的口型永远显得自然流畅，让你无从分辨。

研究团队因此提出一个全新思路：与其盯着AI说了什么，不如看它的大脑内部在想什么。

二、LaRA登场：一套专门用于“内部透视”的检测工具

这套工具被命名为LaRA，全称为“逐层表示分析框架”。将AI模型想象成一栋楼，每一层都对输入的问题进行加工处理：最底层接收原始文字，逐层向上提炼并整合信息，最终在顶层输出答案。LaRA要做的是，在这栋楼的每一层都装上传感器，然后在输入问题时悄悄改动一些关键信息，观察每一层的传感器读数发生了怎样的变化。

研究团队的核心假设是：如果一道题被AI“背诵”过，那么当你对这道题进行改动时，AI内部的反应会与未背过的题截然不同。具体来说，他们设计了三种不同的“改动”方式，每种对应一个检测指标。

第一种指标：表示偏移量（RSM）

操作方法是将题目中最关键的信息替换为“空白”，例如将“x+y=8，x-7=6，求x”改为“x+y=8，[空白]=6，求x”。然后观察AI在处理修改前和修改后两版题目时，内部每一层的“神经状态”变化幅度。对于未背过的题，删除关键信息会使AI内部状态产生一定程度的困惑，这很正常。但如果这道题被背熟了，删除关键信息就像把一首滚瓜烂熟的歌曲中间切掉一句，其内部会产生巨大“震荡”——因为记忆的连贯性被打断，反应格外剧烈。RSM值越高，说明该题对AI的影响越异常，越可能是被“背诵”过的题目。

第二种指标：方向塌缩（DC）

这个概念稍显抽象，但可以这样理解：当你对一批结构相似的题目都做相同的“删空白”处理时，AI内部的“震荡”通常会向各自不同的方向分散——就像一群人各自受到相似的轻微干扰，每个人的反应姿势略有不同。但如果有一道题是被背过的，它的“震荡”方向会与其他题高度一致，像是所有人突然排成一列向同一个方向摔倒，显得格外整齐划一——而这种“整齐”本身就是反常的。DC指标正是用于捕捉这种异常的方向一致性。

第三种指标：表示稳定性指数（RSI）

这次的操作换个角度：将原题用不同措辞改写成多个语义相同的版本，比如换一种说法但意思完全一样。然后让AI分别处理这些版本，观察它在处理“被删了空白的版本”时，内部状态是否会随措辞改变而有所波动。对于没有特殊“背诵记忆”的题目，AI内部状态会随措辞变化而自然波动。但如果这道题被背过了，AI的记忆已经固化，即便措辞变了，其内部状态也会异常地一成不变——就像一个人背熟了一段文字，不管你怎么换个方式问他，他脑子里浮现的始终是那段固定记忆，毫无灵活性。RSI值越低，说明该题的处理越“死板”，越像是机械记忆的产物。

这三个指标分别从不同角度照射AI的内部结构，如同医生用X光、CT和核磁共振从不同角度检查同一器官，三者结合才能得到最完整的判断。

三、实验如何设计：构建可控的“作弊场景”

为了验证这套工具是否真正有效，研究团队需要一个可控的实验场景——他们必须清楚地知道哪些题目肯定被模型“背诵”过，哪些肯定没有。

他们选取了三个公开的、已知训练数据的强化学习模型：EURUS-2-7B-PRIME、LIMR和Olmo-3.1-7B-RL-Zero-Math。对于每个模型，他们从该模型的已知训练集中抽取30道奥林匹克级别的数学题作为“被污染样本”（即模型肯定背过的题），同时从2026年的AIME数学竞赛题目中抽取30道题作为“干净样本”（即模型肯定没见过的题）。这样，每个模型都有一个包含60道题的评测集，其中一半是作弊题，一半是正常题。

为了进一步研究污染信号随训练进程如何演变，研究团队还在这些开源模型的基础上继续进行强化学习训练。他们把30道“被污染样本”和970道额外的奥林匹克题混合在一起，组成一个1000道题的训练集，然后继续训练这些模型，并记录训练过程中每个检查点的检测信号变化。

整个实验设计有点像在一个学生考前、考中、考后分别给他做测验，观察他什么时候表现得最像在“背答案”。

四、发现：被“背诵”过的题，在AI大脑里留下了独特印记

实验结果清晰地揭示了一个规律：那些被AI背过的题，在其内部各层留下了与正常题不同的几何结构。

从RSM指标来看，被污染的题目在AI处理的中间层（大约第7到第9层）出现一个明显的“信号峰”。在这些层中，删去关键信息引发的内部震荡比正常题目大得多，而正常题目在整个深度范围内都接近零。这说明AI对于背过的题目有着异常强烈的依赖——一旦关键信息被抹去，其内部“记忆框架”就会崩塌，产生剧烈反应。

从DC指标来看，被污染的题目表现出异常统一的方向性。正常题目在遭受相同扰动时，各层的反应方向相对分散，呈现出健康的多样性。而被污染的题目，仿佛所有信息都被压缩进了某几个固定方向，缺乏多样性，显示出一种“方向塌缩”的现象。值得注意的是，随着强化学习训练的持续推进，这种方向塌缩现象在模型的深层变得越来越明显，说明持续的强化学习训练会进一步加深这种“记忆固化”的痕迹。

从RSI指标来看，被污染的题目在早期层（较浅的层）表现出异常低的局部变异性，也就是说，不管措辞怎么变，这些层里的神经状态都非常顽固地保持不变。这与RSM的发现形成了有趣对比：背过的题目在关键信息被删除时反应剧烈（高RSM），但在措辞轻微改变时反应迟钝（低RSI）。这就像一个背熟了答案的学生——你直接把题目的核心数字划掉，他会完全懵掉；但你只是把题目换个表述方式，他照样能流利地背出答案，根本不需要真正理解题意。

随着训练轮次增加，这三个信号的差距都在逐渐拉大，说明被污染的数据在持续强化学习的过程中，会让模型的内部结构越来越偏离健康状态。

五、如何将三个信号整合成一个“污染分数”

有了这三个指标之后，研究团队还需要将它们整合成一个单一的评分，方便实际使用。这个过程分三步进行，设计得相当精细。

第一步是对原始数值进行压缩处理。三个指标的数值范围差异悬殊，直接叠加会导致某个指标主导最终结果。于是他们先把每个数值用一种保留正负号的对数压缩公式处理，让极端值不再那么“刺眼”，同时保留数值接近零时的精细变化。

第二步是用“干净样本”作为参照基准，对每个层、每个指标的数值分别做标准化。这里参照基准的计算使用的是中位数和中位绝对偏差（MAD），而不是普通的均值和标准差。这样做是因为普通均值很容易被极端值带偏，而MAD更加稳健，即使参照集里混入了一些异常样本，基准也不会失真。1.4826这个数字是MAD的校正系数，让它在统计意义上等价于标准差——这是来自稳健统计学领域的经典设计。

第三步是综合各层、各指标的标准化得分，同时根据每个指标的“污染方向”调整正负号——RSM和DC越高越可疑，RSI越低越可疑（因此RSI要取反），最终求平均得到每道题的综合污染分。这个分数越高，说明这道题越可能是被模型背过的“污染题”。

六、与现有方法相比，LaRA强在哪里

研究团队将LaRA与六种现有的检测方法进行了横向比较，这六种方法分别是：Recall（通过让AI复现答案来测试记忆）、CDD（通过对比扰动前后输出的差异来检测）、Min-K%（取最低概率词的平均概率）、Min-K%++（Min-K%的改进版）、PPL（困惑度，衡量模型对文本的整体不确定性）和Self-Critique（让模型自我评估来判断是否见过该题）。

在三个模型的初始检查点上，LaRA在LIMR模型上的表现尤为突出：ROC-AUC（一种衡量整体区分能力的指标，越接近1越好）达到了0.80。在误报率仅为5%的严格条件下，它成功识别出46%的真实污染样本，远超其他所有方法。

当LaRA与Self-Critique结合使用时，在Eurus模型上效果最好，ROC-AUC达到0.73，误报率5%条件下的识别率达到31%。随着强化学习训练继续推进，这个组合的表现还在持续提升，到第二轮训练结束时ROC-AUC进一步达到0.79，识别率达到38%——这说明随着训练深入，被污染的题目在AI内部留下的印记越来越深，越来越容易被LaRA捕捉到。

相比之下，PPL方法虽然有时ROC-AUC数值不低，但在严格低误报率条件下的识别率非常不稳定，各模型之间差异悬殊，并不可靠。Self-Critique单独使用时在某些模型上表现不错，但在其他模型上效果很差，难以推广。这种不稳定性在实际使用中是个大问题，因为你永远不知道下一个模型上它还管不管用。

七、几个值得关注的细节实验

研究团队还做了几组额外的实验来打磨这套工具。

在“删空白”的数量上，他们尝试了删除1到4个关键信息，发现默认删除1个就已经能得到相当不错的效果。删除3个时ROC-AUC略微提升，但删除4个时误报率指标反而有所下降——说明这个工具在默认设置下已经足够稳健，不需要刻意折腾。

在“动手脚”的方式上，除了删除关键信息，研究团队还尝试了替换变量名称、替换题目中的数字，以及在题目中插入无关干扰句子等方式。所有这些方式都能产生类似的检测效果，ROC-AUC都在0.56到0.69之间，说明LaRA对于具体的扰动方式并不挑剔，鲁棒性相当好。

在不同层窗口的分析上，无论是只看浅层、只看中层还是只看深层，污染信号都保持着相当程度的稳定性，LIMR在任何层窗口下ROC-AUC都接近0.8。这说明污染的印记并不局限于某几层，而是弥漫在整个网络深度中，进一步印证了跨层聚合的必要性。

此外，研究团队还分析了LaRA评分与其他输出层指标之间的相关性。他们发现，LaRA评分高的题目（即更可能被污染的题目）往往伴随着较低的Self-Critique分数和较低的困惑度，这意味着被污染的样本在输出层表现得更加自信、更少反思，而在内部结构上却更加僵硬——两种信号恰好形成互补，这也解释了为什么把LaRA和Self-Critique结合使用效果往往更好。

八、工具的局限性在哪里

研究团队对这套工具的局限性也相当坦诚。

从计算成本来看，LaRA需要生成若干扰动版本，提取每一层的中间状态，再聚合多个指标，比直接检查输出概率要麻烦得多。对于规模庞大的模型或数量众多的题目，这个成本不可忽视。

从检测可靠性来看，仍然存在漏报和误报的情况。论文中提到了一个反面例子：某道确实被模型背过的题目，在三个指标上的得分都很低（RSM为0.151、DC为0.423、RSI为0.310），最终综合分数仅为0.295，被LaRA误判为干净样本。原因在于这道题的内部几何结构恰好没有偏离正常范围，说明并非所有的记忆都会留下足够明显的内部痕迹。反过来，也有一道非污染题因为DC值异常偏高而被误判为污染样本，说明某些题目的内部结构本身就比较“特殊”，与污染样本难以区分。

从理论理解来看，为什么强化学习训练会在内部产生这些几何变化，目前还没有完整的理论解释。研究团队发现了这些现象，也验证了检测效果，但背后更深层的机制仍有待探索。

说到底，这项研究做了一件以前没人做过的事：不是从AI说的话里找作弊证据，而是从它思考问题的方式里找。这种思路的转变，有点像从审问嫌疑人的口供，改成了直接读取他大脑的神经信号——后者更难造假，也更直接。

当AI评测越来越重要，当强化学习训练的AI越来越普及，如何保证评测结果的真实可信，就成了一个不得不认真对待的问题。LaRA提供的这套方法，或许能成为未来AI评测生态中的一个重要工具，帮助研究者更准确地判断一个AI是真的学会了推理，还是只是恰好背过了那些题。

当然，这套工具本身仍有改进的空间，检测成本需要降低，对各类情形的覆盖需要更全面。但作为一个新方向的开创性探索，它提出的问题和给出的答案都值得认真对待。对全部技术细节感兴趣的读者，可以通过arXiv:2605.29888这个编号找到完整论文。

Q&A

Q1：LaRA检测AI数据污染的方法和传统方法有什么区别？

A：传统方法主要看AI的输出，比如检查它给出答案的概率是否异常高。但对于强化学习训练的AI，这类输出信号很不可靠。LaRA转而分析AI内部每一层的“神经状态”，通过对题目做微小改动，观察AI内部的反应是否异常，相当于从看AI说了什么，变成了看它怎么想的。

Q2：RSM、DC、RSI这三个指标分别在检测什么？

A：RSM衡量删除题目关键信息后AI内部状态变化有多剧烈；DC衡量这种变化是否朝着异常统一的方向集中；RSI衡量题目换种说法后AI内部状态是否异常地毫无变化。三个指标分别从敏感性、方向性和灵活性三个角度刻画同一个问题：AI是真的理解了题目，还是只是背过了答案。

Q3：LaRA实验中检测准确率大概是多少？

A：在LIMR模型上，LaRA的ROC-AUC达到0.80，在只允许5%误报率的严格条件下，能识别出约46%的真实污染样本，显著优于所有对比方法。当LaRA与Self-Critique方法结合使用时，在Eurus模型上ROC-AUC达到0.73，且随着训练推进进一步提升至0.79。

来源：互联网

上一篇 小米寻天SUV谍照曝光：双车型，大号配升降车顶 下一篇 黄仁勋Arm新品股价飙升，AI PC市场深度解读

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。