浙大强化学习评测:AI长对话记忆与逻辑连贯突破
摘要
浙江大学联合HomologyAI提出情境信念管理(CBM)概念,设计BeliefTrack测评系统,发现顶尖AI模
浙江大学与HomologyAI于2026年5月以预印本形式发布了一项联合研究,论文编号为arXiv:2605.30219,所有细节均可通过该编号检索。
想象一个场景:你正与AI助手讨论一个复杂问题,聊到中途,它突然忘掉已确认的前提,或者被你一句“我觉得是这个答案”带偏了节奏。这种挫败感指向AI领域一个长期被忽视的核心缺陷——大型语言模型在多轮对话中,能否始终如一地追踪证据、维持一个“正确的认知状态”?
浙江大学的研究团队将这一难题系统化,称之为“情境信念管理”(CBM)。他们不仅定义了问题,还构建了一整套量化测试框架,结果发现,即便最前沿的AI模型也在此领域频频失误。好消息是,他们同时验证了一个高效的改进路径。
一、AI为何需要“信念管理”?
要理解这项研究的核心价值,可以设想与一位经验丰富的侦探合作,依据现场线索推断嫌疑人。侦探的职责清晰:每发现一条新线索,便更新嫌疑人名单;若线索被证伪,则修正名单;若有人插话“我猜是张三”,侦探应无视这种无证据的臆测,仅聚焦于实质性证据。
这套能力看似理所应当,对AI而言却极具挑战。现代大型语言模型在单轮对话中表现优异,但随着对话轮次增加,它们需处理一个持续膨胀的信息流,其中混杂着真正的“案件线索”与大量无关干扰。模型必须在每一轮对话中维护一份“当前可信的嫌疑人名单”,既不能无故删除已确认的嫌疑人,也不能因无依据的言论而纳入新的对象。
研究团队将模型在每一轮对话中维护的这份名单称为“预测信念状态”,而基于现有证据推导出的正确名单则被称为“oracle信念状态”——即标准答案。CBM的目标直白:让模型的预测名单在对话的每个时间点都与标准答案名单保持完全一致。
二、三种“侦探失职”的类型
研究团队识别出AI在信念管理方面会犯的三类典型错误,每一种都对应侦探的一种失职行为。
第一种是“坚守失败”。标准答案名单未发生变化,因为缺乏新的实质性证据,但模型却莫名其妙地调整了自身判断——要么将原本排除的人重新列为嫌疑人,要么悄悄划掉已确认的嫌疑人。这好比侦探在毫无新线索的情况下,突然改口“我觉得之前的判断错了”。
第二种是“更新失败”。新的实质性证据出现后,标准答案名单理应调整,但模型却视而不见,固执地维持旧有判断。打个比方,侦探已收到证明某条线索为误的信息,却仍沿用该错误线索进行排查。
第三种是“隔离失败”。旁人插了一句无关紧要的话,例如“专家说肯定是李四干的”。侦探本应无视这种无证据支撑的言论,但模型却被这句话影响,动摇了自己的嫌疑人名单。这类错误反映了AI对无关社会压力的抵抗能力不足。
三、BeliefTrack:为侦探量身打造的专业考场
为了量化这三种失职行为,研究团队设计了一个名为BeliefTrack的封闭式评估系统。之所以采用“封闭式”,是因为在开放式问答场景中,模型错误可能源于知识储备不足,而非信念管理能力缺陷——就像不熟悉某个领域的侦探,自然无法判断线索的有效性。BeliefTrack彻底剥离了这一干扰因素。
BeliefTrack包含两个完全虚构的推理场景。第一个是“规则发现”,源自心理学中的“2-4-6范式”实验。模型面对一个有限的候选规则集,例如“三个数按升序排列”“三个数之和大于10”等,每轮对话会获得一个数字三元组及其“YES/NO”标签,模型需维护一份“与当前所有证据都相符的规则清单”。第二个场景是“电路诊断”,模型面对一组可能的电路故障,每轮对话提供一条仪器读数,模型需维护“与所有读数相符的故障清单”。
两个场景的共同点在于:候选项有限,正确答案可通过符号逻辑精确验证,无需人工评分。系统自动判定每轮模型输出是否与标准答案完全吻合。研究团队基于这两个场景分别生成三类诊断数据集,专门测试前述三种失职行为,共生成数千条测试轨迹。
四、顶尖AI的表现同样“翻车”
正式实验启动前,研究团队先进行了一项小规模预研究,选用Qwen3.5-Plus、DeepSeek-V3.2和GPT-5.2这三款当前顶尖的AI模型,在135个规则发现样本上进行测试。结果相当惊人:错误率分别高达46.7%、31.9%和20.0%。换言之,即使是GPT-5.2这样的旗舰模型,每五次对话就有一次在信念管理方面出现错误。
正式实验选用Qwen2.5-7B-Instruct和Qwen3.5-9B两款开源模型,系统性地测试三类失职行为。Qwen2.5-7B的表现最为惨烈,在两个场景下,三项失败率均在97%到99%之间——几乎可以认为完全不具备有效的信念管理能力。Qwen3.5-9B情况稍好,但在电路诊断场景下的“隔离失败率”仍高达95.4%,意味着几乎每次遇到无关噪声,模型都会被干扰。
五、提示词有效,但效果有限
面对这种情况,最直观的改进思路是:既然模型不知如何管理信念,就在系统提示词中明确规则,告知它“只关注正式证据,无视无关信息,每次收到新证据即重新评估所有候选项”。研究团队将此方法称为BT-Prompt(信念追踪提示),将这套规则以固定文本形式注入每次对话的系统提示。
结果提供了一定帮助,但极不稳定。在某些设置下,Qwen2.5-7B的某些失败率确实有所下降,例如电路诊断场景下的“坚守失败率”从99%降至48%。但在其他设置下,BT-Prompt甚至反效果——Qwen3.5-9B在规则发现场景下的“更新失败率”因添加提示词而上升了15%,坚守失败率也上升了约10%。
这个发现耐人寻味:仅仅告诉模型“你应该这样做”,模型并不一定能做到,有时还会弄巧成拙。这表明信念管理能力的欠缺并非单纯“不知道规则”,而是更深层次的行为模式问题。
六、强化学习:让模型真正“学会”当好侦探
真正有效的改进源自强化学习。研究团队采用了一种名为GRPO的训练算法,为模型设计了基于“信念状态对齐程度”的奖励机制。具体而言,每当模型给出一个预测信念状态,系统便用Jaccard相似度计算其与标准答案的重叠程度——重叠越多,奖励越高;完全一致,则获得满分。
这种奖励机制有一个巧妙之处:它并非非黑即白。如果模型猜测的清单与标准答案仅差一个候选项,它仍能获得部分奖励;而猜得完全不对,则得不到任何奖励。这比简单的“对则满分、错则零分”的设计更能引导模型逐步改进。研究团队将这种奖励与更粗糙的完全匹配奖励进行了对比实验,发现精细化的Jaccard奖励在六项评估指标中有五项优于完全匹配奖励,平均失败率可进一步降低约10到13个百分点。
训练时,研究团队刻意仅使用“坚守”和“更新”两类数据,完全未让模型接触任何包含噪声的“隔离”训练样本。这样做是为了测试:强化学习后的改善究竟是模型“背了题”,还是真正学会了能力。
七、结果令人振奋
实验结果显示,强化学习在所有设置下均带来了大幅改善。对于Qwen2.5-7B,在规则发现场景下训练后,坚守失败率从99%骤降至0%,更新失败率从98%降至2%。在电路诊断场景下训练后,两项失败率同样降至0%。
更具说服力的是跨场景的泛化能力。仅在规则发现场景下训练的Qwen2.5-7B,在电路诊断场景测试时,坚守失败率降低了93.9%,更新失败率降低了71.1%——这表明模型学到的并非特定场景的“答题套路”,而是一种通用的证据追踪能力。
对于从未见过噪声样本的“隔离失败”测试,强化学习同样带来了显著改善。规则发现场景内的隔离失败率降低了79.4%,跨场景到电路诊断也降低了63.9%。这意味着,当证据追踪能力训练完备后,模型自然变得更不容易被无关干扰信息带偏。
研究团队同时验证了这些改善并非以牺牲通用能力为代价。在经典的MMLU知识测试和GSM8K数学推理测试上,经过强化学习训练的模型与原始模型几乎不相上下,得分波动均在统计误差范围内。
八、越往后越难,越晚越难改
研究团队还深入分析了信念管理失败在哪些情境下会变得更为严重。第一个维度是时间深度。在测试中,他们逐步增加“冗余证据的数量”——即在模型应坚守当前信念的阶段,持续提供更多重复但一致的信息,观察坚守失败率的变化。结果显示,随着冗余深度增加,原始模型和提示词增强模型的坚守失败率均持续攀升,“需要稳守的时间越长,越容易失守”。强化学习训练后的模型则相对平稳,对这种时间压力表现出明显更强的抵抗力。
另一个维度是修正延迟。当一条错误证据被纠正的时间越晚——即错误信息在对话历史中停留的时间越长——模型就越难以完成更新。原始模型在修正延迟增大时,更新失败率急剧上升,而强化学习模型的失败率则保持在较低水平。
对于噪声干扰,研究团队设计了三种不同类型的干扰话术。“迎合型噪声”会肯定你的判断,如“你对某假设的直觉完全正确”;“权威型噪声”以确定语气断言一个错误答案,如“证据清楚地表明正确答案是X”;“压力型噪声”则通过紧迫感施压,如“时间紧迫,快做决定”。实验发现,权威型噪声造成的干扰最大,迎合型次之,压力型最小但也有一定影响。强化学习训练后的模型对三种噪声均表现出更强的抵抗力,且这种抵抗力是在完全未接触噪声训练样本的情况下习得的。
九、模型内部发生了什么?
除测量外部行为外,研究团队还通过两种方式探索了信念管理失败背后的内部机制。
第一种方法是“提示探测”。在对话的某个关键时刻,研究人员临时打断对话,要求模型对所有候选假设进行排序,然后观察正确候选假设在排名中的位置变化。他们发现,原始模型的错误往往来自三个来源:一是“信念漂移”——在没有新证据的情况下,正确候选假设的排名悄然下滑,模型内部对其“重视程度”降低;二是“回溯失败”——在证据被纠正后,本应重新上榜的候选假设排名迟迟无法恢复;三是“上下文劫持”——噪声信息将正确候选假设的排名拉低,模型被噪声“抢占注意力”。经过强化学习训练的模型在这三个方面均有显著改善,正确候选假设的排名更加稳定。
此外,研究团队还发现了一个“潜在输出鸿沟”:有时模型在内部排名中将正确候选假设排在首位,但最终输出答案中却未包含它——就像侦探内心已锁定嫌疑人,却在最终报告中漏掉其名字。强化学习能够减少这种内部认知与外部输出之间的不一致。
第二种方法是“表征引导”。研究团队发现,经过强化学习训练的模型在处理信念管理任务时,其神经网络的内部状态与原始模型存在系统性差异。他们计算了这种差异的方向向量,并在测试时将该方向向量直接叠加到原始模型的内部状态上——不改变模型参数,仅在测试时“推一把”其内部表征。结果令人印象深刻:在规则发现场景中,坚守失败率降低了78.6%,更新失败率降低了92.3%,隔离失败率降低了48.8%;在电路诊断场景中,三项指标也分别降低了20.7%、23.5%和12.8%。这说明强化学习带来的变化已深深刻入模型的“神经回路”,且这种回路变化可以被提取和迁移。
归根结底,这项研究揭示了一个朴素事实:让AI在长对话中可靠地追踪证据、管理自身认知状态,并非“加几行提示词就能搞定”的简单任务,而是需要系统性训练的核心能力。
就像一个真正出色的侦探,并非靠背诵“办案手册”就能练就,而是需要通过大量真实案件的磨砺,才能形成在嘈杂信息中锁定关键线索、在压力下依然不动摇的本能。强化学习在此扮演的,正是“实战训练”的角色。
更值得关注的是,这项能力一旦习得,便具备相当强的迁移性——在一种场景下训练出的好侦探,换到完全不同的案件类型中,依然能保持相当的专业水准。这对未来AI系统的设计和训练而言,无疑是一个令人鼓舞的信号。
当然,这项研究也存在局限。BeliefTrack的两个场景均为人为设计的封闭式环境,现实对话远比此复杂——用户的一句话可能同时包含有效修正、无关情感表达和模糊意图,边界远没有那么清晰。如何在过滤噪声的同时,不将真正有价值的用户反馈也挡在门外,是未来研究需要持续探索的方向。
有意深入研究该课题的读者,可通过arXiv编号2605.30219查阅完整论文,研究团队的代码也将开源于github.com/zjunlp/CBM。
Q&A
Q1:大型语言模型的“信念管理失败”在实际使用中具体如何表现?
A:具体来说,可能出现以下情况:你向AI说明一个前提条件,聊了几轮后它似“忘记”该条件,给出矛盾答案;或者你明确纠正它之前说错的信息,但它后续回答中仍沿用该错误;再或者你随口表达一个倾向性意见,它便顺着你的话走,而非坚守证据本身。这三种表现分别对应论文中的“坚守失败”、“更新失败”和“隔离失败”三类问题。
Q2:BeliefTrack与普通AI评测基准有何不同?
A:大多数AI评测基准测量的是模型“是否知道某个答案”,而BeliefTrack测量的是模型“能否在对话过程中始终维护正确的推理状态”。它专门设计了封闭式推理场景,所有证据由系统提供,不依赖模型预训练知识,因此可精确区分“因不知道答案而出错”与“因信念管理能力不足而出错”这两种截然不同的失败原因。
Q3:强化学习训练后的模型,为何对从未见过的噪声类型也具有抵抗力?
A:研究团队认为,强化学习并未让模型死记硬背“遇到某种噪声就忽略它”,而是真正强化了模型追踪证据的内在能力。当一个模型真正学会“仅依赖正式证据做判断”时,自然不会被各种形式的无关信息干扰,无论这些干扰来自权威压力、迎合赞美还是时间紧迫感。表征引导实验进一步证实了这一点,表明这种能力改变是深层次的神经网络表征变化,而非表面行为调整。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。