其他资讯

Search-R2重构推理：腾讯混元联合MBZUAI与港中文，将纠错融入策略空间提升搜索增强学习

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

针对搜索增强推理中的错误传播与信用分配难题，本研究提出Search-R2框架，将纠错机制融入

大语言模型近年来的性能飞跃，很大程度上依赖于“规模扩展”范式——不断增加参数与数据量。然而，当模型从演示环境走向实际应用，承担研究分析、信息检索乃至复杂决策支持等角色时，这一范式的局限性便暴露无遗。

现实任务通常要求模型在开放领域进行多轮检索与链式推理，“搜索增强生成”因此成为主流方案。但一个核心挑战随之凸显：模型在长链条推理中失败，往往并非源于逻辑能力的欠缺，而是无法有效管理错误在推理过程中的“产生”与“级联传播”。

真实世界的检索结果必然包含噪声。一旦某次早期搜索采纳了有偏差或无关的信息，后续推理便可能在错误的语义路径上持续深入，最终生成一个内部逻辑自洽但完全偏离事实的答案。问题在于，主流训练方法通常仅以最终答案的正误作为优化目标。这导致那些凭借运气拼凑出正确答案的轨迹，与每一步都严谨可靠的轨迹，获得了同等的奖励。长期来看，模型对推理中途的搜索质量与错误约束力反而被削弱了。这也解释了为何在多轮检索与多跳推理任务中，性能衰退往往呈现系统性特征。

针对这一核心瓶颈，来自MBZUAI、香港中文大学与腾讯混元的联合研究团队，提出了《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。

这项工作直指搜索增强推理中的两个根本难题：长链决策中的信用分配困境，以及推理中途的纠错机制缺失。通过将推理生成、轨迹评估与错误定位整合进一个统一的强化学习框架，该方法使得训练信号能够精准回溯至错误首次发生的位置，从而从源头抑制错误的扩散。

在AI智能体正从“能力演示”转向“任务交付”的关键阶段，这项研究的价值，不在于提供了一个复杂的工程技巧，而在于为搜索型智能体指明了一种更贴近真实失败模式的学习范式：它不再假设推理过程天生可靠，而是坦然承认错误不可避免，并让模型在训练中学会如何识别、定位并修正这些错误。

构建完整机制，而非依赖单一技巧

从实验结果来看，该方法带来的优势不仅体现在整体性能的平均提升上。更关键的是，在任务复杂度最高、错误最易累积并放大的场景中，其表现尤为突出。

实验涵盖了简单事实问答与复杂多跳推理两大类任务。前者通常只需一两次检索即可解决，而后者必须经历多轮“搜索-推理-再搜索”的循环，其中任何单一步骤的偏差都可能在后续环节被指数级放大。

数据显示，该方法在两类任务上均实现了稳定增益，但在多跳推理任务上的提升幅度显著更大。在HotpotQA、2WikiMultiHopQA和Bamboogle这类需要多轮检索协同推理的数据集上，相比基线方法带来了数个到十余个百分点的准确率提升，在Bamboogle数据集上的相对提升幅度甚至超过了二十个百分点。

这强烈表明，其优势并非源于更强的参数记忆能力，而是源于对长链推理过程中错误传播的有效管控。研究团队指出，多跳推理的失败，往往不是因为模型无法生成最终答案，而是中途某次检索引入了错误或无关信息，导致推理方向发生根本性偏移。此后即便继续搜索，也只是在错误的语义空间中无效循环。该方法正是针对这一典型失败模式进行设计，因此其优势在此类任务中被显著放大。

为深入验证，研究团队与“拒绝采样”策略进行了对比。他们甚至大幅提高了基线方法的采样预算，允许每个问题尝试更多次。但结果显示，即便在此条件下，基线方法的整体性能仍然低于该方法在较小采样预算下取得的结果。

这一对比清晰地证明，性能提升并非来自“多次尝试博取概率成功”的统计收益。关键在于能否准确识别错误首次出现的位置并进行针对性处理，而非单纯提升整体轨迹质量的上限。拒绝采样在生成失败后会丢弃整条轨迹重来，而该方法则认为，失败轨迹的前半部分往往仍然正确且有价值，真正导致崩溃的通常是某一次具体的搜索操作。这次搜索引入的噪声会在后续推理中持续放大，从而使得两种策略在长链推理任务中的样本效率产生了数量级差异。

那么，性能提升具体源于何处？通过系统的消融实验，各个核心模块的作用被清晰揭示：

仅引入中途纠错机制（而不加入过程奖励），模型在多个数据集上的性能就已出现显著提升。这说明，对推理过程中的关键错误进行定位和修复，本身就能解决搜索增强推理的核心瓶颈。

在此基础上，加入用于量化搜索结果信息密度的过程奖励后，模型性能得到进一步优化。这表明，显式地区分高质量搜索与低质量搜索，能为训练过程提供更稳定的优化方向。

最终，在对推理生成模块与纠错模块进行联合优化的完整设置下，模型在所有评测数据集上取得了最优结果。这证明，纠错能力并非一套静态规则，而是一种需要在训练过程中被逐步学习和内化的动态策略。

整体而言，该方法的性能提升并非源于某个单一技巧或额外计算量的堆砌，而是由“中途纠错”、“搜索质量建模”和“联合优化”共同构成的完整协同机制所带来的结果。

将纠错决策纳入策略空间

在方法设计上，研究团队首先指出了一个根本问题：在搜索增强推理任务中，仅依赖最终答案的正误作为强化学习的奖励信号，会导致系统性失效。

原因在于，在此类任务中，模型实际上需要连续做出多尺度决策：是否发起搜索？搜索什么查询词？何时进行搜索？获得检索结果后，是否应该信任并使用这些信息？然而，传统强化学习只提供一个“最终答对或答错”的单一稀疏反馈信号，根本无法区分这些中间决策的质量差异。其结果是，那些靠运气在最后阶段拼凑出正确答案的推理轨迹，与那些逻辑严密、搜索路径合理的轨迹，获得了完全相同的奖励。

长期训练后，模型自然会学到：搜索行为可以随意展开，早期错误不会受到实质性惩罚，只要最终答案能生成就行。这正是现有搜索增强方法在长链推理任务中容易发生系统性性能崩溃的根源。

基于这一洞察，研究团队在方法中对不同功能进行了明确分工：

推理生成模块负责像常规方法一样，完整生成一条包含推理与搜索行为的轨迹。该模块被允许在生成过程中进行探索甚至犯错，不承担中途自检或修复的职责。

随后引入的纠错模块，其首要任务是对整条推理轨迹进行判断。它关注的重点并非最终答案是否正确，而是推理过程是否仍然紧扣原始问题，是否出现了明显的实体偏移、主题漂移或证据错位。这一判断决定了轨迹是否值得继续修复——标准过于宽松，错误轨迹会被放过；过于严格，高质量轨迹又会被反复打断。这个接受与拒绝之间的平衡点，并非由人工设定，而是通过强化学习过程自动习得的。

当轨迹被判定为需要修复时，系统会进一步定位推理过程中第一次发生实质性偏离的位置——即，具体是哪一次搜索或推理操作，将整个系统带离了正确的轨道。

一旦这个位置被识别，系统会完整保留此前已经生成的正确推理前缀，丢弃其后被污染的内容，并从该点重新生成后续推理。这样做，既避免了浪费已有的正确信息，又使得奖励信号能够精确回传至错误发生的位置，促使模型逐渐学会识别哪些搜索错误最具破坏性并应主动避免。研究人员在理论分析中将这种错误定位能力形式化为“修剪能力”，并证明它是整体性能提升的必要条件。

为了防止模型学会“只修正结果而忽视错误根源”的投机行为，研究团队在训练中进一步引入了过程层面的奖励信号，用于衡量检索到的证据中有多少是真正支持最终答案的有效信息，而非噪声。同时明确规定，该过程奖励仅在最终答案正确的前提下才会生效。这就保证了，搜索质量是达成正确答案的必要条件，但不足以单独驱动优化目标。

最后，推理生成模块、轨迹判断模块和错误定位模块并非相互独立，而是共享同一套参数，并在同一强化学习目标下进行联合优化。这意味着，“是否触发纠错”以及“在何处纠错”，本身都被视为策略决策的一部分。其结果是，模型在训练完成后，即便不显式触发多次修复，其初始生成的推理轨迹质量本身也得到了显著提升。

一种直面真实失败模式的学习范式

从强化学习的视角看，这项研究解决的并非某个单一模块或训练技巧的问题，而是搜索推理中长期存在的信用分配难题。在长链决策过程中，模型需要在多个时间尺度上连续做出选择，而传统方法只能依据最终结果进行粗颗粒度的回报分配，导致无法区分高质量推理轨迹与依赖偶然性的成功轨迹。

研究团队通过引入轨迹筛选、错误定位和受控纠错三种机制，将原本难以处理的信用分配问题，拆解为一系列可操作、可优化的学习目标。理论分析证明，只有当模型能够区分哪些轨迹值得保留、能够定位导致推理偏离的关键错误位置，并在训练过程中触发数量适当的纠错操作时，整体性能才会获得稳定提升。这一结论并非简单的经验归纳，而是通过形式化分析给出的必要条件。

在方法论上，该研究进一步改变了以往“反思与修正”主要依赖人工提示的做法，将“是否进行反思”以及“在何处进行修正”都纳入了模型的策略空间，使其成为可以通过强化学习直接优化的决策行为。这从根本上避免了人工提示不可学习、效果不稳定的问题。

更重要的是，这个方法的设计直接针对真实智能体任务中常见的失败模式：搜索结果本身存在噪声、推理过程依赖较长的决策链条、早期一次错误可能对后续产生不可逆的影响。通过在推理过程中显式地建模错误传播，并提供有效的中途干预机制，这项研究为搜索型智能体在复杂任务中的稳定、可靠运行，提供了一种更具针对性和实用性的解决思路。

Search-R2 的研究者们

这篇论文的第一作者是何博威，他目前在MBZUAI的机器学习系担任博士后研究员，合作导师是刘学教授。此前，他是香港城市大学计算机科学系的博士研究生，师从马辰教授。他的研究方向涵盖数据挖掘、大语言模型、AI for Science（曾与清华/香港城市大学马维英教授团队合作）以及AI智能体。

近期，他的研究焦点主要围绕AI智能体的一系列前沿探索性课题，包括智能体强化学习、智能体记忆、长时程智能体、智能体终身演化、智能体世界模型，以及智能体数据的Scaling Laws等。

这篇文章的共同第一作者是Minda Hu，目前是香港中文大学计算机科学与工程系的博士研究生，在MISC Lab从事研究工作，导师为金国庆教授。他的研究兴趣主要包括数据挖掘、机器学习和自然语言处理，并特别关注机器学习、社会计算与自然语言处理等方向的交叉问题。当前的研究重点在于探索如何更高效、有效地利用大语言模型，以提升模型在实际应用场景中的推理能力与整体效能。

此外，该项工作还得到了麦吉尔大学、香港城市大学和爱丁堡大学等多位研究者的参与和贡献。值得一提的是，该论文标题“Search-R2”还得到了来自UIUC和Google的“Search-R1”作者团队的官方授权。

来源：互联网

上一篇 ICLR 2026精选：北大团队自适应时序预测损失方法解析 下一篇 商汤SenseCore获工信部安全认证：首批优秀级软件供应链榜单解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Search-R2重构推理：腾讯混元联合MBZUAI与港中文，将纠错融入策略空间提升搜索增强学习

摘要

构建完整机制，而非依赖单一技巧

将纠错决策纳入策略空间

一种直面真实失败模式的学习范式

Search-R2 的研究者们

相关文章推荐