其他资讯
最新机器推理能力提升突破:Salesforce AI研究院师生共进详尽效果评测报告
摘要
Salesforce AI Research主导的这项研究以预印本形式发布于2025年5月,论文编号为arXiv:2605 15113。
Salesforce AI Research主导的这项研究以预印本形式发布于2025年5月,论文编号为arXiv:2605.15113。对技术细节感兴趣的朋友,可以通过该编号在arXiv平台找到完整的论文全文。

一次关于"如何让AI越学越聪明"的思考
先设想一个日常场景:你正在解数学题,做错之后老师只甩下一句"错了",没有任何解释。下次遇到同类题目,你依然不知道问题出在哪——这种挫败感是否很熟悉?当前主流的大模型训练方法,恰好面临同样的困境。 目前让大语言模型变得更聪明的核心方法叫"基于可验证奖励的强化学习",说得通俗点就是"答对了给糖吃,答错了什么也不说"的训练模式。AI写了一大段推理过程,最后答案对了得一分,答案错了得零分,仅此而已。不妨想象一下这个画面:一位学生写了一整页推导,最后一步计算失误,结果却和那个连题目都没读懂的同学一样拿了零分。这种"只看结果、不看过程"的打分方式,让AI在遇到复杂题目时几乎寸步难行——它完全不知道错在哪里,只能像个无头苍蝇一样反复随机尝试,效率低得可怜。 Salesforce的研究团队敏锐地察觉到,在现实世界中,失败其实携带了大量信息。程序报错会给出详细的错误提示;解题过程出问题时,可以对照标准解法一步步找出偏差;甚至AI自身也能对自己的错误进行复盘和反思。这些文字性的反馈信息,显然比一个干巴巴的"0分"要丰富得多。于是,一个核心问题浮出水面:能不能让AI从这些文字反馈中真正学到东西,而不是只依赖最终的对错标签? 这个想法不算新颖。此前已有一些方法尝试让AI利用文字反馈,其中有一类叫"自蒸馏"的方法颇为巧妙——让AI既当老师又当学生。具体操作是:把错误提示或正确示范作为额外信息告诉AI,让它基于这些提示去预测下一步该怎么做,然后再把这种"带着提示的AI"的行为模式,教给"不带提示的AI",让后者在没有提示的情况下也能做到更好。可以把这个过程比喻为:一位知道菜谱的厨师在厨房里炒菜,另一位不知道菜谱的厨师站在旁边观摩,然后尝试复现对方的每一个动作。 但Salesforce的团队很快发现,这类方法有一个根本性的天花板:那位"知道菜谱的厨师"从没接受过任何训练,他的水平从头到尾都是固定的。随着"不知道菜谱的厨师"越来越得心应手,"知道菜谱的厨师"却始终在原地踏步,最终再也教不出什么新花样。这正是现有方法失效的核心原因。 Salesforce团队提出的解决方案叫做**变分策略蒸馏**(VPD,Variational Policy Distillation)。他们的核心洞察其实很朴素:老师和学生应该一起成长。在这个框架里,老师不再是那个静止不动的参照物,而是一个会不断被优化、越来越善于解读反馈信息的动态存在。随着学生的进步,老师也在进化,两者相互促进,最终形成真正的"教学相长"。 --- 一、AI训练的"只看结果"困境 要理解VPD的价值,必须先搞清楚现有方法为什么会在复杂任务上撞墙。 当前主流的强化训练算法,比如GRPO,本质上就是让AI反复尝试——答对了就强化这种行为,答错了就削弱这种行为。这个逻辑在简单任务上效果很好,但一遇上复杂的推理任务就容易出问题。原因很简单:对于真正困难的题目,AI一开始几乎不可能答对。如果每次尝试都是零分,算法就完全不知道该朝哪个方向调整——所有的错误看起来都一样糟糕,没有任何信号帮它区分"差一点点就对了"和"完全跑偏了"这两种截然不同的情况。 研究团队用一个非常精准的词来形容这种困境:"探索瓶颈"。AI就像一个在漆黑一片的迷宫中找出口的人,无论走哪条路都看不到丝毫光亮,最终只能无头苍蝇般乱撞,效率可想而知。 相比之下,文字反馈就像给那个在黑暗中摸索的人递上一支手电筒。编译器报错会告诉你第37行的变量类型不匹配;参考答案会提示你在第三步漏掉了一个负号;AI评论员会指出你的推理在第二个假设处已经出现了逻辑跳跃。这些信息不光告诉你"错了",而是清楚指出"在哪里错了,为什么错"。 已有的自蒸馏方法(比如SDPO)的思路是:把文字反馈塞进AI的输入里,让AI在"知道反馈"的状态下进行预测,然后把这种预测当作"老师",用它来指导"不知道反馈"的学生版AI。这样一来,学生在训练阶段就能获得比"0或1"丰富得多的指导信号——每个词、每个步骤层面的细粒度反馈。 但问题就在这里:这个"老师"从来没有人专门训练过它如何解读反馈。它只是被动地把反馈当作额外输入,然后靠着预训练阶段练出来的能力去理解。随着学生越来越强,老师那点"零样本理解反馈"的能力就越来越捉襟见肘,最终给出的指导越来越没用,学生的进步也随之停滞。 --- 二、让老师和学生一起成长的核心思路 VPD的设计哲学可以用一句话概括:与其让老师被动地接受反馈,不如主动训练老师去更好地解读反馈。 研究团队把这个问题封装进一个叫"变分期望最大化"的数学框架。为了方便理解,还是拿厨房场景来说事。目标是要培养出一位顶级主厨(理想的AI策略),但这位"顶级主厨"是个抽象概念,永远无法直接观察。于是引入两位角色:一位"指导厨师"(老师模型)和一位"学徒厨师"(学生模型)。 整个训练过程像钟摆一样在两个步骤之间来回切换。第一个步骤是"提升指导厨师"(E步骤,即期望步骤):观察学徒做过的所有菜品,以及每道菜的评价(成功或失败),再加上具体的文字反馈(比如"这道菜太咸了,因为你在步骤三加了两勺盐"),然后专门训练指导厨师,让他越来越善于根据这些文字反馈来区分好菜和坏菜。第二个步骤是"让学徒学习"(M步骤,即最大化步骤):让学徒观察这位已经变得更厉害的指导厨师,学习他在每一步操作上的判断和决策,把这些知识内化到自己身上,争取以后不需要额外提示也能做出好菜。 这两个步骤反复交替:指导厨师变得更厉害了,就能给出更好的指导;学徒变得更厉害了,他做出来的菜(无论成功还是失败)又为指导厨师提供了更丰富的学习素材,推动指导厨师继续进化。两者真正进入共同成长的良性循环。 --- 三、"提升老师"这一步是怎么做到的 E步骤是VPD最核心的创新点,也是它区别于所有既有方法的关键所在。 回到数学框架中,研究团队证明了:训练老师(指导厨师)的目标,可以等价为让老师的行为尽可能地接近一个"理想的奖励加权分布"。通俗点说,老师应该倾向于产生那些实际上能带来正确结果的答案,同时避开那些会导致错误结果的答案。 这个目标在数学上可以转化为一个标准的强化学习问题。但问题在于,如果直接用强化学习来训练老师,那就又绕回了"探索瓶颈"的老路上——老师也得自己去反复随机尝试才能找到正确答案。为了避免掉进这个坑,研究团队走了一条巧妙的迂回路线:老师不需要自己去探索,而是直接利用学生已经生成的轨迹。学生在练习过程中产生了大量尝试(有成功也有失败),这些尝试连同对应的文字反馈,就成了训练老师的现成材料。 具体的训练方法叫"无配对偏好优化"(BCO,Binary Classifier Optimization)。通常的偏好训练需要在完全相同的条件下比较两个答案的好坏,但在VPD的设定里,每个学生尝试都对应着一份独特的文字反馈,不同尝试的反馈各不相同,根本无法直接配对比较。BCO的聪明之处在于,它把"比较两个答案"这个需求拆解成两个独立的问题:对成功的尝试,让老师学会"给高分";对失败的尝试,让老师学会"给低分"。两端分别优化,不需要强行配对。 还有一个关键设计叫"动态参考基准"。在普通的偏好训练中,老师的评分是相对于一个固定的初始模型来打的。但VPD把这个基准动态设置为当前的学生模型。这样一来,老师的目标分布就和学生的当前状态紧密绑定:老师被训练成在学生现有能力的基础上再往前走一步,而不是向着一个遥远的、学生根本够不着的理想目标猛冲。从数学角度看,这相当于给老师的优化施加了一个"信任区域"约束——老师不能离学生太远,它的指导必须是学生实际上能够学习和吸收的。 这个设计还有一个有趣的理论内涵:从另一个角度观察,这个E步骤的优化目标相当于"最大化老师分布的期望奖励,同时惩罚老师分布与当前学生分布之间的偏离程度"。换句话说,老师被明确约束在学生能理解的范围内,这从根本上保证了后续M步骤的稳定性——老师给出的目标,学生总是能够接近和学习的。 --- 四、"让学生学习"这一步的具体机制 M步骤相对直观一些。经过E步骤的优化,老师已经是一个更好理解反馈的模型。接下来要做的,就是把老师掌握的知识转移给学生。 转移的方式是让学生的每一步预测,尽可能接近老师在同一步骤上的预测。这种接近是在词汇层面上的——不只是最终答案对与错,而是每一个词的选择倾向是否与老师一致。这就像学徒不光模仿指导厨师最终做出来的成品,而是在炒菜的每一个动作上都力求复制导师的手法:加盐的时机、翻锅的力度、火候的掌控,无一遗漏。 学生学习的素材是自己生成的。在每个训练周期里,学生先自己去做题(生成答案),然后用这些自己生成的答案去和老师的预测做对比,从中学习。这种"在自家数据上学习"的方式,避免了一个常见问题:如果学生直接去模仿一个比自己强得多的外部模型,往往会因为差距太大而学得一知半解,就像一个初学者直接照着米其林大厨的菜谱操作,反而会做出四不像的东西。 在具体实现上,整个系统只用了一个神经网络。老师和学生共享同一套参数,唯一的区别在于输入:老师的输入包含文字反馈,学生的输入不包含。这个设计大幅节省了计算资源——不需要同时维护两个独立的大模型,内存开销减少了一半左右。而且,由于E步骤的信任区域约束保证了老师不会偏离学生太远,实践中甚至不需要使用复杂的重要性采样技术来修正学生数据的分布偏差——误差小到可以忽略不计。 研究团队还发现,E步骤和M步骤不需要以1:1的频率交替。在他们的实验中,每做一次E步骤(训练老师),就做五次M步骤(训练学生),效果最好。这个安排就像强化学习中的"目标网络"机制:给学生足够的时间去消化老师的当前水平,然后老师再向前迈一步。频率太高,老师还没等学生学明白就又变了,学生跟不上;频率太低,老师进步太慢,学生的素材开始变得陈旧,进步也会停滞。 --- 五、真实测试:效果到底怎么样 研究团队在多个任务和不同文字反馈来源上对VPD进行了测试,检验其实际效果。 第一个测试场景是代码生成,使用LiveCodeBench编程测评平台,测试模型是Qwen3-8B(关闭了"思考模式"的版本)。在这个场景里,文字反馈来自最自然的来源:程序运行时的报错信息。程序崩溃了,报错提示就是反馈;单元测试没通过,具体哪个测试用例失败就是反馈。这是最直接、最客观的文字反馈形式。 测试结果如下:原始模型通过率28.05%;单纯用强化学习(GRPO)训练后,提升到45.61%;单纯用自蒸馏(SDPO)训练后,提升到47.33%。研究团队还测试了三种把强化学习和自蒸馏混合在一起的方法——将两个损失函数加权求和、在优势值层面混合信号、用蒸馏信号重新加权优势值——结果令人失望:这三种混合方法的成绩分别是47.52%、46.95%和44.85%,要么平平无奇,要么比单纯的自蒸馏还差。而VPD的成绩达到了49.62%,明显高于所有其他方法。 更能说明问题的是训练过程曲线。研究团队监测了整个训练过程中老师对"成功尝试"和"失败尝试"打分差距的变化。用SDPO训练时,这个差距在初期有所扩大,但随后迅速收窄,最终几乎消失——说明老师已经分不清好坏了,给出的指导变成了噪声。而用VPD训练时,这个差距持续扩大,说明老师越来越善于区分高质量和低质量的尝试,一直在产生有价值的指导信号。 第二个测试场景是科学推理,使用的是SciKnowEval基准测试,覆盖生物、化学、材料和物理四个领域,在三个不同规模的模型上进行:Qwen3-1.7B、Qwen3-8B和OLMo3-7B-Instruct。在这个场景里,环境只返回对或错,没有任何文字解释。为了产生文字反馈,研究团队采用了一种叫做"对照兄弟轨迹"的方法:在同一道题的多次尝试中,如果某次答对了,就把这次正确答案的推理过程提供给老师作为参考,让老师在正确做法的对照下理解错误之处。 在Qwen3-1.7B上,VPD达到了74.34%的平均准确率,而GRPO是69.81%,SDPO是66.34%,三种混合方法中最好的也只有67.24%。在Qwen3-8B上,VPD达到77.15%,超过了SDPO的74.44%和GRPO的73.11%。在OLMo3-7B-Instruct上,VPD达到70.80%,同样领先于其他方法。 特别值得关注的是训练稳定性。那三种"混合方法"在训练过程中间出现了严重的不稳定——准确率忽高忽低,曲线像心电图一样剧烈波动。研究团队分析认为,根本原因在于同时用两种性质差异较大的信号(KL散度和强化学习优势值)去更新同一个模型,造成了"规模不匹配"——就像同时往一个杯子里倒热水和冷水,结果既不热也不冷,还可能把杯子弄坏。VPD将这两种信号在时间上分离开来处理,完全避免了这个问题,训练曲线单调上升,非常稳定。此外,普通SDPO还经常出现"后期退化"——训练到一定步数后,准确率开始下降。VPD彻底消除了这一现象。 第三个测试场景探索了一种更极端的情况:如果所有尝试都以失败告终,没有任何可以对照的正确示范,怎么办?研究团队让模型扮演自己的评论员,对自己的错误答案生成文字批评(只给出最终正确答案的字母,不给推理过程,让模型自己分析哪里出了问题)。测试结果显示,这种"自我批评"方式与"对照兄弟轨迹"方式效果相当,而VPD依然明显优于SDPO。在Qwen3-8B上,VPD以78.14%对74.87%的差距胜出。这个结果表明,即使没有任何外部参考,模型通过自我反思配合VPD的持续优化,仍然能够有效提升能力。 --- 六、VPD失灵的场景:诚实地面对局限 这项研究还做了一件非常值得敬佩的事:主动去测试VPD在哪些情况下行不通,并诚实地展示结果。 第一个考验是"冷启动"问题。最近有研究表明,对于一个还没有经过任何对话微调的"基础模型",直接用强化学习训练也能激发出复杂的推理能力。于是研究团队用Qwen3-4B-Base(一个未经指令微调的原始模型)来测试VPD。结果是:SDPO几乎立即崩溃,准确率迅速降至接近零;VPD大幅延缓了这种崩溃,展现出比SDPO强得多的鲁棒性;但最终效果还是不如纯强化学习(GRPO),后者在同一任务上达到了74.49%,而VPD只能达到63.95%。 研究团队对此的解释是:自蒸馏方法(无论VPD还是SDPO)都内在地依赖于模型已经具备一定的"读懂指令"能力。一个完全没有经过微调的基础模型,连如何理解和使用文字反馈这件事本身都还没学会,老师给出再好的指导也无从吸收。这不是VPD的算法缺陷,而是这类方法的本质边界:你得先能看懂菜谱,才能从菜谱里学到东西。 第二个考验是数学推理。在用DAPO-Math数据集训练并在Math500上评估时,SDPO出现了严重的训练崩溃;VPD再次成功延缓了这种崩溃,并在训练过程中保持了更长时间的有效性;但最终,纯强化学习GRPO仍然以83.8%的成绩胜出,VPD没能超越它。 研究团队对此的解释颇有见地:数学推理的特殊性在于它对中间步骤的正确性极为敏感,任何一处细微的错误都可能导致整条推导链崩塌。当老师提供的文字反馈本身不够精确,或者包含了轻微错误时,学生去模仿这种有瑕疵的推导过程,反而会固化错误的思维方式,结果比没有任何指导还要糟糕。而纯强化学习则不同——它只关心最终答案对与错,不会被中间过程的噪声干扰,因此在需要严格逻辑的数学推理上反而显得更为可靠。 这两个发现划定了VPD的适用边界:当模型已经具备基本的指令理解能力、任务本身对文字反馈的容忍度较高(比如科学问答和代码生成),VPD效果显著;而当模型处于从零开始的冷启动阶段,或者任务对推理精确性要求极高(比如竞技数学),纯强化学习仍然更为适合。 --- 七、调参经验:两个关键设计的验证 研究团队还通过系统实验验证了两个核心设计决策的重要性。 关于E步骤的更新频率,研究团队在Qwen3-1.7B上对比了三种设置:每做一次E步骤就做一次M步骤(F=1),每做一次E步骤就做五次M步骤(F=5,默认设置),以及每做一次E步骤就做十次M步骤(F=10)。结果非常清晰:F=5以74.34%的平均准确率明显胜出,F=1降至70.21%,F=10降至69.27%。更新太频繁,老师还没稳定就又变了,学生的学习目标一直在移动,无法有效收敛;更新太稀疏,老师的水平已经滞后于学生的进步,给出的指导越来越陈旧失效。 关于动态参考基准的重要性,研究团队对比了将参考基准固定在初始模型(固定基准)与动态更新到当前学生状态(动态基准)两种设置。结果非常具有戏剧性:固定基准不仅准确率低(67.84%对74.34%),而且训练曲线极不稳定,出现了剧烈的波动和反复。动态基准的训练曲线则稳定而单调地上升。原因在于:随着学生越来越强,它与初始模型之间的距离越来越大,如果老师的目标依然是相对于那个遥远的初始基准来优化,它给出的指导就会越来越脱离学生的实际状态,引发"指导方向"与"学生需求"之间的冲突,最终导致训练崩溃。 --- 八、为什么这项研究值得关注 说到底,VPD的意义不只是在几个基准测试上多了几个百分点。它提出了一个更有原则性的框架来思考"如何让AI从反馈中学习"这个问题。 以往的自蒸馏方法本质上是在用一个固定的、被动的工具去做一件需要主动适应的事情。VPD则把这个过程变成了一个动态的、自适应的过程——老师和学生共同进化,老师的进化保证学生始终有值得学习的目标,学生的进化为老师提供新的学习素材,形成一个真正的良性循环。 从更宏观的角度看,这项研究也为"AI能否在没有人类干预的情况下持续自我改进"这个大问题提供了一些实证线索。答案是:在一定范围内可以,而且方法得当的话效果相当可观;但这种自我改进并非无限的,对于需要极端精确推理的任务,来自外部环境的真实验证信号(对或错)目前仍然不可替代。 对于普通读者来说,这项研究的意义在于:未来AI助手的进步,不只是靠堆砌更多人类标注的数据,也可以来自让AI在自身的错误和反馈中不断学习。当AI能够更有效地从失败中提取教训,它就能在科学探索、软件开发、教育辅助等各种复杂任务上展现出更强的能力,最终惠及每一个使用这些工具的人。 感兴趣的朋友可以通过arXiv平台搜索编号2605.15113查阅原始论文。Salesforce AI Research团队在论文中提供了完整的数学推导、算法伪代码以及所有实验的详细超参数配置,对复现研究或深入理解细节都非常有帮助。 --- Q&A **Q1:变分策略蒸馏(VPD)和普通的自蒸馏方法(SDPO)最大的区别是什么?** A:最核心的区别在于老师模型是否会进步。SDPO里的老师是固定不动的,只是被动地把文字反馈加到输入里,靠着预训练时的能力去解读反馈,随着学生越来越强,老师就越发跟不上。而VPD通过E步骤主动训练老师,让老师专门学习如何根据文字反馈区分好答案和坏答案,老师和学生同步进化,老师始终能为学生提供有价值的指导信号,不会出现"老师跟不上学生"的尴尬局面。 **Q2:VPD在哪些任务上效果最好,哪些任务上不适合用?** A:VPD在科学推理(生物、化学、材料、物理)和代码生成任务上效果明显优于其他方法,因为这些任务的文字反馈相对丰富且容错性较高。但在竞技数学推理和未经指令微调的基础模型冷启动场景下,VPD虽然比普通自蒸馏更稳定,但仍然不如纯强化学习(GRPO)。根本原因在于数学推理对精确性要求极高,一旦老师给出稍有瑕疵的指导,学生照着学反而会固化错误思维方式。 **Q3:VPD需要两个独立的模型吗,计算成本高不高?** A:VPD只用一个共享参数的神经网络,老师和学生的区别仅在于输入里是否包含文字反馈,不需要维护两套独立的模型,大幅节省了显存。而且E步骤和M步骤共用同一批学生生成的数据,不需要额外采样,零额外验证成本。唯一的开销是E步骤的梯度计算,实测大约增加了30%到55%的训练时间。不过通过每五次M步骤才做一次E步骤的不对称频率策略,这个开销在实际应用中完全可以接受。来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。