其他资讯

2024年AI模型测评：GRPO在《时空谜题》中表现超越o1与o3-mini

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

OpenPipe采用GRPO强化学习方法，在《时空谜题》推理任务上训练开源模型。结果显示，经过调

OpenPipe近期发布的研究报告揭示了一项关键突破：其团队运用GRPO强化学习方法，在复杂逻辑推理任务《时空谜题》上，成功让开源模型的性能超越了包括DeepSeek R1、OpenAI o1及o3-mini在内的多个知名推理模型。这项由Ender Research的强化学习研究员Brad Hilton与OpenPipe创始人Kyle Corbitt主导的工作，不仅将模型与当前领先的Claude Sonnet 3.7之间的性能差距缩小至个位数百分比，更实现了超过百倍的推理成本优化。报告同时公开了完整的训练方案与从任务设计到超参数调优的实践洞见。

一、背景介绍

自OpenAI推出具有里程碑意义的o系列推理模型后，采用强化学习技术训练大语言模型已成为行业焦点。谷歌DeepMind、阿里巴巴、DeepSeek及Anthropic等机构相继推出了支持深度“思维链”推理的先进模型。通过在可验证问题上应用强化学习，传统基准测试的性能极限正被持续刷新。

然而，逻辑演绎能力仍是当前顶尖模型普遍存在的短板。多数大语言模型在核心环节存在缺陷：难以稳定追踪复杂细节、无法维持严密的逻辑推演链条，以及多步骤推理的可靠性不足。即便顶尖模型生成长度远超人类的输出，其中仍频繁夹杂着易于识别的基础性错误。

这引出了一个核心议题：规模较小的开源模型，能否借助前沿的强化学习技术，突破其在演绎推理上的瓶颈？研究团队正是基于此假设，从性能相对基础的模型入手，在一项全新的推理任务上启动迭代训练。随着训练推进，模型的推理能力呈现出清晰的上升曲线，最终性能甚至超越了部分先进的专有模型。

二、基准测试框架

确立一个答案明确、且具备足够挑战性的可验证推理任务，是实验的首要前提。研究团队恰好拥有一个完全符合要求的谜题集——“时空谜题”。该谜题集不仅满足事实真相可验证的标准，还能根据需求灵活生成新谜题，确保了测试的严谨性与扩展性。

“时空谜题”的设计灵感源于经典桌游《Clue》（即《Cluedo》）。它将原游戏中的多人推理转化为单人逻辑挑战，在保留“凶手、凶器、地点”三大核心要素的基础上，新增了“作案时间”与“作案动机”两个推理维度。谜题由算法随机生成，并利用OR-Tools的CP-SAT求解器进行线索筛选，保证了逻辑的严密性与多样性。

基准测试要求模型扮演侦探角色，从一段包含多重线索的叙事中推导出真相。为明确该推理任务的性能上限，研究团队对多个当前热门的推理模型进行了基准测试，包括DeepSeek R1、OpenAI的o1和o3-mini，以及Anthropic的Claude Sonnet 3.7。同时，他们也以14B和32B参数的Qwen模型作为性能基线。测试结果预览如下：

测试表明，在6.4万token的上下文条件下，Claude Sonnet 3.7表现最优。DeepSeek R1的性能与OpenAI的o1和o3-mini处于同一梯队。相比之下，未经调优的Qwen 2.5 Instruct模型则表现欠佳。

由此，核心问题得以明确：我们能否将这些规模较小、开放权重的模型，通过训练提升至前沿水平？答案是肯定的，关键在于方法论。

三、训练方法与过程

为实现前沿水平的推理能力，研究团队采用了强化学习训练范式。其核心逻辑是：引导大语言模型针对每个谜题生成多个回复，以探索不同的解题路径。对于导向正确答案的推理过程，给予正向奖励；对于将模型引向错误方向的推理，则实施惩罚。

在众多强化学习算法中，团队选择了DeepSeek模型所采用的GRPO算法。与PPO等传统方法相比，GRPO在表现出卓越性能的同时，显著简化了训练流程。

从宏观流程看，整个训练遵循以下核心步骤：

针对特定谜题，使用当前模型生成多个候选回复。
对这些回复进行评分，并为每组对话估算一个“优势值”，用以量化该回复优于平均水平的程度。
利用这些优势值，通过结果引导的裁剪策略梯度对模型进行微调。
使用新的谜题和更新后的模型版本，重复上述迭代过程，直至模型性能收敛至最佳。

在生成回复环节，团队采用了流行的vLLM推理引擎，并进行了细致的参数调优。他们发现，向vLLM发送过多并发请求会导致处理中的请求被抢占。为解决此问题，团队使用了一个经过调优的信号量来限制并发请求数，从而在保持较高键值缓存利用率的同时，最小化上下文切换的开销。

采样完成后，使用HuggingFace Transformers的AutoTokenizer处理回复。其聊天模板功能可将消息对象渲染为提示字符串，并生成一个“助手掩码”，用于标识哪些标记由大语言模型生成。团队发现这些模型的默认模板缺少必要的“生成”标签，因此在token化步骤中对模板进行了修正。最终得到的助手掩码被整合进用于调优的张量字典中，以明确计算损失的位置。

获得助手掩码后，便开始对数据进行“打包”以提升调优效率。除了在每个打包序列中包含多个提示和回复外，团队还识别出共享的提示标记，为每个标记分配“父ID”，并附上标准的“组ID”。对于像“时空谜题”这样平均每个谜题超过1000个标记的任务，为每个任务生成多个回复并高效打包张量，能大幅减少冗余。一旦所有必要信息打包完毕，训练数据集便能以二维形式直观呈现，每一行都是一个可能包含多个提示和回复的标记序列。

数据准备就绪后，调优正式启动。模型本身已完成预训练和指令微调，具备基础智能。虽然它们尚无法稳定解决谜题，但已具备偶然成功的能力。训练的目标是通过提高正确推理路径的概率，系统性地引导模型向“神探”水准迈进。在计算损失和调整权重时，采用的是策略梯度方法。

在训练基础设施方面，团队使用了PyTorch团队提供的Torchtune库。该库支持Llama、Gemma、Phi等主流模型架构。除了Qwen模型，团队也使用80亿参数和700亿参数的Llama模型进行了实验。Torchtune还提供了一系列节省内存和提升性能的工具，包括：激活检查点、激活卸载、量化，以及参数高效微调技术（如LoRA）。此外，它支持多设备和多节点训练，可结合全分片数据并行（FSDP）与张量并行（TP）。团队基于其提供的十多个训练配方进行定制，修改后的完整微调方案支持多设备/单设备训练、参考模型加载与权重交换（用于计算KL散度）、使用组ID和父ID进行高级因果掩码计算，以及GRPO损失的集成与组件日志记录。

强化学习训练离不开超参数的选择。在训练过程中，团队测试了多种配置，最终确定了以下核心参数组合：

模型： Qwen 2.5 Instruct 14B和32B版本。
每次迭代的任务数： 32个。
每个任务的样本数： 50个。
每次迭代总样本数： 32 × 50 = 1600个。
学习率： 6×10⁻⁶。
微批次大小： 对于14B模型为4个序列，对于32B模型为8个序列。
批次大小： 可变，取决于序列数量。

批次大小之所以可变，是因为训练过程中回复长度不一致。每次迭代的序列打包效率存在波动，且优势值为零的回复会被直接丢弃。团队曾尝试将学习率与批次大小动态地成反比调整，但这导致在小批次时学习率过高。经过上限处理后的版本，与使用恒定学习率相比并未显示出明显优势。不过，调整批次大小和学习率之间的关系，仍是未来值得探索的方向。

团队还进行了一项简短实验：在保持每次迭代总样本数大致相等的前提下，反向调整每次迭代的任务数和每个任务的样本数（即一个增加，另一个减少）。在较短的训练周期内，这些变化未产生显著差异，这表明训练配方对于任务数量与单任务样本量之间的不同配比具有强鲁棒性。

四、实验结果与分析

经过超过100次的迭代训练，模型成功达到了前沿级别的推理水平。

模型能够在准确率下降之前实现快速改进。在最佳状态下，14B参数、1.6万token上下文长度的模型，其性能已非常接近Claude Sonnet 3.7。而32B参数、6.4万token的模型，更是几乎追平了Sonnet的结果。

在训练期间，性能提升遵循幂律规律，在图表上呈现出清晰的线性关系（直到性能开始恶化前）。

团队还观察到训练期间输出长度的有趣规律：初期，模型的回复会变长；随后趋于稳定；在训练接近尾声时出现分化——14B模型的回复变得更长，而32B模型的回复长度反而缩短了（尤其是在达到最佳性能之后）。

为从定性角度评估逻辑推理能力的提升，研究团队进行了一项测试：让当前最先进的模型Claude Sonnet 3.7，去识别并评估Qwen 32B模型（训练前后）所做出推论的合理性。结果发现，Sonnet从基础模型中识别出6个推论，其中仅有一个被判定为正确。相反，从经过训练的模型中识别出7个推论，除一个被判定为错误外，其余均被认定为逻辑合理。

最后，在假设按需部署且拥有足够吞吐量的前提下，团队根据Fireworks AI的无服务器定价层级估算了Qwen模型的推理成本。他们绘制了准确性与推理成本的关系图，发现在未经调优的模型中存在一条清晰的线性帕累托前沿线。而经过训练后，模型极大地改善了成本与准确性之间的权衡关系，实现了显著的性价比提升。

五、结论与展望

本研究证实了小型开源语言模型通过强化学习实现前沿水平演绎推理能力的可行性。在对“时空谜题”进行训练时，团队通过精心设计的超参数和GRPO方法，对Qwen 14B和32B模型进行了高效调优，显著提升了其性能。这些改进使得开源模型在推理性能方面达到了最前沿的水平，同时大幅降低了推理成本。研究结果凸显了强化学习在高效训练开源模型处理复杂演绎任务方面的巨大潜力。

此外，研究还有一个关键发现：仅需16个训练样本，就能实现高达10-15%的性能提升。这意味着，进行有效的推理能力训练，可能并不依赖于海量的数据。

来源：互联网

上一篇 梁文锋与DeepSeek：揭秘中国AI领军者的创业故事 下一篇 DeepSeek加速AI变革：万字长文解析Infra核心趋势与实战指南

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。