产业资讯

英伟达开源Polar框架测评：Codex性能飙升600%

2026-05-28

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

英伟达开源框架Polar让现有代码智能体无需改动即可接入GRPO强化学习训练。它作为中间层高

最近，英伟达的研究团队放出了一个开源新框架——Polar，在AI智能体开发圈里引起了不小的关注。这个框架的核心目标很明确：让现有的代码智能体（比如我们熟知的Codex、Claude Code、Qwen Code）能够无缝接入一种名为“广义相对策略优化”（GRPO）的训练方法，而且整个过程不会干扰智能体原有的工具调用、上下文管理这些核心工作流。简单说，就是给现有的“老伙计”们装上一个更强大的新引擎。

那么，GRPO到底是什么？它本质上是一种强化学习优化技术。你可以把它理解为一个聪明的“教练”，通过“奖励”信号来不断调整模型的决策策略，帮助它在需要连续做出多步判断的复杂任务中，找到更优的行动路径。在英伟达的这项研究中，GRPO被专门用来训练代码智能体，让模型在实际的编码、调试、提交补丁这一长串流程中，能够自我迭代，越做越好。

这背后反映了一个明显的趋势：智能体的强化学习训练，正从解决单一、独立的步骤，转向攻克那些冗长而复杂的流程性任务。比如，维护一个代码仓库、在浏览器中执行系列操作，或者与操作系统进行深度交互。这些任务高度依赖现有的执行框架，涉及多轮工具调用和复杂的上下文管理。如果硬要把这些框架改写成传统强化学习所需的标准环境接口，不仅工程难度巨大，还很容易丢失那些对训练至关重要的细微信号。

英伟达的Polar框架选择了一条更巧妙的路径。它没有去“重造轮子”，碘伏现有的智能体框架，而是选择在模型API的边界上“安置”智能体。这样一来，原有的运行逻辑得以完整保留。Polar相当于在执行框架和推理服务器之间扮演了一个“中间人”和“记录员”的角色。它兼容多种请求风格，能够悄无声息地捕捉关键的执行数据，并将其转化为可用于GRPO训练的有效信息。

从系统架构上看，Polar集成了任务提交、会话调度和状态持久化等一系列功能。通过对初始化、运行和后处理流程的精心优化，整个训练效率得到了显著提升。实验数据最有说服力：采用Polar框架结合GRPO方法训练的智能体，在权威的SWE-Bench Verified测试集上表现惊人。以Codex为例，其pass@1分数从原来的3.8%飙升至26.4%，提升幅度高达594.74%。

除了性能的飞跃，效率的提升同样亮眼。使用该框架后，训练时间缩短了约5.39倍，GPU的平均利用率也得到了显著改善。这意味着，未来开发更强大的智能体，不仅效果更好，所需的成本和等待时间也将大幅减少。这无疑为下一代AI智能体的训练铺平了一条更高效的道路。

来源：互联网

上一篇 AI大模型与Agent深度解析：核心差异与应用指南 下一篇 AI全自动呼叫中心：软银微软合作破解日本劳动力困局

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

英伟达开源Polar框架测评：Codex性能飙升600%

摘要

相关文章推荐