英伟达推出AI框架Polar，助力代码智能体性能飞跃

英伟达的研究团队于本周公布了一项名为Polar的开源框架。该框架旨在让现有的智能体系统，如Codex、Claude Code和Qwen Code，在不更改其现有工具调用、上下文组织和补丁提交流程的前提下，能够无缝接入广义相对策略优化（GRPO）训练。

GRPO是一种专门用于强化学习训练的优化技术。它通过分析奖励信号来调整模型的策略，从而使模型能够在需要多步骤决策的任务中学习到更优的动作序列。

在此次发布中，GRPO主要被应用于代码智能体的训练，目标是让这些模型能在真实的工具调用和补丁提交场景中持续改进其性能。

研究论文指出，目前智能体的强化学习正在从执行单一任务向涵盖更长流程的任务转变，这包括修改代码仓库、操作浏览器以及与操作系统进行交互等。这类复杂任务通常依赖于现成的执行框架，涉及多轮交互、对工具的运用、上下文信息的压缩以及子智能体之间的协同工作。

当前面临的一大挑战是，这些复杂的框架难以直接转化为传统的强化学习环境接口。若强行进行转换，还有可能导致关键的训练信号丢失。

英伟达的Polar框架并非选择重写智能体框架，而是将焦点放在模型API的边界处放置智能体，从而最大程度地保留了原有系统的结构，基本不对现有的arness（即Codex CLI、Claude Code、Qwen Code、Pi等智能体的运行外壳）进行改动。传统的强化学习基础设施通常要求将这些逻辑重构为类似env.init()、env.step()、env.reset()等环境接口，这种方式不仅接入成本高昂，还可能导致原生执行细节的缺失。

Polar的核心设计理念在于，将智能体与模型之间的接口视为训练的边界，而非将执行框架本身改造为强化学习环境。

该框架巧妙地将模型智能体置于执行框架和推理服务器之间，从而兼容Anthropic、OpenAI和Google等风格的请求。在转发请求时，它会记录提示词、采样到的Token、对数概率以及响应内容，随后将这些信息重构为可供训练器消费的轨迹数据。

在系统架构上，Polar由rollout服务器和gateway节点两部分构成。其中，rollout服务器负责任务的提交、会话的调度、状态的持久化以及回调的接收；而gateway节点则负责管理会话执行的整个生命周期，其中包括运行时启动、执行框架的准备、轨迹的构建、结果的评估以及资源的回收。

论文还提出将初始化、运行中和后处理等环节拆分到独立的、并发的工作池中，并设置了READY缓冲区。这样安排使得运行时预热和评估预热可以在后台并行进行，从而有效减少了长尾任务对GPU训练造成的阻塞。

实验部分主要针对软件工程任务展开。基于同一个Qwen3.5-4B基础模型，Polar框架与GRPO（组相对策略优化）协同训练后，在四种代码执行框架（Codex、Claude Code、Qwen Code、Pi）上展现出显著提升。在SWE-Bench Verified基准测试中，Codex的pass@1分数从3.8%跃升至26.4%，增幅高达594.74%；Claude Code从29.8%提升到34.6%；Qwen Code从34.6%提升到35.2%；Pi则从34.2%提升到40.4%。

在效率方面，采用prefix_merging策略相比于per_request策略，在3个训练步骤中，更新次数从1185次显著减少到218次，墙钟时间从189.5分钟缩短至35.2分钟，效率提升约5.39倍。同时，rollout GPU的平均利用率也从20.4%提升至87.7%。