技术资讯

小红书开源RL训练引擎Relax测评：大模型强化学习实战指南

2026-05-14

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

大模型后训练中的强化学习阶段，正面临前所未有的复杂性挑战。模型参数规模的膨胀只是

大模型后训练中的强化学习阶段，正面临前所未有的复杂性挑战。模型参数规模的膨胀只是其一，更关键的是能力边界正从文本对话扩展到全模态理解，并向具备自主决策能力的智能体演进。传统强化学习框架在处理这类多模态、长序列、多轮交互任务时，往往在效率、稳定性和灵活性上难以满足需求。

小红书AI平台团队开源的Relax强化学习训练引擎，正是针对这一痛点设计的系统级解决方案。它并非简单的算法库，而是一个面向生产环境、为全模态与智能体场景深度优化的训练平台。Relax的核心命题是：如何高效、稳定地训练下一代能“看”、能“听”、能“说”、能“思考”并能“行动”的大模型。

Relax是什么

Relax可被视为一个高度工程化的“训练调度中枢”。它基于Megatron-LM训练框架和SGLang推理引擎构建，核心创新在于一套服务化、完全异步的容错架构。它将强化学习训练中的关键角色——负责采样的Rollout、负责策略更新的Actor、负责价值评估的Critic——彻底解耦，封装为基于Ray Serve的独立微服务。这些服务通过TransferQueue异步数据总线通信，形成一条高效流水线，实现各环节并行不悖。

这种设计直接消除了训练流程中的瓶颈。当Critic计算价值时，Actor可继续处理数据，Rollout引擎则持续采集新样本。官方验证数据显示，在16张H800 GPU的全异步模式下，Relax相比传统耦合式训练端到端提速76%，相比主流异步框架veRL也提升20%。更重要的是，它原生支持文本、图像、音频、视频的统一训练，并已在Qwen3-Omni-30B模型上验证了四模态RL训练的稳定收敛。

Relax的主要功能

为应对复杂的训练需求，Relax集成了以下关键功能：

全模态RL训练：提供端到端流水线，统一处理图文音视频数据，是少数已验证能支撑Qwen3-Omni等大型全模态模型稳定后训练的开源框架。
异步训练架构：核心TransferQueue数据总线确保Rollout、Actor、Critic三大角色完全并行，最大化GPU利用率，杜绝资源空转。
服务化容错：各角色作为独立服务部署，单一组件故障不会导致训练崩溃，系统具备分钟级自动恢复能力。
弹性扩缩容：训练过程中，可通过HTTP API动态增减负责推理采样的Rollout引擎资源，支持跨集群调度，灵活应对负载变化。
分布式权重同步：通过专用DCS服务，实现GPU间NCCL或TCP通道的快速权重广播，故障恢复时无需从磁盘缓慢加载检查点。
Agentic多轮训练：原生为智能体训练设计，支持多轮对话状态保持、工具调用、视觉上下文跨轮次传递及灵活的损失掩码，适配“执行→观察→决策”闭环。
算法套件支持：内置GRPO、GSPO、SAPO及On-Policy Distillation等前沿RL算法，并提供规则奖励与基于生成式模型的奖励评估两种奖励机制。

Relax的技术原理

Relax的强大能力源于其底层精妙设计：

服务化异步架构：这是性能飞跃的关键。传统模式中不同角色挤在同一批GPU上，容易相互等待。Relax将其拆分为独立服务，通过流式微批数据传输实现流水线并行，彻底打破串行瓶颈。
全模态数据流水线：内建Omni Processor统一处理不同模态数据。其Field-Level存储机制允许同一训练样本的不同部分（如图像特征、文本Token）被独立读写，契合RL训练多阶段、异构计算的特点。
容错与弹性机制：系统采用两级恢复策略。无状态角色故障后直接原地重启；有状态角色则依赖DCS服务进行全局状态快速恢复。DCS实现GPU间直接权重同步，避免了成为瓶颈的磁盘IO。
异步一致性控制：通过max_staleness参数，开发者可灵活平衡“策略新鲜度”与“训练吞吐量”，控制训练更接近On-Policy或Off-Policy模式。StreamingDataLoader支持增量消费数据，让训练与数据加载、权重同步重叠进行。

如何使用Relax

对于希望上手的研究者或工程师，Relax提供了清晰的路径：

环境部署：最快捷方式是直接拉取官方预制的Docker镜像，其中已集成CUDA、PyTorch、Megatron-LM等所有依赖。运行容器时需挂载GPU驱动和工作目录。
数据与模型准备：使用Hugging Face命令行工具下载所需数据集（如dapo-math-17k）和基础模型（如Qwen3系列不同版本）到本地。
启动训练：设置环境变量指向数据根目录，根据任务类型执行对应脚本。例如，文本任务训练使用8卡脚本，全模态任务需调用跨节点的16卡脚本。
模型导出：训练完成后，Relax提供转换工具，能将内部的Megatron分布式检查点格式转换为Hugging Face格式，便于后续部署与应用。

Relax的关键信息和使用要求

深入使用前，需明确几个关键点：

开源主体与时间：该项目由小红书AI平台团队于2026年4月15日正式开源。
定位与底座：定位为高性能异步RL后训练引擎，技术栈深度绑定Megatron-LM和SGLang。
核心架构：整体采用六层服务化设计，从入口到分布式后端层次清晰，TransferQueue和DCS是其异步与容错的核心组件。
性能与模态：在16张H800上，其异步模式性能优势明显，且是经过验证的、能支持四模态统一训练的平台。
硬件门槛：运行门槛较高。单节点至少需要8张H800（以运行4B模型），进行全模态Omni训练则需要16张H800并跨2个节点。其弹性扩缩容特性允许动态调整资源。

Relax的核心优势

综合来看，Relax在以下几个维度形成差异化优势：

全模态原生支持：从架构设计之初就考虑了对图文音视频的统一处理，并经过大规模模型实证检验，非事后补丁。
极致异步性能：彻底的解耦设计带来显著效率提升，76%的加速比对于动辄数周的训练周期意味着巨大的成本节约。
服务化容错架构：将生产级微服务理念引入训练系统，实现故障隔离、快速恢复和动态伸缩，极大提升训练鲁棒性和运维便利性。
Agentic原生设计：对多轮交互、工具调用等智能体核心能力的原生支持，使其成为开发复杂Agent的理想平台。
MoE高效支持：针对混合专家模型，其R3重放机制开销控制极佳（仅1.9%），相比其他方案有数量级优势。
生产级运维：集成健康监控、指标上报（支持WandB/TensorBoard）、实时告警等运维功能，并提供API用于自动化管理。

Relax的项目地址

GitHub仓库：所有源代码、文档和示例均在此处。
arXiv技术论文：如需深入了解其技术细节和实验数据，可阅读其配套论文。

Relax的同类竞品对比

为更清晰定位Relax，我们将其与当前社区两个主要RL训练框架——veRL和OpenRLHF进行对比：

对比维度	Relax	veRL	OpenRLHF
开发团队	小红书 RedAI Infra 团队	字节跳动/清华大学/南京大学等联合团队	开源社区 (OpenRLHF Labs)
架构设计	服务化六层架构，Ray Serve 独立部署，TransferQueue 异步数据总线	HybridFlow 混合编程，3D-HybridEngine 显存原地复用，生成与训练默认耦合	Ray Placement Groups 调度，支持 Colocate/异步模式切换，架构相对传统
异步机制	完全异步解耦，Rollout/Actor/Critic 独立 GPU 集群，流式微批调度	支持分离与 Colocate，但缺乏细粒度流水线调度，Rollout 与 Train 存在同步点	支持 Colocate 与异步切换，但角色间耦合度高于 Relax
模态支持	全模态原生（文本/图像/音频/视频），验证 Qwen3-Omni 端到端训练	主要为文本，多模态支持尚不完善	文本为主，OpenRLHF-M 分支支持多模态
训练后端	Megatron-LM (TP/PP/CP/EP)	Megatron-LM / FSDP	DeepSpeed
推理后端	SGLang	vLLM / SGLang	vLLM
容错机制	服务级故障隔离，DCS 秒级权重同步，分钟级自动恢复，无需回退磁盘	单控制器统一调度，缺乏服务级隔离，故障需全局重启	基于 Ray Actor 容错，无独立服务域设计
弹性扩缩容	HTTP REST API 动态扩缩容，支持跨集群联邦推理	训练过程固定配置，不支持动态扩缩容	支持动态资源调整，但粒度较粗
性能表现	16×H800 较 veRL 提速 20%，较 Colocate 提速 76%，R3 开销仅 1.9%	全异步较 Colocate 提速 5.2×，但 R3 开销 32%，故障恢复慢	支持 70B+ 模型，消费级显卡友好
MoE 支持	原生支持，Near-Zero-Overhead R3	支持但 R3 开销大（32%）	支持
Agentic 能力	原生支持多轮交互、工具调用、视觉上下文 Carry-over	基础支持多轮，缺乏服务级会话状态管理	基础支持
适用场景	超大规模 Omni 模型 Agentic 训练、生产级高可用场景	万亿参数 MoE 模型、极致显存优化	70B+ 模型分布式训练、消费级显卡集群

从对比可见，Relax在架构现代化、异步彻底性、多模态与Agentic原生支持，以及生产级运维特性上，展现出鲜明特色和优势。

Relax的应用场景

基于其能力，Relax非常适合以下几类任务：

全模态大模型后训练：训练如Qwen3-Omni这类统一理解多模态信息的下一代模型，强化其跨模态生成与推理能力。
Agentic智能体开发：构建能够使用工具、与环境进行多轮交互并自主决策的复杂智能体，例如需要多轮视觉推理的智能体。
视觉语言任务优化：针对视觉问答、图像描述生成、视频理解等具体任务，进行精细化RL对齐，提升模型表现。
数学与代码推理：利用其内置GRPO等算法，专项提升大模型在解决数学问题、逻辑推理和代码生成方面的能力。
MoE模型高效训练：为混合专家模型提供高性价比的强化学习训练方案，显著降低路由重放带来的额外计算成本。

Relax的出现，为业界训练更复杂、更强大的多模态和智能体模型，提供了一个在效率、稳定性和功能完备性上都值得关注的新选择。它代表了将大规模AI系统训练推向更高工程化、服务化阶段的重要尝试。

来源：互联网

上一篇 阿里世界模型HappyOyster测评：开放能力与场景应用深度解析 下一篇 Web端3D高斯渲染引擎测评：Spark 2.0开源项目深度解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。