菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 小红书开源RL训练引擎Relax测评:大模型强化学习实战指南
技术资讯

小红书开源RL训练引擎Relax测评:大模型强化学习实战指南

2026-05-14
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

大模型后训练中的强化学习阶段,正面临前所未有的复杂性挑战。模型参数规模的膨胀只是

大模型后训练中的强化学习阶段,正面临前所未有的复杂性挑战。模型参数规模的膨胀只是其一,更关键的是能力边界正从文本对话扩展到全模态理解,并向具备自主决策能力的智能体演进。传统强化学习框架在处理这类多模态、长序列、多轮交互任务时,往往在效率、稳定性和灵活性上难以满足需求。

小红书AI平台团队开源的Relax强化学习训练引擎,正是针对这一痛点设计的系统级解决方案。它并非简单的算法库,而是一个面向生产环境、为全模态与智能体场景深度优化的训练平台。Relax的核心命题是:如何高效、稳定地训练下一代能“看”、能“听”、能“说”、能“思考”并能“行动”的大模型。

Relax是什么

Relax可被视为一个高度工程化的“训练调度中枢”。它基于Megatron-LM训练框架和SGLang推理引擎构建,核心创新在于一套服务化、完全异步的容错架构。它将强化学习训练中的关键角色——负责采样的Rollout、负责策略更新的Actor、负责价值评估的Critic——彻底解耦,封装为基于Ray Serve的独立微服务。这些服务通过TransferQueue异步数据总线通信,形成一条高效流水线,实现各环节并行不悖。

这种设计直接消除了训练流程中的瓶颈。当Critic计算价值时,Actor可继续处理数据,Rollout引擎则持续采集新样本。官方验证数据显示,在16张H800 GPU的全异步模式下,Relax相比传统耦合式训练端到端提速76%,相比主流异步框架veRL也提升20%。更重要的是,它原生支持文本、图像、音频、视频的统一训练,并已在Qwen3-Omni-30B模型上验证了四模态RL训练的稳定收敛。

Relax – 小红书开源的大模型强化学习训练引擎

Relax的主要功能

为应对复杂的训练需求,Relax集成了以下关键功能:

  • 全模态RL训练:提供端到端流水线,统一处理图文音视频数据,是少数已验证能支撑Qwen3-Omni等大型全模态模型稳定后训练的开源框架。
  • 异步训练架构:核心TransferQueue数据总线确保Rollout、Actor、Critic三大角色完全并行,最大化GPU利用率,杜绝资源空转。
  • 服务化容错:各角色作为独立服务部署,单一组件故障不会导致训练崩溃,系统具备分钟级自动恢复能力。
  • 弹性扩缩容:训练过程中,可通过HTTP API动态增减负责推理采样的Rollout引擎资源,支持跨集群调度,灵活应对负载变化。
  • 分布式权重同步:通过专用DCS服务,实现GPU间NCCL或TCP通道的快速权重广播,故障恢复时无需从磁盘缓慢加载检查点。
  • Agentic多轮训练:原生为智能体训练设计,支持多轮对话状态保持、工具调用、视觉上下文跨轮次传递及灵活的损失掩码,适配“执行→观察→决策”闭环。
  • 算法套件支持:内置GRPO、GSPO、SAPO及On-Policy Distillation等前沿RL算法,并提供规则奖励与基于生成式模型的奖励评估两种奖励机制。

Relax的技术原理

Relax的强大能力源于其底层精妙设计:

  • 服务化异步架构:这是性能飞跃的关键。传统模式中不同角色挤在同一批GPU上,容易相互等待。Relax将其拆分为独立服务,通过流式微批数据传输实现流水线并行,彻底打破串行瓶颈。
  • 全模态数据流水线:内建Omni Processor统一处理不同模态数据。其Field-Level存储机制允许同一训练样本的不同部分(如图像特征、文本Token)被独立读写,契合RL训练多阶段、异构计算的特点。
  • 容错与弹性机制:系统采用两级恢复策略。无状态角色故障后直接原地重启;有状态角色则依赖DCS服务进行全局状态快速恢复。DCS实现GPU间直接权重同步,避免了成为瓶颈的磁盘IO。
  • 异步一致性控制:通过max_staleness参数,开发者可灵活平衡“策略新鲜度”与“训练吞吐量”,控制训练更接近On-Policy或Off-Policy模式。StreamingDataLoader支持增量消费数据,让训练与数据加载、权重同步重叠进行。

如何使用Relax

对于希望上手的研究者或工程师,Relax提供了清晰的路径:

  • 环境部署:最快捷方式是直接拉取官方预制的Docker镜像,其中已集成CUDA、PyTorch、Megatron-LM等所有依赖。运行容器时需挂载GPU驱动和工作目录。
  • 数据与模型准备:使用Hugging Face命令行工具下载所需数据集(如dapo-math-17k)和基础模型(如Qwen3系列不同版本)到本地。
  • 启动训练:设置环境变量指向数据根目录,根据任务类型执行对应脚本。例如,文本任务训练使用8卡脚本,全模态任务需调用跨节点的16卡脚本。
  • 模型导出:训练完成后,Relax提供转换工具,能将内部的Megatron分布式检查点格式转换为Hugging Face格式,便于后续部署与应用。

Relax的关键信息和使用要求

深入使用前,需明确几个关键点:

  • 开源主体与时间:该项目由小红书AI平台团队于2026年4月15日正式开源。
  • 定位与底座:定位为高性能异步RL后训练引擎,技术栈深度绑定Megatron-LM和SGLang。
  • 核心架构:整体采用六层服务化设计,从入口到分布式后端层次清晰,TransferQueue和DCS是其异步与容错的核心组件。
  • 性能与模态:在16张H800上,其异步模式性能优势明显,且是经过验证的、能支持四模态统一训练的平台。
  • 硬件门槛:运行门槛较高。单节点至少需要8张H800(以运行4B模型),进行全模态Omni训练则需要16张H800并跨2个节点。其弹性扩缩容特性允许动态调整资源。

Relax的核心优势

综合来看,Relax在以下几个维度形成差异化优势:

  • 全模态原生支持:从架构设计之初就考虑了对图文音视频的统一处理,并经过大规模模型实证检验,非事后补丁。
  • 极致异步性能:彻底的解耦设计带来显著效率提升,76%的加速比对于动辄数周的训练周期意味着巨大的成本节约。
  • 服务化容错架构:将生产级微服务理念引入训练系统,实现故障隔离、快速恢复和动态伸缩,极大提升训练鲁棒性和运维便利性。
  • Agentic原生设计:对多轮交互、工具调用等智能体核心能力的原生支持,使其成为开发复杂Agent的理想平台。
  • MoE高效支持:针对混合专家模型,其R3重放机制开销控制极佳(仅1.9%),相比其他方案有数量级优势。
  • 生产级运维:集成健康监控、指标上报(支持WandB/TensorBoard)、实时告警等运维功能,并提供API用于自动化管理。

Relax的项目地址

  • GitHub仓库:所有源代码、文档和示例均在此处。
  • arXiv技术论文:如需深入了解其技术细节和实验数据,可阅读其配套论文。

Relax的同类竞品对比

为更清晰定位Relax,我们将其与当前社区两个主要RL训练框架——veRL和OpenRLHF进行对比:

对比维度 Relax veRL OpenRLHF
开发团队 小红书 RedAI Infra 团队 字节跳动/清华大学/南京大学等联合团队 开源社区 (OpenRLHF Labs)
架构设计 服务化六层架构,Ray Serve 独立部署,TransferQueue 异步数据总线 HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合 Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统
异步机制 完全异步解耦,Rollout/Actor/Critic 独立 GPU 集群,流式微批调度 支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点 支持 Colocate 与异步切换,但角色间耦合度高于 Relax
模态支持 全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练 主要为文本,多模态支持尚不完善 文本为主,OpenRLHF-M 分支支持多模态
训练后端 Megatron-LM (TP/PP/CP/EP) Megatron-LM / FSDP DeepSpeed
推理后端 SGLang vLLM / SGLang vLLM
容错机制 服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘 单控制器统一调度,缺乏服务级隔离,故障需全局重启 基于 Ray Actor 容错,无独立服务域设计
弹性扩缩容 HTTP REST API 动态扩缩容,支持跨集群联邦推理 训练过程固定配置,不支持动态扩缩容 支持动态资源调整,但粒度较粗
性能表现 16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9% 全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢 支持 70B+ 模型,消费级显卡友好
MoE 支持 原生支持,Near-Zero-Overhead R3 支持但 R3 开销大(32%) 支持
Agentic 能力 原生支持多轮交互、工具调用、视觉上下文 Carry-over 基础支持多轮,缺乏服务级会话状态管理 基础支持
适用场景 超大规模 Omni 模型 Agentic 训练、生产级高可用场景 万亿参数 MoE 模型、极致显存优化 70B+ 模型分布式训练、消费级显卡集群

从对比可见,Relax在架构现代化、异步彻底性、多模态与Agentic原生支持,以及生产级运维特性上,展现出鲜明特色和优势。

Relax的应用场景

基于其能力,Relax非常适合以下几类任务:

  • 全模态大模型后训练:训练如Qwen3-Omni这类统一理解多模态信息的下一代模型,强化其跨模态生成与推理能力。
  • Agentic智能体开发:构建能够使用工具、与环境进行多轮交互并自主决策的复杂智能体,例如需要多轮视觉推理的智能体。
  • 视觉语言任务优化:针对视觉问答、图像描述生成、视频理解等具体任务,进行精细化RL对齐,提升模型表现。
  • 数学与代码推理:利用其内置GRPO等算法,专项提升大模型在解决数学问题、逻辑推理和代码生成方面的能力。
  • MoE模型高效训练:为混合专家模型提供高性价比的强化学习训练方案,显著降低路由重放带来的额外计算成本。

Relax的出现,为业界训练更复杂、更强大的多模态和智能体模型,提供了一个在效率、稳定性和功能完备性上都值得关注的新选择。它代表了将大规模AI系统训练推向更高工程化、服务化阶段的重要尝试。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多