菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > RLHF工作原理全面详解:人类反馈强化学习训练过程与优化技巧
技术资讯

RLHF工作原理全面详解:人类反馈强化学习训练过程与优化技巧

2026-05-30
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

在机器学习领域,基于人类反馈的强化学习(RLHF)正迅速成为优化模型行为的关键技术。

在机器学习领域,基于人类反馈的强化学习(RLHF)正迅速成为优化模型行为的关键技术。其核心在于,通过引入人类标注者的偏好信号,替代传统强化学习中仅依赖预设回报函数的机制,从而使语言模型的输出更贴近真实用户意图与伦理准则。当前主流的大语言模型与生成式AI应用,几乎都依赖RLHF进行最终阶段的对齐调优。

理解RLHF的完整流程,可拆解为两个核心阶段:先训练一个能够量化输出质量的奖励模型,再借助这个奖励模型去微调大语言模型本身的参数。

第一步:训练一个能分辨输出优劣的奖励模型

此阶段的目标是让奖励模型学会区分“好”输出与“坏”输出。操作流程如下:

1. 准备候选与偏好标注

向奖励模型提供两组“提示+续写词”的候选对,然后由人工标注者判断哪一组更优,选出“赢家”。例如,对于提示“文档是”,候选续写词“他”与“他们”中,前者因隐含性别偏见可能被判定为“输家”。

RLHF 是如何工作的 ?

2. 输入词并计算奖励分数

接下来,将选定的词组输入奖励模型,模型执行标准前向推理计算奖励值:

3. 词嵌入: 先将词组中每个词转换为稠密向量表示。

4. 线性变换: 向量与模型内部权重矩阵相乘,得到特征向量。

5. 平均池化: 对特征向量做平均池化,生成代表整个句子的“句子嵌入向量”。

6. 输出层: 最后将句子向量经过线性层压缩为一个标量分数——即奖励分值。

7-9. 对比训练与参数更新

模型分别对“赢家”和“输家”计算奖励分数。假设输家得3分,赢家得5分。奖励模型的目标是最大化赢家与输家的分数差(此处为5-3=2)。该差值通过sigmoid函数转换为概率(例如0.9),并与理想目标(期望差值无限大,目标设为1)对比,得到损失梯度(0.9-1 = -0.1)。随后执行反向传播,更新模型权重,使下次判断更准确。

第二步:借助奖励模型微调大语言模型

当奖励模型能够可靠地评价输出质量后,即可用它来指导大语言模型的参数调整。

10-13. 语言模型常规生成过程

先向大语言模型输入一个从未经过人类反馈标注的提示(需加上特殊起始符号)。该提示流经Transformer模块,经过多头注意力与前馈网络生成隐层特征向量。随后通过线性层映射到词汇表上的概率分布,再利用贪心解码策略(选取概率最高的词)逐个采样下一个词。在此示例中,模型正确预测了前两个位置,但第三个位置生成了“him”。

14-15. 奖励模型评估并驱动参数更新

将语言模型刚生成的词组(如“CEO is him”)送入已训练好的奖励模型,重复前述打分流程,假设得到3分。

关键设计:损失函数直接定义为奖励分数的负值。奖励越低,损失越大。因此计算得到的损失梯度为常数-1。最后执行反向传播与梯度下降,依据该梯度更新大语言模型内部的权重与偏置(图中红色边框标出的部分)。

经过此类迭代,当遇到类似提示时,大语言模型会逐渐倾向于生成能让奖励模型给出更高分、更符合人类偏好的输出。整个机制如同一位教师(奖励模型)持续批改学生(语言模型)的作业,学生根据分数修正学习方法,不断进步。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多