RLHF工作原理全面详解:人类反馈强化学习训练过程与优化技巧
摘要
在机器学习领域,基于人类反馈的强化学习(RLHF)正迅速成为优化模型行为的关键技术。
在机器学习领域,基于人类反馈的强化学习(RLHF)正迅速成为优化模型行为的关键技术。其核心在于,通过引入人类标注者的偏好信号,替代传统强化学习中仅依赖预设回报函数的机制,从而使语言模型的输出更贴近真实用户意图与伦理准则。当前主流的大语言模型与生成式AI应用,几乎都依赖RLHF进行最终阶段的对齐调优。
理解RLHF的完整流程,可拆解为两个核心阶段:先训练一个能够量化输出质量的奖励模型,再借助这个奖励模型去微调大语言模型本身的参数。
第一步:训练一个能分辨输出优劣的奖励模型
此阶段的目标是让奖励模型学会区分“好”输出与“坏”输出。操作流程如下:
1. 准备候选与偏好标注
向奖励模型提供两组“提示+续写词”的候选对,然后由人工标注者判断哪一组更优,选出“赢家”。例如,对于提示“文档是”,候选续写词“他”与“他们”中,前者因隐含性别偏见可能被判定为“输家”。

2. 输入词并计算奖励分数
接下来,将选定的词组输入奖励模型,模型执行标准前向推理计算奖励值:
3. 词嵌入: 先将词组中每个词转换为稠密向量表示。
4. 线性变换: 向量与模型内部权重矩阵相乘,得到特征向量。
5. 平均池化: 对特征向量做平均池化,生成代表整个句子的“句子嵌入向量”。
6. 输出层: 最后将句子向量经过线性层压缩为一个标量分数——即奖励分值。
7-9. 对比训练与参数更新
模型分别对“赢家”和“输家”计算奖励分数。假设输家得3分,赢家得5分。奖励模型的目标是最大化赢家与输家的分数差(此处为5-3=2)。该差值通过sigmoid函数转换为概率(例如0.9),并与理想目标(期望差值无限大,目标设为1)对比,得到损失梯度(0.9-1 = -0.1)。随后执行反向传播,更新模型权重,使下次判断更准确。
第二步:借助奖励模型微调大语言模型
当奖励模型能够可靠地评价输出质量后,即可用它来指导大语言模型的参数调整。
10-13. 语言模型常规生成过程
先向大语言模型输入一个从未经过人类反馈标注的提示(需加上特殊起始符号)。该提示流经Transformer模块,经过多头注意力与前馈网络生成隐层特征向量。随后通过线性层映射到词汇表上的概率分布,再利用贪心解码策略(选取概率最高的词)逐个采样下一个词。在此示例中,模型正确预测了前两个位置,但第三个位置生成了“him”。
14-15. 奖励模型评估并驱动参数更新
将语言模型刚生成的词组(如“CEO is him”)送入已训练好的奖励模型,重复前述打分流程,假设得到3分。
关键设计:损失函数直接定义为奖励分数的负值。奖励越低,损失越大。因此计算得到的损失梯度为常数-1。最后执行反向传播与梯度下降,依据该梯度更新大语言模型内部的权重与偏置(图中红色边框标出的部分)。
经过此类迭代,当遇到类似提示时,大语言模型会逐渐倾向于生成能让奖励模型给出更高分、更符合人类偏好的输出。整个机制如同一位教师(奖励模型)持续批改学生(语言模型)的作业,学生根据分数修正学习方法,不断进步。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。