跳到内容

基于人类反馈的强化学习

基于人类反馈的强化学习(RLHF)是一种利用人类生成的偏好数据对语言模型进行微调的技术,旨在使模型输出与期望行为对齐。

vLLM 可用于为 RLHF 生成补全结果。实现这一目标的最佳方法是使用 TRLOpenRLHFverl 等库。

如果您不想使用现有库,请参阅以下基本示例以开始操作