基于人类反馈的强化学习¶ 基于人类反馈的强化学习(RLHF)是一种利用人类生成的偏好数据对语言模型进行微调的技术,旨在使模型输出与期望行为对齐。 vLLM 可用于为 RLHF 生成补全结果。实现这一目标的最佳方法是使用 TRL、OpenRLHF 和 verl 等库。 如果您不想使用现有库,请参阅以下基本示例以开始操作 训练和推理过程位于不同的 GPU 上(受 OpenRLHF 启发) 使用 Ray 将训练和推理过程位于同一 GPU 上 使用 vLLM 执行 RLHF 的实用程序