基于人类反馈的强化学习¶ 基于人类反馈的强化学习(RLHF)是一种利用人类生成的偏好数据来微调语言模型的技术,旨在使模型输出与期望行为对齐。 vLLM 可用于生成 RLHF 的补全内容。实现这一点的一些方法包括使用 TRL、OpenRLHF、verl 和 unsloth 等库。 如果您不想使用现有库,请参阅以下基本示例以开始使用 训练和推理过程位于独立的 GPU 上(受 OpenRLHF 启发) 训练和推理过程使用 Ray 共存于同一 GPU 上 使用 vLLM 执行 RLHF 的实用程序 请参阅以下展示如何将 vLLM 用于 GRPO 的 notebook 使用 Unsloth + vLLM 进行 Qwen-3 4B GRPO