从人类反馈中强化学习¶

从人类反馈中强化学习 (RLHF) 是一种利用人类生成的偏好数据来微调语言模型的技术，以使模型输出与期望的行为保持一致。vLLM 可用于为 RLHF 生成补全。

以下开源 RL 库使用 vLLM 进行快速 rollout（按字母顺序排列，不详尽）

如果您不想使用现有库，请参阅以下基本示例以开始

参阅以下 Notebook，了解如何将 vLLM 用于 GRPO