从人类反馈中强化学习¶
从人类反馈中强化学习 (RLHF) 是一种利用人类生成的偏好数据来微调语言模型的技术,以使模型输出与期望的行为保持一致。vLLM 可用于为 RLHF 生成补全。
以下开源 RL 库使用 vLLM 进行快速 rollout(按字母顺序排列,不详尽)
如果您不想使用现有库,请参阅以下基本示例以开始
参阅以下 Notebook,了解如何将 vLLM 用于 GRPO
从人类反馈中强化学习 (RLHF) 是一种利用人类生成的偏好数据来微调语言模型的技术,以使模型输出与期望的行为保持一致。vLLM 可用于为 RLHF 生成补全。
以下开源 RL 库使用 vLLM 进行快速 rollout(按字母顺序排列,不详尽)
如果您不想使用现有库,请参阅以下基本示例以开始
参阅以下 Notebook,了解如何将 vLLM 用于 GRPO