跳到内容

从人类反馈中强化学习

从人类反馈中强化学习 (RLHF) 是一种利用人类生成的偏好数据来微调语言模型的技术,以使模型输出与期望的行为保持一致。vLLM 可用于为 RLHF 生成补全。

以下开源 RL 库使用 vLLM 进行快速 rollout(按字母顺序排列,不详尽)

如果您不想使用现有库,请参阅以下基本示例以开始

参阅以下 Notebook,了解如何将 vLLM 用于 GRPO