跳到内容

人类反馈强化学习

人类反馈强化学习(RLHF)是一种利用人类生成的偏好数据对语言模型进行微调的技术,旨在使模型输出与预期行为保持一致。vLLM 可用于为 RLHF 生成补全内容。

以下开源 RL 库使用 vLLM 进行快速推出(rollouts)(按字母顺序排序,且不完全列举)

关于训练和推理之间的权重同步,请参阅权重迁移 (Weight Transfer) 文档。该文档介绍了包含 NCCL(多 GPU)和 IPC(单 GPU)引擎的可插拔后端系统。

关于通过流水线化生成和训练来提高 GPU 利用率和吞吐量,请参阅异步强化学习 (Async Reinforcement Learning) 指南。该指南涵盖了用于在运行过程中安全更新权重的暂停/恢复 API。

请参阅以下展示如何将 vLLM 用于 GRPO 的笔记本