人类反馈强化学习¶
人类反馈强化学习(RLHF)是一种利用人类生成的偏好数据对语言模型进行微调的技术,旨在使模型输出与预期行为保持一致。vLLM 可用于为 RLHF 生成补全内容。
以下开源 RL 库使用 vLLM 进行快速推出(rollouts)(按字母顺序排序,且不完全列举)
关于训练和推理之间的权重同步,请参阅权重迁移 (Weight Transfer) 文档。该文档介绍了包含 NCCL(多 GPU)和 IPC(单 GPU)引擎的可插拔后端系统。
关于通过流水线化生成和训练来提高 GPU 利用率和吞吐量,请参阅异步强化学习 (Async Reinforcement Learning) 指南。该指南涵盖了用于在运行过程中安全更新权重的暂停/恢复 API。
请参阅以下展示如何将 vLLM 用于 GRPO 的笔记本