人类反馈强化学习# 人类反馈强化学习 (RLHF) 是一种使用人类生成的偏好数据微调语言模型的技术,使模型输出与期望的行为对齐。 vLLM 可以用于为 RLHF 生成补全。最好的方法是使用像 TRL, OpenRLHF 和 verl 这样的库。 如果您不想使用现有的库,请参阅以下基本示例以开始使用 训练和推理过程位于单独的 GPU 上(灵感来自 OpenRLHF) 训练和推理过程使用 Ray 在同一 GPU 上共址 使用 vLLM 执行 RLHF 的实用工具