跳到内容

基于人类反馈的强化学习

基于人类反馈的强化学习(RLHF)是一种利用人类生成的偏好数据来微调语言模型的技术,旨在使模型输出与期望行为对齐。

vLLM 可用于生成 RLHF 的补全内容。实现这一点的一些方法包括使用 TRLOpenRLHFverlunsloth 等库。

如果您不想使用现有库,请参阅以下基本示例以开始使用

请参阅以下展示如何将 vLLM 用于 GRPO 的 notebook