人类反馈强化学习

人类反馈强化学习#

人类反馈强化学习 (RLHF) 是一种使用人类生成的偏好数据微调语言模型的技术,使模型输出与期望的行为对齐。

vLLM 可以用于为 RLHF 生成补全。最好的方法是使用像 TRL, OpenRLHFverl 这样的库。

如果您不想使用现有的库,请参阅以下基本示例以开始使用