跳到内容

vLLM

基于人类反馈的强化学习

基于人类反馈的强化学习¶

基于人类反馈的强化学习（RLHF）是一种利用人类生成的偏好数据对语言模型进行微调的技术，旨在使模型输出与期望行为对齐。

vLLM 可用于为 RLHF 生成补全结果。实现这一目标的最佳方法是使用 TRL、OpenRLHF 和 verl 等库。

如果您不想使用现有库，请参阅以下基本示例以开始操作