跳到内容

Transformer 强化学习

Transformer 强化学习 (TRL) 是一个全栈库,提供了一系列工具,用于使用监督微调 (SFT)、群体相对策略优化 (GRPO)、直接偏好优化 (DPO)、奖励建模等方法训练 Transformer 语言模型。该库与 🤗 transformers 集成。

GRPO 或在线 DPO 等在线方法需要模型生成补全结果。vLLM 可用于生成这些补全结果!

更多信息请参阅 TRL 文档中的指南 在在线方法中使用 vLLM 进行快速生成

信息

有关您可以为这些在线方法的配置提供的 use_vllm 标志的更多信息,请参阅: - trl.GRPOConfig.use_vllm - trl.OnlineDPOConfig.use_vllm