Transformers 强化学习#
Transformers 强化学习 (TRL) 是一个完整的库,提供了一套工具,用于使用监督式微调 (SFT)、组相对策略优化 (GRPO)、直接偏好优化 (DPO)、奖励建模等方法训练 Transformer 语言模型。该库与 🤗 transformers 集成。
在线方法(如 GRPO 或在线 DPO)需要模型生成补全。 vLLM 可以用于生成这些补全!
请参阅 TRL 文档中 vLLM 在在线方法中快速生成 指南,了解更多信息。
Transformers 强化学习 (TRL) 是一个完整的库,提供了一套工具,用于使用监督式微调 (SFT)、组相对策略优化 (GRPO)、直接偏好优化 (DPO)、奖励建模等方法训练 Transformer 语言模型。该库与 🤗 transformers 集成。
在线方法(如 GRPO 或在线 DPO)需要模型生成补全。 vLLM 可以用于生成这些补全!
请参阅 TRL 文档中 vLLM 在在线方法中快速生成 指南,了解更多信息。