跳到内容

vLLM-Project/Speculators

User Flow Light User Flow Dark

Speculators 是一个通过投机采样(speculative decoding)加速大语言模型(LLM)推理的库。它提供了高效的草稿模型训练功能,并与 vLLM 无缝集成,从而降低延迟并提高吞吐量。

Speculators 提供以下核心功能:

  • 使用 vLLM 进行离线训练数据生成:支持使用 vLLM 生成隐藏状态。数据样本保存至磁盘后,可用于草稿模型训练。
  • 草稿模型训练支持:支持单层和多层草稿模型的端到端(E2E)训练。支持非 MoE 和 MoE 模型。
  • 标准化、可扩展的格式:提供与 Hugging Face 兼容的格式来定义投机模型,并附带工具将外部研究存储库中的模型转换为标准的 Speculators 格式,方便采用。
  • 无缝集成 vLLM:专为直接部署到 vLLM 而构建,能够以极低的开销实现低延迟的生产级推理。

为什么要使用 Speculators?

大语言模型每次生成一个 token,这构成了根本性的瓶颈:每个 token 都需要模型进行一次完整的前向传播,导致在等待内存受限的操作时,GPU 计算能力未得到充分利用。投机采样通过使用一个更小、更快的“草稿”模型(通常仅为单层 Transformer)来预判多个 token,然后由主模型并行验证这些 token,从而解决了这一问题。

投机采样具有以下优势:

  • 降低延迟:对于聊天机器人和代码助手等交互式应用,生成速度可提升 2-3 倍,直接改善用户体验。
  • 更好的 GPU 利用率:将大模型中受限于延迟和内存的解码过程,转化为受限于计算的并行 token 验证过程,从而提高硬件利用率。
  • 无精度损失:投机采样不会对目标模型进行近似。被接受的 token 与目标模型在相同采样配置下生成的 token 完全一致;被拒绝的草稿 token 会被丢弃,并由目标模型重新生成。
  • 成本效益:通过减少每个请求占用硬件的时间,在每个 GPU 上能够服务更多的请求。

对于用户需要实时等待响应的延迟敏感型应用(如对话式 AI、交互式编程助手和流式文本生成),Speculators 具有极高的价值。

资源