跳到内容

欢迎使用 vLLM

vLLM

为每个人提供简单、快速、廉价的 LLM 服务

Star Watch Fork

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

vLLM 最初由加州大学伯克利分校 Sky 计算实验室 开发,现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 速度快,具有以下特点:

  • 最先进的服务吞吐量
  • 通过 PagedAttention 高效管理注意力键值内存
  • 对传入请求进行连续批处理
  • 使用 CUDA/HIP 图进行快速模型执行
  • 量化支持:GPTQ, AWQ, INT4, INT8 和 FP8
  • 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。
  • 推测解码
  • 分块预填充

vLLM 灵活易用,具有以下特点:

  • 与流行的 HuggingFace 模型无缝集成
  • 支持多种解码算法的高吞吐量服务,包括 并行采样束搜索
  • 支持分布式推理的张量并行和流水线并行
  • 流式输出
  • 兼容 OpenAI 的 API 服务器
  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
  • 前缀缓存支持
  • 多 LoRA 支持

更多信息,请查看以下内容: