跳到内容

欢迎使用 vLLM

vLLM Light vLLM Dark

人人都能轻松、快速、廉价地使用 LLM

Star Watch Fork

vLLM 是一个用于 LLM 推理和服务的高效易用的库。

vLLM 最初由加州大学伯克利分校的 Sky Computing Lab 开发,现已发展成为一个社区驱动的项目,汇集了学术界和工业界的贡献。

如何开始使用 vLLM 取决于您的用户类型。如果您想

有关 vLLM 开发的信息,请参阅

vLLM 速度快,具有

  • 最先进的服务吞吐量
  • 使用 PagedAttention 高效管理注意力键值内存
  • 连续批处理传入请求
  • 使用 CUDA/HIP 图实现快速模型执行
  • 量化:GPTQAWQ、INT4、INT8 和 FP8
  • 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。
  • 投机解码
  • 分块预填充

vLLM 灵活易用,支持

  • 与流行的 HuggingFace 模型无缝集成
  • 使用各种解码算法实现高吞吐量服务,包括并行采样束搜索
  • 支持张量、流水线、数据和专家并行进行分布式推理
  • 流式输出
  • 兼容 OpenAI 的 API 服务器
  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、Arm CPU 和 TPU。此外,还支持 Intel Gaudi、IBM Spyre 和 Huawei Ascend 等各种硬件插件。
  • 前缀缓存支持
  • 多 LoRA 支持

更多信息,请查看以下内容