欢迎来到 vLLM

欢迎来到 vLLM#

vLLM

为所有人提供简单、快速且廉价的 LLM 服务

Star Watch Fork

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

vLLM 最初在加州大学伯克利分校的 Sky Computing Lab 开发,现已发展成为一个社区驱动的项目,汇集了学术界和工业界的贡献。

vLLM 具有以下快速特性:

  • 最先进的服务吞吐量

  • 使用 PagedAttention 有效管理注意力机制的键和值内存

  • 传入请求的连续批处理

  • 通过 CUDA/HIP 图快速模型执行

  • 量化:GPTQAWQ、INT4、INT8 和 FP8

  • 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。

  • 推测解码

  • 分块预填充

vLLM 灵活且易于使用,具有以下特点:

  • 与流行的 HuggingFace 模型无缝集成

  • 通过各种解码算法(包括并行采样束搜索等)实现高吞吐量服务

  • 张量并行和流水线并行支持分布式推理

  • 流式输出

  • 兼容 OpenAI 的 API 服务器

  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU、Gaudi® 加速器和 GPU、PowerPC CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。

  • 前缀缓存支持

  • 多 LoRA 支持

有关更多信息,请查看以下内容:

文档#

索引和表格#