欢迎来到 vLLM¶


人人可用的便捷、快速、经济的 LLM 服务
vLLM 是一个用于 LLM 推理和服务的快速易用库。
vLLM 最初由加州大学伯克利分校的天空计算实验室开发,现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。
vLLM 具有以下优势:
- 最先进的服务吞吐量
- 通过 PagedAttention 有效管理注意力键值内存
- 对传入请求进行连续批处理
- 使用 CUDA/HIP 图进行快速模型执行
- 量化:GPTQ、AWQ、INT4、INT8 和 FP8
- 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。
- 推测解码
- 分块预填充
vLLM 具有以下灵活性和易用性:
- 与流行的 HuggingFace 模型无缝集成
- 支持各种解码算法的高吞吐量服务,包括并行采样、集束搜索等
- 支持张量并行、流水线并行、数据并行和专家并行,用于分布式推理
- 流式输出
- 兼容 OpenAI 的 API 服务器
- 支持英伟达 GPU、AMD CPU 和 GPU、英特尔 CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
- 前缀缓存支持
- 多 LoRA 支持
更多信息,请查阅以下内容:
- vLLM 发布博客文章 (PagedAttention 介绍)
- vLLM 论文 (SOSP 2023)
- Cade Daniel 等人的文章:连续批处理如何在 LLM 推理中将吞吐量提高 23 倍同时降低 p50 延迟
- vLLM 交流会