欢迎来到 vLLM#

每个人都可轻松、快速且廉价地进行 LLM 服务
vLLM 是一个快速且易于使用的 LLM 推理和服务库。
vLLM 最初在加州大学伯克利分校的 Sky Computing Lab 开发,现已发展成为一个社区驱动的项目,汇集了学术界和工业界的贡献。
vLLM 速度快,具有
最先进的服务吞吐量
使用 PagedAttention 有效管理注意力键和值内存
传入请求的连续批处理
使用 CUDA/HIP 图的快速模型执行
优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。
推测解码
分块预填充
vLLM 灵活且易于使用,具有
与流行的 HuggingFace 模型无缝集成
具有各种解码算法(包括并行采样、集束搜索等)的高吞吐量服务
用于分布式推理的张量并行和流水线并行支持
流式输出
OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
前缀缓存支持
多 LoRA 支持
有关更多信息,请查看以下内容
vLLM 发布博客文章(PagedAttention 简介)
vLLM 论文 (SOSP 2023)
连续批处理如何在 LLM 推理中实现 23 倍吞吐量,同时降低 p50 延迟,作者:Cade Daniel 等。
文档#
设计文档
V1 设计文档
开发者指南