欢迎使用 vLLM¶
人人都能轻松、快速、廉价地使用 LLM
vLLM 是一个用于 LLM 推理和服务的快速易用的库。
vLLM 最初是在加州大学伯克利分校的 Sky Computing Lab 开发的,现已发展成为一个社区驱动的项目,融合了学术界和工业界的贡献。
如何开始使用 vLLM 取决于您的用户类型。如果您打算
有关 vLLM 开发的信息,请参阅
vLLM 速度飞快,得益于
- 最先进的服务吞吐量
- 通过 PagedAttention 高效管理注意力键值内存
- 对进来的请求进行连续批处理
- 通过 CUDA/HIP 图实现快速模型执行
- 量化:GPTQ, AWQ, INT4, INT8 和 FP8
- 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。
- 投机解码
- 分块预填充
vLLM 具有灵活性和易用性,支持
- 与流行的 HuggingFace 模型无缝集成
- 通过各种解码算法实现高吞吐量服务,包括 *并行采样*、*束搜索* 等
- 支持张量、流水线、数据和专家并行进行分布式推理
- 流式输出
- 兼容 OpenAI 的 API 服务器
- 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、Arm CPU 和 TPU。此外,还支持 Intel Gaudi、IBM Spyre 和 Huawei Ascend 等各种硬件插件。
- 支持前缀缓存
- 多 LoRA 支持
更多信息,请查看以下内容
- vLLM 发布博文(PagedAttention 简介)
- vLLM 论文(SOSP 2023)
- Cade Daniel 等人撰写的《连续批处理如何实现 LLM 推理吞吐量提高 23 倍,同时降低 P50 延迟》(How continuous batching enables 23x throughput in LLM inference while reducing p50 latency)
- vLLM Meetups