欢迎来到 vLLM¶
人人都能轻松、快速、低成本地部署LLM
vLLM是一个用于LLM推理和部署的快速易用库。
vLLM最初由加州大学伯克利分校的Sky Computing Lab开发,现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。
vLLM的入门方式取决于用户类型。如果您希望:
有关vLLM开发的信息,请参阅
vLLM 速度快,具备以下特点:
- 最先进的部署吞吐量
- 使用PagedAttention高效管理注意力键和值内存
- 传入请求的连续批处理
- 使用CUDA/HIP图进行快速模型执行
- 量化:GPTQ、AWQ、INT4、INT8和FP8
- 优化的CUDA内核,包括与FlashAttention和FlashInfer的集成。
- 推测解码
- 分块预填充
vLLM 灵活易用,具备以下特点:
- 与流行的HuggingFace模型无缝集成
- 通过各种解码算法实现高吞吐量服务,包括*并行采样*、*束搜索*等
- 支持张量、流水线、数据和专家并行以进行分布式推理
- 流式输出
- 与OpenAI兼容的API服务器
- 支持NVIDIA GPU、AMD CPU和GPU、Intel CPU和GPU、PowerPC CPU、Arm CPU和TPU。此外,还支持各种硬件插件,如Intel Gaudi、IBM Spyre和华为Ascend。
- 前缀缓存支持
- 多LoRA支持
更多信息,请查看以下内容:
- vLLM 发布博客文章 (PagedAttention介绍)
- vLLM 论文 (SOSP 2023)
- Cade Daniel 等人撰写的连续批处理如何使LLM推理吞吐量提高23倍,同时降低p50延迟
- vLLM 会议